أجرت مجموعة من الباحثين من جامعة نورث كارولينا (جامعة ولاية كارولينا الشمالية ، NCSU) دراسة عن الخدمة لاستضافة مشاريع تكنولوجيا المعلومات وتطويرهم المشترك لـ GitHub. لقد وجد الخبراء أن أكثر من 100 ألف مستودع لـ GitHub تحتوي على مفاتيح API وعلامات رمزية ومفاتيح تشفير.

لطالما كانت مشكلة التسرب غير المقصود للمعلومات الهامة (مفاتيح التشفير ، الرموز ، ومفاتيح API من مختلف الخدمات عبر الإنترنت ، وما إلى ذلك) واحدة من أهم الموضوعات.
وبفضل هذه التسريبات ، حدثت بالفعل العديد من الحوادث الكبرى مع البيانات الشخصية (Uber ، DJI ، DXC Technologies ، إلخ).
بين 31 أكتوبر 2017 و 20 أبريل 2018 ، قام باحثون من NCSU بالزحف إلى 4،394،476 ملفًا في 681،784 مستودعًا من خلال واجهة برمجة تطبيقات البحث لـ GitHub نفسها و 2،312،763،353 ملفًا في 3،374،973 مستودعًا تم تجميعها مسبقًا في قاعدة بيانات Google BigQuery.
أثناء عملية المسح ، بحث الخبراء عن سلاسل يمكن أن تندرج تحت قوالب مفاتيح واجهة برمجة التطبيقات (Stripe ، MailChimp ، YouTube ، إلخ) ، الرموز (Amazon MWS ، PayPal Braintree ، Amazon AWS ، إلخ) أو مفاتيح التشفير (RSA ، PGP ، وما إلى ذلك).

في الإجمال ، وجد الخبراء حوالي 575،476 رمزًا (API) ومفاتيح تشفير ، مع 201،642 منها فريدة من نوعها. تم ربط 93.58٪ من عمليات البحث بحسابات بمالك واحد.

عند التحقق يدويًا من جزء من النتائج المحددة ، تم العثور على بيانات اعتماد AWS لموقع إحدى الإدارات الحكومية الرئيسية في إحدى دول أوروبا الغربية ولملقم مع ملايين طلبات القبول في كلية أمريكية.
تم الكشف عن اتجاه مثير للاهتمام خلال الدراسة: إذا اكتشف مالكو البيانات تسربًا ، فسيتم حذف 19٪ من البيانات التي يراقبها الخبراء ("محذوفة" ، انظر أدناه) في غضون 16 يومًا (12٪ منهم خلال اليوم الأول) ، و 81٪ لم تتم إزالتها خلال فترة الملاحظة.
الشيء الأكثر إثارة للاهتمام هو أن جميع البيانات "المحذوفة" التي لاحظها الباحثون لم يتم حذفها فعليًا ، وأصبح أصحابها ببساطة يرتكبون التزامًا جديدًا.
في نهاية العام الماضي ، كتبنا ملاحظة صغيرة على Habr ، وصفنا فيها كيفية استخدام حل DeviceLock DLP لمنع التسريبات غير المقصودة عن طريق التحكم في البيانات التي تم تنزيلها إلى GitHub.
يتم نشر الأخبار المنتظمة حول الحالات الفردية لتسريبات البيانات بسرعة على قناة تسرب المعلومات .