Un groupe de chercheurs de l'Université de Caroline du Nord (North Carolina State University, NCSU) a mené une étude sur le service d'hébergement de projets informatiques et leur développement conjoint de GitHub. Les experts ont découvert que plus de 100 000 référentiels GitHub contiennent des clés API, des jetons et des clés cryptographiques.

Le problème d'une fuite involontaire d'informations critiques (clés de chiffrement, jetons et clés API de divers services en ligne, etc.) a longtemps été l'un des sujets les plus chauds.
Grâce à ces fuites, plusieurs incidents majeurs avec des données personnelles se sont déjà produits (Uber, DJI, DXC Technologies, etc.).
Entre le 31 octobre 2017 et le 20 avril 2018, les chercheurs du NCSU ont analysé 4 394 476 fichiers dans 681 784 référentiels via l'API de recherche de GitHub lui-même et 2 312 763 353 fichiers dans 3 374 973 référentiels précompilés dans la base de données Google BigQuery.
En cours de numérisation, les experts ont recherché des chaînes qui correspondraient aux schémas de clés API (Stripe, MailChimp, YouTube, etc.), de jetons (Amazon MWS, PayPal Braintree, Amazon AWS, etc.) ou de clés cryptographiques (RSA, PGP, etc.).

Au total, les experts ont trouvé environ 575 476 jetons, API et clés cryptographiques, dont 201 642 sont uniques. 93,58% des découvertes étaient associées à des comptes avec un seul propriétaire.

Lors de la vérification manuelle d'une partie des résultats sélectionnés, les informations d'identification AWS ont été trouvées pour le site d'un département gouvernemental majeur dans l'un des pays d'Europe occidentale et pour un serveur avec des millions de demandes d'admission dans un collège américain.
Une tendance intéressante a été révélée au cours de l'étude: si les propriétaires des données détectaient une fuite, alors 19% des données surveillées par des experts étaient supprimées (comme «supprimées», voir ci-dessous) dans les 16 jours (12% d'entre elles le premier jour), et 81% n'ont pas été retirés pendant la période d'observation.
La chose la plus intéressante est que toutes les données «supprimées» que les chercheurs ont observées n'ont pas été réellement supprimées physiquement, et leurs propriétaires ont simplement fait un nouveau commit.
À la fin de l'année dernière, nous avons écrit une petite note sur Habr , dans laquelle nous décrivions comment utiliser la solution DeviceLock DLP pour éviter les fuites involontaires en contrôlant les données téléchargées sur GitHub.
Des informations régulières sur des cas individuels de fuites de données sont rapidement publiées sur le canal des fuites d'informations .