Un grupo de investigadores de la Universidad de Carolina del Norte (Universidad Estatal de Carolina del Norte, NCSU) realizó un estudio del servicio para alojar proyectos de TI y su desarrollo conjunto de GitHub. Los expertos han descubierto que más de 100 mil repositorios de GitHub contienen claves API, tokens y claves criptográficas.

El problema de una fuga involuntaria de información crítica (claves de cifrado, tokens y claves API de varios servicios en línea, etc.) ha sido uno de los temas más candentes.
Debido a tales filtraciones, ya se han producido varios incidentes importantes con datos personales (Uber, DJI, DXC Technologies, etc.).
Entre el 31 de octubre de 2017 y el 20 de abril de 2018, los investigadores de la NCSU rastrearon 4,394,476 archivos en 681,784 repositorios a través de la API de búsqueda de GitHub y 2,312,763,353 archivos en 3,374,973 repositorios precompilados en la base de datos de Google BigQuery.
En el proceso de escaneo, los expertos buscaron cadenas que caen bajo los patrones de claves API (Stripe, MailChimp, YouTube, etc.), tokens (Amazon MWS, PayPal Braintree, Amazon AWS, etc.) o claves criptográficas (RSA, PGP, etc.).

En total, los expertos encontraron alrededor de 575,476 tokens, API y claves criptográficas, de las cuales 201,642 son únicas. El 93.58% de los hallazgos se asociaron con cuentas con un propietario.

Al verificar manualmente parte de los resultados seleccionados, se encontraron las credenciales de AWS para el sitio de un departamento gubernamental importante en uno de los países de Europa occidental y para un servidor con millones de solicitudes de admisión a una universidad estadounidense.
Durante el estudio se reveló una tendencia interesante: si los propietarios de los datos detectaron una fuga, el 19% de los datos monitoreados por los expertos se eliminaron (como "eliminados", ver más abajo) dentro de los 16 días (12% de ellos durante el primer día), y el 81% no fueron eliminados durante el período de observación.
Lo más interesante es que todos los datos "eliminados" que observaron los investigadores no se eliminaron físicamente, y sus propietarios simplemente hicieron una nueva confirmación.
A fines del año pasado, escribimos una pequeña nota sobre Habr , en la que describimos cómo usar la solución DeviceLock DLP para evitar fugas involuntarias mediante el control de los datos descargados a GitHub.
Las noticias periódicas sobre casos individuales de fuga de datos se publican rápidamente en el canal de fuga de información .