Um grupo de pesquisadores da Universidade da Carolina do Norte (Universidade Estadual da Carolina do Norte, NCSU) realizou um estudo sobre o serviço de hospedagem de projetos de TI e seu desenvolvimento conjunto do GitHub. Especialistas descobriram que mais de 100 mil repositórios do GitHub contêm chaves API, tokens e chaves criptográficas.

O problema de um vazamento não intencional de informações críticas (chaves de criptografia, tokens e chaves de API de vários serviços online etc.) tem sido um dos tópicos mais quentes.
Graças a esses vazamentos, vários incidentes importantes com dados pessoais já ocorreram (Uber, DJI, DXC Technologies, etc.).
Entre 31 de outubro de 2017 e 20 de abril de 2018, os pesquisadores do NCSU rastrearam 4.394.476 arquivos em 681.784 repositórios através da API de pesquisa do próprio GitHub e 2.312.763.353 arquivos em 3.374.973 repositórios pré-compilados no banco de dados do Google BigQuery.
No processo de verificação, os especialistas procuraram por seqüências de caracteres que se enquadram nos modelos de chaves de API (Stripe, MailChimp, YouTube etc.), tokens (Amazon MWS, PayPal Braintree, Amazon AWS etc.) ou chaves criptográficas (RSA, PGP, etc.).

No total, os especialistas encontraram cerca de 575.476 tokens, API e chaves criptográficas, sendo 201.642 deles exclusivos. 93,58% das descobertas foram associadas a contas com um proprietário.

Ao verificar manualmente parte dos resultados selecionados, foram encontradas credenciais da AWS no site de um grande departamento governamental em um dos países da Europa Ocidental e em um servidor com milhões de pedidos de admissão em uma faculdade americana.
Uma tendência interessante foi revelada durante o estudo: se os proprietários dos dados detectaram um vazamento, 19% dos dados monitorados por especialistas foram excluídos (como "excluídos", veja abaixo) em 16 dias (12% deles no primeiro dia) e 81% não foram removidos durante o período de observação.
O mais interessante é que todos os dados "excluídos" que os pesquisadores observaram não foram realmente excluídos fisicamente e seus proprietários simplesmente fizeram um novo commit.
No final do ano passado, escrevemos uma pequena nota sobre o Habr , na qual descrevemos como usar a solução DeviceLock DLP para evitar vazamentos não intencionais, controlando os dados baixados no GitHub.
Notícias regulares sobre casos individuais de vazamento de dados são rapidamente publicadas no canal de vazamento de informações .