Recientemente, ha habido muchas noticias sobre filtraciones aleatorias de varios datos confidenciales de un servicio web para alojar proyectos de TI y su desarrollo conjunto por GitHub.
Destaco que se tratar谩 de fugas aleatorias, es decir ocurri贸 por negligencia y sin intenci贸n maliciosa por parte de los autores de los incidentes. Descarte tales filtraciones sobre la inexperiencia de los empleados en asuntos de TI no funcionar谩, porque Los usuarios de GitHub son abrumadoramente desarrolladores, es decir Personal totalmente calificado y competente. Desafortunadamente, incluso los muy buenos especialistas a veces cometen errores triviales, especialmente cuando se trata de problemas de seguridad. Consideremos negligencia.
Aqu铆 hay algunos ejemplos muy famosos relacionados con GitHub:
- 2014 - Uber filtr贸 los datos personales de 50 mil de sus conductores. La raz贸n fue que en el repositorio p煤blico de GitHub, los desarrolladores de Uber guardaron Amazon Cloud Access Keys (AWS), que, a su vez, almacen贸 los mismos datos perdidos.
- 2017: result贸 que los desarrolladores del fabricante de quadrocopters DJI almacenaron en el repositorio p煤blico GitHub la clave privada del certificado SSL de la compa帽铆a y las claves AES para cifrar el firmware. Adem谩s, las credenciales para Amazon Web Services se almacenaron all铆, que, a su vez, conten铆an registros de vuelo, datos de pasaportes e informaci贸n de licencia de cliente DJI.
- 2017: un ingeniero de un importante proveedor de TI de EE. UU., DXC Technologies subi贸 las claves de acceso de AWS al repositorio p煤blico de GitHub.
- 2017: los c贸digos fuente, informes y planes de desarrollo para varias instituciones financieras importantes en Canad谩, Estados Unidos y Jap贸n, que fueron colocados all铆 por empleados de la empresa de externalizaci贸n india Tata Consultancy Service, cuyos clientes eran instituciones financieras afectadas, fueron descubiertos en el repositorio p煤blico de GitHub.
Obviamente, todos estos casos de fugas involuntarias podr铆an prevenirse f谩cilmente mediante el monitoreo de los datos cargados en GitHub. Nadie habla de una prohibici贸n total del acceso a GitHub, esta es una idea in煤til e incluso da帽ina (si hay una prohibici贸n, pero se necesita el servicio, entonces los desarrolladores evitar谩n esta prohibici贸n). Necesitamos una soluci贸n que evite la fuga de informaci贸n y tenga un analizador de contenido en tiempo real que evite que GitHub cargue solo datos que no deber铆an estar all铆 por razones de seguridad (por ejemplo, claves de acceso a la nube de Amazon).
Le mostrar茅 c贸mo resolver este problema espec铆fico, utilizando el DeviceLock DLP como ejemplo. Los datos iniciales que tenemos son los siguientes:
- Cuenta de GitHub,
- Clave de AWS,
- DeviceLock DLP versi贸n 8.3.
Para empezar, determinamos que la clave de AWS son los datos protegidos y que se debe evitar que llegue a GitHub.

Dado que la clave es un conjunto de bytes sin firmas pronunciadas (s铆, conozco el texto "COMENZAR / FINALIZAR CLAVE PRIVADA" al principio y al final, pero esta es una firma muy d茅bil y es mejor no confiar en ella), usaremos identificaci贸n en huellas digitales .

Agregaremos el archivo de clave a la base de datos de huellas digitales DeviceLock DLP para que el producto "conozca" nuestra clave "en persona" y luego pueda identificarla de forma exclusiva (y no confundirla, por ejemplo, con claves de prueba que bien pueden cargarse en GitHub).

Ahora, creemos una regla de filtrado de contenido para el almacenamiento de archivos en DeviceLock DLP (GitHub se incluye en nuestra clasificaci贸n de "almacenamiento de archivos", en la que, adem谩s de GitHub, se admiten m谩s de 15 servicios diferentes de intercambio y sincronizaci贸n de archivos).

De acuerdo con esta regla, se proh铆be a los usuarios descargar datos con huellas digitales que coincidan con los especificados anteriormente, y si se detectan datos prohibidos, los eventos correspondientes (registros de incidentes) y las instant谩neas deben registrarse en los registros de archivo centralizados, adem谩s de la ejecuci贸n real de la acci贸n con la prohibici贸n de descargar datos a GitHub .
Ahora intentemos cargar la clave de AWS en el repositorio de GitHub.

Como puede ver, el proceso de descarga "por alguna raz贸n" fall贸, y DeviceLock DLP nos advirti贸 que hab铆a bloqueado esta operaci贸n (por supuesto, el mensaje es personalizable y deshabilitado).

Al mismo tiempo, si mira el registro de instant谩neas de DeviceLock DLP, puede encontrar la misma clave all铆.

Por lo tanto, en este ejemplo, se mostr贸 c贸mo usar DeviceLock DLP para resolver el problema particular de evitar la filtraci贸n de datos confidenciales (se pueden tomar huellas digitales de casi cualquier archivo) al almacenamiento en la nube.
Por supuesto, adem谩s de evitar la fuga de datos en GitHub, tambi茅n puede inventariar peri贸dicamente repositorios e identificar informaci贸n en ellos que no deber铆a estar all铆. Con el fin de escanear repositorios de GitHub, se han creado las utilidades gratuitas Gittyleaks, Git Secrets, Git Hound, Truffle Hog y muchos otros.