Nota del traductor: el motivo de la traducción del artículo fue la recepción de una notificación de que me informaron que mis datos estaban en esta filtración.
La semana pasada, los investigadores de seguridad Bob Diachenko y Vinny Troia
descubrieron una insegura base de datos MongoDB que contenía 150 gigabytes de información de marketing de texto claro, incluidos 763 millones de direcciones de correo electrónico únicas. El hallazgo no solo es enorme, sino también inusual. Contiene datos sobre clientes individuales, así como "información comercial", como datos sobre empleados e ingresos de varias compañías. Esta diversidad puede atribuirse a la fuente de información: una base de datos propiedad de Verification.io para "verificar" las direcciones de correo electrónico. La base se desconectó el mismo día en que el investigador informó a la empresa al respecto.

Aunque probablemente nunca haya oído hablar de ellos, tales compañías juegan un papel crucial en la industria del marketing electrónico. No envían correos electrónicos de marketing en su nombre y no realizan correos automáticos. En cambio, verifican la lista de clientes para asegurarse de que las direcciones de correo electrónico que contiene son válidas y no se devuelven con un error. Pero una verificación completa de que la dirección de correo electrónico está funcionando incluye enviar un mensaje a esta dirección y confirmar que se entregó, esencialmente enviando correo no deseado a las personas. Esto significa evitar el bloqueo de ISP y plataformas como Gmail. (Hay formas menos crudas de verificar las direcciones de correo electrónico, pero tienen una compensación en falsos positivos). Los principales proveedores de correo electrónico a menudo externalizan este trabajo, en lugar de arriesgarse a poner en una lista negra su infraestructura.
"Las empresas tienen listas de correo electrónico y quieren comenzar a enviarles correos, pero no están seguras de cuán confiables son", dice Troia, fundadora de Night Lion Security. "Entonces van a una empresa que esencialmente envía spam". Troia sugiere que la base de datos puede ser tan grande y diversa porque contiene todos los datos de los clientes Verification.io. WIRED no pudo contactar a la compañía o al CEO Vlad Strelkov durante varios días. El lunes, el sitio web Verification.io se apagó y no se ha restaurado desde entonces. (
copia en el archivo de Internet aprox. transl. )
En total, 809 millones de entradas en la base de datos Verification.io incluyen información estándar como nombres, direcciones de correo electrónico, números de teléfono y direcciones físicas. Pero muchos también incluyen información como género, fecha de nacimiento, tamaño del préstamo hipotecario, tasa de interés, cuentas de Facebook, LinkedIn e Instagram asociadas con direcciones de correo electrónico, así como características de la calificación crediticia de las personas (por ejemplo, promedio, superior al promedio, etc.) .d.). Mientras tanto, otras entradas en la base de datos parecen estar relacionadas con ventas B2B, incluidos nombres de empresas, cifras de ingresos anuales, números de fax, sitios web de empresas e identificadores de la industria para la clasificación de empresas (códigos "SIC" y "NAIC").

Los datos no contienen números de seguridad social o números de tarjetas de crédito, y las únicas contraseñas en la base de datos son para la propia infraestructura de Verification.io. En general, la mayoría de los datos están disponibles públicamente de varias fuentes, pero cuando los delincuentes pueden tener una gran cantidad de datos agregados en sus manos, será mucho más fácil para ellos lanzar nuevos esquemas de fraude o expandir la base de datos objetivo.
En una base de datos abierta, los investigadores también encontraron algunas de las herramientas internas de Verification.io, como cuentas de correo electrónico de prueba, cientos de servidores SMTP (envío de correos electrónicos), correos electrónicos de texto, infraestructura antispam, palabras clave para evitar y Direcciones IP para listas negras. Diachenko supone que los clientes de Verification.io descargan una hoja de cálculo de Excel que contiene las direcciones de correo electrónico para verificar, y luego Verification.io ejecuta sus pruebas y devuelve listas de direcciones de trabajo y las que respondieron con un error. Es posible, dada la fragmentación de los datos y la evidencia de que se importaron de muchos archivos de Excel diferentes, que Verification.io también retuvo algunos o todos los datos recibidos de los clientes después de verificar las direcciones de correo electrónico.
Los investigadores verificaron datos de muestra con compañías listadas como clientes de Verification.io. Troia dice que su propia información ha aparecido en la base de datos. WIRED habló con el propietario de una empresa de marketing por correo electrónico. Confirmó la exactitud de los datos. WIRED también verificó a cuatro personas, pero no las encontró en la lista. Diachenko y Troia también señalan que no tienen forma de saber si alguien encontró datos de Verification.io cuando estaban disponibles públicamente. "No tengo idea si alguien más tiene acceso a esto aparte de nosotros", dice Troia. "Pero definitivamente estaba disponible para que todos lo descargaran".
El investigador de seguridad Troy Hunt ha agregado datos Verification.io a su servicio
HaveIBeenPwned , que ayuda a las personas a verificar si sus datos se han visto comprometidos por fugas. Dijo que el 35% de los 763 millones de direcciones de correo electrónico son nuevos en la base de datos HaveIBeenPwned. El volcado Verification.io también es el segundo más grande que se haya agregado a HaveIBeenPwned por la cantidad de direcciones de correo electrónico después de 773 millones, conocidas como Colección # 1, que se agregaron a principios de este año. Hunt dice que parte de su propia información está incluida en la base de datos Verification.io.
"La conclusión principal para mí es que este es solo otro caso en el que alguien tiene mis datos y cientos de millones de datos de otras personas, y no sé cómo lo obtuvieron", dice Hunt. "Nunca había oído hablar de una compañía hasta ahora, y ciertamente no puedo recordar si tienen consentimiento para usar mis datos. Por supuesto, es muy posible que algunos de los términos y condiciones del servicio indiquen que pueden usar mis datos de una manera que no es fiel a mis expectativas sobre cómo deberían usarse mis datos ".
La naturaleza fragmentada de los datos presentados Verification.io habla del estado caótico de la industria de datos en su conjunto. La información personal se transfiere a grandes corporaciones como Facebook, comprada y vendida por vendedores dudosos, o robada a gigantes de datos y está destinada a difundirse sin cesar en el purgatorio de los foros criminales. Se hace más difícil para los usuarios controlar quién tiene sus datos y dónde se encuentran. Como dice Hunt: "Desafortunadamente, este es solo otro día en Internet".
Nota del traductor: esta es mi primera traducción en Habr. Solicito información sobre errores e inexactitudes en los mensajes personales.