Note du traducteur - la raison de la traduction de l'article était la réception d'une notification Have I Been Pwned que mes données se trouvaient dans cette fuite.
La semaine dernière, les chercheurs en sécurité Bob Diachenko et Vinny Troia ont
découvert une base de données MongoDB non sécurisée contenant 150 gigaoctets d'informations marketing en texte clair, dont 763 millions d'adresses e-mail uniques. La découverte est non seulement énorme, mais aussi inhabituelle. Il contient des données sur les clients individuels, ainsi que des «informations commerciales», telles que des données sur les employés et les revenus de diverses sociétés. Cette diversité peut être attribuée à la source d'information: une base de données détenue par Verification.io pour «vérifier» les adresses e-mail. La base a été déconnectée le même jour lorsque le chercheur en a informé l'entreprise.

Bien que vous n'en ayez probablement jamais entendu parler, ces entreprises jouent un rôle crucial dans l'industrie du e-marketing. Ils n'envoient pas d'e-mails marketing en leur nom et n'effectuent pas de publipostage automatisé. Au lieu de cela, ils vérifient la liste des clients pour s'assurer que les adresses e-mail qu'elle contient sont valides et ne sont pas retournées avec une erreur. Mais une vérification complète du fonctionnement de l'adresse e-mail comprend l'envoi d'un message à cette adresse et la confirmation de sa remise - essentiellement l'envoi de spam à des personnes. Cela signifie éviter de bloquer les FAI et les plates-formes telles que Gmail. (Il existe des moyens moins grossiers de vérifier les adresses e-mail, mais ils ont un compromis en termes de faux positifs.) Les principaux fournisseurs de messagerie externalisent souvent ce travail, plutôt que de risquer de mettre leur infrastructure sur liste noire.
«Les entreprises ont des listes de diffusion et souhaitent commencer à leur envoyer des e-mails, mais elles ne savent pas à quel point elles sont fiables», explique Troia, fondatrice de Night Lion Security. "Ils vont donc dans une entreprise qui envoie essentiellement du spam." Troia suggère que la base de données peut être si grande et diversifiée car elle contient toutes les données des clients Verification.io. WIRED n'a pas pu contacter la société ou le PDG Vlad Strelkov pendant plusieurs jours. Lundi, le site Web Verification.io a été désactivé et n'a pas été restauré depuis. (
copie dans les archives Internet env. trad. )
Au total, 809 millions d'entrées dans la base de données Verification.io incluent des informations standard telles que les noms, adresses e-mail, numéros de téléphone et adresses physiques. Mais beaucoup incluent également des informations telles que le sexe, la date de naissance, la taille du prêt hypothécaire, le taux d'intérêt, les comptes Facebook, LinkedIn et Instagram associés aux adresses e-mail, ainsi que les caractéristiques de la cote de crédit des personnes (par exemple, moyenne, supérieure à la moyenne, etc.) .d.). Pendant ce temps, d'autres entrées dans la base de données semblent être liées aux ventes B2B, y compris les noms d'entreprises, les chiffres d'affaires annuels, les numéros de fax, les sites Web des entreprises et les identifiants de l'industrie pour la classification des entreprises (codes «SIC» et «NAIC»).

Les données ne contiennent aucun numéro de sécurité sociale ni numéro de carte de crédit, et les seuls mots de passe de la base de données sont pour la propre infrastructure de Verification.io. En général, la plupart des données sont accessibles au public à partir de diverses sources, mais lorsque les criminels peuvent obtenir de nombreuses données agrégées, il leur sera beaucoup plus facile de lancer de nouveaux stratagèmes de fraude ou d'élargir la base de données cible.
Dans une base de données ouverte, les chercheurs ont également trouvé certains des outils internes de Verification.io, tels que les comptes de messagerie de test, des centaines de serveurs SMTP (envoi d'e-mails), des e-mails texte, une infrastructure anti-spam, des mots-clés à éviter et Adresses IP pour la liste noire. Diachenko suppose que les clients Verification.io téléchargent une feuille de calcul Excel contenant les adresses électroniques à vérifier, puis Verification.io exécute ses tests et renvoie des listes d'adresses professionnelles et celles qui ont répondu avec une erreur. Il est possible, étant donné la fragmentation des données et la preuve qu'elles ont été importées de nombreux fichiers Excel différents, que Verification.io a également conservé une partie ou la totalité des données reçues des clients après vérification des adresses e-mail.
Les chercheurs ont vérifié les échantillons de données auprès des sociétés répertoriées comme clients Verification.io. Troia dit que ses propres informations sont apparues dans la base de données. WIRED s'est entretenu avec le propriétaire d'une société de marketing par e-mail. Il a confirmé l'exactitude des données. WIRED a également vérifié quatre personnes, mais ne les a pas trouvées sur la liste. Diachenko et Troia notent également qu'ils n'ont aucun moyen de savoir si quelqu'un a trouvé des données Verification.io lorsqu'elles étaient accessibles au public. «Je ne sais pas si quelqu'un d'autre a accès à cela autre que nous», explique Troia. "Mais il était définitivement disponible pour tout le monde à télécharger."
Le chercheur en sécurité Troy Hunt a ajouté des données Verification.io à son service
HaveIBeenPwned , qui aide les gens à vérifier si leurs données ont été compromises par des fuites. Il a déclaré que 35% des 763 millions d'adresses e-mail sont nouvelles dans la base de données HaveIBeenPwned. Le vidage Verification.io est également le deuxième plus grand jamais ajouté à HaveIBeenPwned par le nombre d'adresses e-mail après 773 millions, connues sous le nom de Collection # 1, qui ont été ajoutées plus tôt cette année. Hunt dit que certaines de ses propres informations sont incluses dans la base de données Verification.io.
"La principale conclusion pour moi est qu'il s'agit simplement d'un autre cas où quelqu'un a mes données et des centaines de millions de données d'autres personnes, et je ne sais absolument pas comment elles les ont obtenues", explique Hunt. «Je n'ai jamais entendu parler d'une entreprise jusqu'à présent, et je ne me souviens certainement pas si elle a donné son consentement pour utiliser mes données. Bien sûr, il est tout à fait possible que certaines des conditions générales de service disent qu’elles peuvent utiliser mes données d’une manière qui ne correspond pas à mes attentes quant à la façon dont mes données doivent être utilisées. »
La nature fragmentée des données présentées Verification.io parle de l'état chaotique de l'industrie des données dans son ensemble. Les informations personnelles sont transférées à d'énormes sociétés telles que Facebook, achetées et vendues par des spécialistes du marketing douteux, ou volées à des géants des données et sont vouées à être diffusées à l'infini dans le purgatoire des forums criminels. Il devient plus difficile pour les utilisateurs de contrôler qui détient leurs données et où elles se trouvent. Comme le dit Hunt: «Malheureusement, ce n'est qu'un autre jour sur Internet.»
Note du traducteur - ceci est ma première traduction sur Habr, je demande à informer sur les erreurs et les inexactitudes dans les messages personnels.