Les ingénieurs de l'Université du Maryland ont développé un système qui "contourne" reCAPTCHA de Google avec une probabilité de près de cent pour cent. Il utilise des algorithmes de reconnaissance vocale pour résoudre le captcha audio. Nous expliquons comment cela fonctionne.
Photographie photographique Montréal / PDContexte
Pour la première fois, les développeurs de l'Université du Maryland ont
introduit un système pour contourner le «son» reCAPTCHA (ils ont appelé leur solution unCAPTCHA) en 2017. Ensuite, le captcha audio Google était un enregistrement dans lequel l'annonceur a appelé une séquence de chiffres. Les auteurs ont utilisé des algorithmes de reconnaissance vocale pour automatiser le processus de saisie des valeurs. Ils ont réussi à atteindre la précision de la solution captcha à 85%.
Les auteurs ont envoyé des informations sur la vulnérabilité à Google. Le géant informatique a
mis à jour reCAPTCHA dans lequel il a remplacé la séquence de nombres par des phrases. Cependant, à la fin de l'année dernière, les ingénieurs du Maryland ont finalisé leur réseau neuronal. Elle a réussi à contourner le captcha audio mis à jour avec une précision de 90%.
Comment ça marche
Le bot visite une page sur Internet protégée par reCAPTCHA, puis effectue plusieurs actions pour simuler le comportement humain. Après avoir cliqué sur le captcha et sélectionné l'option pour le résoudre à l'aide d'enregistrements audio.
Dans la version 2017 unCAPTCHA, le fichier audio était
divisé en segments. Les marqueurs étaient des pauses entre les nombres. Le résultat fut plusieurs enregistrements sonores avec des mots séparés. Les développeurs ont envoyé ces enregistrements aux services de reconnaissance vocale du cloud: Google Cloud Speech-to-Text API </ iron>, Bing Speech Recognition, IBM Bluemix et Wit-AI. Ils ont déterminé le contenu des enregistrements audio par le modèle de fréquence du spectrogramme. Dans le même temps, plusieurs services cloud ont été utilisés par les développeurs pour minimiser l'erreur de reconnaissance des valeurs numériques.
UnCAPTCHA v1 a ensuite compilé la soi-disant carte phonétique. Il comprenait des réponses de différents systèmes pour le même passage. De plus, un réseau de neurones convolutionnels est entré en jeu, qui a extrait des mots de la carte qui n'indiquaient pas le nom du chiffre, corrigé les erreurs et choisi la réponse la plus probable pour remplir reCAPTCHA. En général, le processus est le suivant:

Dans la deuxième version de unCAPTCHA (introduite en décembre), la segmentation et une carte phonétique n'étaient
plus nécessaires . Le captcha Google mis à jour utilise des expressions distinctes au lieu de chiffres, et leurs services cloud déterminent mieux. Par conséquent, il était possible d'obtenir une grande précision dans la reconnaissance du captcha audio à l'aide d'un seul outil - Google Speech-to-Text. Après analyse, le bot entre immédiatement le texte reçu dans la ligne captcha.
Voici à
quoi ressemble l' audio dans le cloud et la saisie d'une réponse (depuis le référentiel sur GitHub). La démonstration du programme est visible
sur ce gif-ke .
Ce qu'ils disent de la technologie
Selon les auteurs de unCAPTCHA, la nouvelle version du captcha de Google n'a pas compliqué, mais au contraire simplifié le hack. Désormais, le service de saisie automatique n'a plus besoin d'envoyer de requêtes à différentes plates-formes cloud et de former un réseau neuronal distinct pour évaluer les résultats.
Photo AdNorrel / CC BY-SAPour défendre reCAPTCHA, il convient de noter que la nouvelle version a néanmoins ajouté plusieurs obstacles pour les pirates. La première consiste à simuler le comportement des utilisateurs sur la page devenue plus difficile. Dans unCAPTCHA v1, l'enregistrement du compte était entièrement automatisé avec
Selenium . Maintenant, captcha Google
reconnaît si la page utilise ce service et bloque automatiquement l'accès. Les développeurs de l'Université du Maryland ont dû prescrire manuellement les actions "utilisateur" et changer le script pour chaque nouvelle tentative d'entrée. Alors que les ingénieurs du Maryland travaillaient sur leur solution, Google a de nouveau mis à jour reCAPTCHA, et unCAPTCHA ne peut toujours pas la gérer. Cependant, de nombreux sites utilisent toujours des versions plus anciennes de la protection DDoS. Par conséquent, la vulnérabilité reste pertinente.
Sinon, comment capturer le captcha audio
Sur le réseau, vous pouvez trouver des informations sur d'autres solutions pour pirater le captcha audio. L'un des premiers systèmes était basé sur la classification manuelle des fichiers audio. L'audio a été divisé en segments avec des mots séparés - lettres et chiffres, qui étaient corrélés avec leurs spectrogrammes. Par exemple, cette méthode de piratage a été proposée par le projet devoicecaptcha de 2006. Ensuite, le programme a contourné le captcha de Google avec une précision de 33%.
D'autres projets ont mis en œuvre des algorithmes plus complexes qui ont complètement automatisé le processus de résolution du captcha. Par exemple, ils ont utilisé le programme
Sphinx pour le piratage, qui a été développé à la fin des années 1990 à l'Université Carnegie Mellon. Sphinx a piraté le captcha sur le site Web d'eBay dans 75% des cas, mais plus tard, son efficacité est tombée à 25-30%.
En 2012, les auteurs du projet Stiltwalker ont introduit un réseau neuronal capable de distinguer le «motif» de fréquence des mots individuels, malgré le bruit de fond. Selon
les développeurs, le système a réussi à contourner le contrôle de validation actuel de Google à ce moment-là dans 99% des cas.
Quant aux créateurs de unCAPTCHA, nous sommes susceptibles
d'en savoir plus sur leur travail. Il y a une chance qu'ils essaient de casser la reCAPTCHA mise à jour pour la troisième fois de la même manière.
Lecture supplémentaire de notre chaîne Telegram et «Hi-Fi World»:
Qu'est-ce que l'audio 8D - discuter d'une nouvelle tendance
Puce Bluetooth qui n'a pas besoin de batterie
A.
Les scientifiques apprennent à transmettre le son avec des lasers
A.
Le label KPM a numérisé l'ensemble de son catalogue