Wie der Audio-Riese IT-Riese zum zweiten Mal „umgangen“ wurde

Ingenieure der University of Maryland haben ein System entwickelt, das reCAPTCHA von Google mit fast hundertprozentiger Wahrscheinlichkeit "umgeht". Es verwendet Spracherkennungsalgorithmen, um Audio-Captcha zu lösen. Wir erzählen, wie es funktioniert.


Foto photoymontreal / PD

Hintergrund


Zum ersten Mal führten Entwickler der University of Maryland 2017 ein System zur Umgehung des „soliden“ reCAPTCHA (sie nannten ihre Lösung unCAPTCHA) ein. Dann war Google Audio Captcha eine Aufzeichnung, in der der Ansager eine Folge von Zahlen anrief. Die Autoren verwendeten Spracherkennungsalgorithmen, um die Eingabe von Werten zu automatisieren. Es gelang ihnen, die Genauigkeit der Captcha-Lösung in 85% zu erreichen.

Die Autoren haben Informationen über die Sicherheitsanfälligkeit an Google gesendet. Der IT-Riese hat reCAPTCHA aktualisiert und dabei die Zahlenfolge durch Phrasen ersetzt. Ende letzten Jahres haben Ingenieure aus Maryland ihr neuronales Netzwerk fertiggestellt. Sie schaffte es, das aktualisierte Audio-Captcha mit einer Genauigkeit von 90% zu umgehen.

Wie funktioniert es?


Der Bot besucht eine durch reCAPTCHA geschützte Seite im Internet und führt dann mehrere Aktionen aus, um menschliches Verhalten zu simulieren. Nachdem er auf das Captcha geklickt und die Option ausgewählt hat, es mithilfe von Audioaufnahmen zu lösen.

In der unCAPTCHA-Version 2017 wurde die Audiodatei in Segmente aufgeteilt. Marker waren Pausen zwischen Zahlen. Das Ergebnis waren mehrere Tonaufnahmen mit getrennten Wörtern. Die Entwickler haben diese Aufzeichnungen an die Cloud-Spracherkennungsdienste gesendet: Google Cloud-Sprach-zu-Text-API </ iron>, Bing-Spracherkennung, IBM Bluemix und Wit-AI. Sie bestimmten den Inhalt der Audioaufnahmen anhand des Frequenzmusters des Spektrogramms. Gleichzeitig wurden mehrere Cloud-Dienste von Entwicklern verwendet, um den Fehler bei der Erkennung numerischer Werte zu minimieren.

Dann kompilierte unCAPTCHA v1 die sogenannte phonetische Karte. Es enthielt Antworten von verschiedenen Systemen für dieselbe Passage. Ferner kam ein Faltungsnetzwerk ins Spiel, das Wörter aus der Karte extrahierte, die den Namen der Ziffer nicht angaben, Fehler korrigierte und die wahrscheinlichste Antwort zum Ausfüllen von reCAPTCHA auswählte. Im Allgemeinen ist der Prozess wie folgt:



In der zweiten Version von unCAPTCHA (die im Dezember eingeführt wurde) wurden keine Segmentierung und keine phonetische Karte mehr benötigt . Das aktualisierte Google-Captcha verwendet separate Phrasen anstelle von Zahlen, und die Cloud-Dienste bestimmen dies besser. Daher war es möglich, mit einem einzigen Tool - Google Speech-to-Text - eine hohe Genauigkeit bei der Erkennung von Audio-Captcha zu erzielen. Nach der Analyse gibt der Bot den empfangenen Text sofort in die Captcha-Zeile ein.

So sieht das Senden von Audio in die Cloud und das Eingeben einer Antwort (aus dem Repository auf GitHub) aus . Die Demonstration des Programms ist auf diesem GIF-Ke zu sehen .

Was sie über Technologie sagen


Laut den Autoren von unCAPTCHA hat die neue Version von Googles Captcha den Hack nicht kompliziert, sondern im Gegenteil vereinfacht. Jetzt muss der Dienst für die automatische Eingabe keine Anforderungen mehr an verschiedene Cloud-Plattformen senden und ein separates neuronales Netzwerk trainieren, um die Ergebnisse auszuwerten.


Foto AdNorrel / CC BY-SA

Zur Verteidigung von reCAPTCHA ist anzumerken, dass die neue Version dennoch einige Hindernisse für Hacker hinzugefügt hat. Die erste besteht darin, das Benutzerverhalten auf der Seite zu simulieren, was schwieriger geworden ist. In unCAPTCHA v1 wurde die Kontoregistrierung mit Selenium vollständig automatisiert. Jetzt erkennt Captcha Google , ob die Seite diesen Dienst nutzt, und blockiert automatisch den Zugriff. Entwickler der University of Maryland mussten die "Benutzer" -Aktionen manuell vorschreiben und das Skript für jeden neuen Eingabeversuch ändern. Während Ingenieure aus Maryland an ihrer Lösung arbeiteten, hat Google reCAPTCHA erneut aktualisiert, und unCAPTCHA kann immer noch nicht damit umgehen. Viele Websites verwenden jedoch noch ältere Versionen des DDoS-Schutzes. Daher bleibt die Sicherheitsanfälligkeit relevant.

Wie sonst Audio Captcha gehackt


Im Netzwerk finden Sie Informationen zu anderen Lösungen zum Hacken von Audio-Captcha. Eines der ersten Systeme basierte auf der manuellen Klassifizierung von Audiodateien. Das Audio wurde in Segmente mit separaten Wörtern unterteilt - Buchstaben und Zahlen, die mit ihren Spektrogrammen korreliert waren. Diese Hacking-Methode wurde beispielsweise vom devoicecaptcha-Projekt 2006 vorgeschlagen. Dann umging das Programm Google Captcha mit einer Genauigkeit von 33%.

Andere Projekte implementierten komplexere Algorithmen, die den Prozess der Lösung von Captcha vollständig automatisierten. Zum Beispiel verwendeten sie das Sphinx- Programm zum Hacken, das erstmals Ende der neunziger Jahre an der Carnegie Mellon University entwickelt wurde. Sphinx hackte in 75% der Fälle Captcha auf der eBay-Website, aber später sank seine Wirksamkeit auf 25-30%.

2012 führten die Autoren des Stiltwalker-Projekts ein neuronales Netzwerk ein, mit dem das Frequenzmuster einzelner Wörter trotz Hintergrundgeräuschen unterschieden werden konnte. Laut den Entwicklern hat das System in 99% der Fälle die aktuelle Validierungsprüfung von Google zu diesem Zeitpunkt erfolgreich umgangen.

Was die Schöpfer von unCAPTCHA betrifft, werden wir wahrscheinlich mehr über ihre Arbeit erfahren. Es besteht die Möglichkeit, dass sie versuchen, das aktualisierte reCAPTCHA zum dritten Mal auf ähnliche Weise zu knacken.



Zusätzliche Lektüre von unserem Telegrammkanal und "Hi-Fi World":

Was ist 8D-Audio? Diskussion eines neuen Trends
Bluetooth-Chip, der keinen Akku benötigt
A. A. Wissenschaftler lernen, Schall mit Lasern zu übertragen
A. A. Das KPM-Label digitalisierte seinen gesamten Katalog

Source: https://habr.com/ru/post/de438578/


All Articles