Los ingenieros de la Universidad de Maryland han desarrollado un sistema que "evita" reCAPTCHA de Google con casi un cien por ciento de probabilidad. Utiliza algoritmos de reconocimiento de voz para resolver captcha de audio. Te contamos cómo funciona.
Fotografía fotográfica montreal / PDAntecedentes
Por primera vez, los desarrolladores de la Universidad de Maryland
introdujeron un sistema para evitar el "sonido" reCAPTCHA (llamaron a su solución unCAPTCHA) en 2017. Entonces el captcha de audio de Google fue un registro en el que el locutor llamó una secuencia de números. Los autores utilizaron algoritmos de reconocimiento de voz para automatizar el proceso de ingresar valores. Se las arreglaron para lograr la precisión de la solución de captcha en un 85%.
Los autores enviaron información sobre la vulnerabilidad a Google. El gigante de TI
actualizó reCAPTCHA en el que reemplazó la secuencia de números con frases. Sin embargo, a fines del año pasado, los ingenieros de Maryland finalizaron su red neuronal. Se las arregló para evitar el captcha de audio actualizado con una precisión del 90%.
Como funciona
El bot visita una página en Internet protegida por reCAPTCHA, y luego realiza varias acciones para simular el comportamiento humano. Después de hacer clic en el captcha y seleccionar la opción para resolverlo usando grabaciones de audio.
En la versión 2017 de unCAPTCHA, el archivo de audio se
dividió en segmentos. Los marcadores eran pausas entre números. El resultado fueron varias grabaciones de sonido con palabras separadas. Los desarrolladores enviaron estas grabaciones a los servicios de reconocimiento de voz en la nube: Google Cloud Speech-to-Text API </ iron>, Bing Speech Recognition, IBM Bluemix y Wit-AI. Determinaron el contenido de las grabaciones de audio por el patrón de frecuencia del espectrograma. Al mismo tiempo, los desarrolladores utilizaron varios servicios en la nube para minimizar el error de reconocimiento de valores numéricos.
Luego, unCAPTCHA v1 compiló el llamado mapa fonético. Incluía respuestas de diferentes sistemas para el mismo pasaje. Además, entró en juego una red neuronal convolucional, que extrajo palabras de la tarjeta que no indicaban el nombre del dígito, corrigió errores y eligió la respuesta más probable para completar reCAPTCHA. En general, el proceso es el siguiente:

En la segunda versión de unCAPTCHA (que se introdujo en diciembre), la segmentación y un mapa fonético
ya no
eran necesarios . El captcha de Google actualizado utiliza frases separadas en lugar de números, y sus servicios en la nube determinan mejor. Por lo tanto, fue posible lograr una alta precisión en el reconocimiento de captcha de audio usando una herramienta: Google Speech-to-Text. Después del análisis, el bot ingresa inmediatamente el texto recibido en la línea de captcha.
Así
es como se ve el envío de audio a la nube e ingresar una respuesta (desde el repositorio en GitHub). La demostración del programa se puede ver
en este gif-ke .
Lo que dicen sobre la tecnología.
Según los autores de unCAPTCHA, la nueva versión del captcha de Google no complicaba, sino que, por el contrario, simplificaba el hack. Ahora el servicio de entrada automática no necesita enviar solicitudes a diferentes plataformas en la nube y capacitar a una red neuronal separada para evaluar los resultados.
Fotografía AdNorrel / CC BY-SAEn defensa de reCAPTCHA, vale la pena señalar que la nueva versión, sin embargo, agregó varios obstáculos para los piratas informáticos. El primero es simular el comportamiento del usuario en la página que se ha vuelto más difícil. En unCAPTCHA v1, el registro de la cuenta estaba completamente automatizado con
Selenium . Ahora captcha Google
reconoce si la página usa este servicio y bloquea automáticamente el acceso. Los desarrolladores de la Universidad de Maryland tuvieron que prescribir manualmente las acciones del "usuario" y cambiar la secuencia de comandos para cada nuevo intento de entrada. Mientras los ingenieros de Maryland estaban trabajando en su solución, Google volvió a actualizar reCAPTCHA nuevamente, y unCAPTCHA aún no puede manejarlo. Sin embargo, muchos sitios todavía usan versiones anteriores de protección DDoS. Por lo tanto, la vulnerabilidad sigue siendo relevante.
¿De qué otra manera hackeado captcha de audio
En la red puede encontrar información sobre otras soluciones para hackear captcha de audio. Uno de los primeros sistemas se basó en la clasificación manual de archivos de audio. El audio se dividió en segmentos con palabras separadas: letras y números, que se correlacionaron con sus espectrogramas. Por ejemplo, este método de pirateo fue propuesto por el proyecto devoicecaptcha 2006. Luego, el programa pasó por alto el captcha de Google con una precisión del 33%.
Otros proyectos implementaron algoritmos más complejos que automatizaron completamente el proceso de resolución de captcha. Por ejemplo, utilizaron el programa
Sphinx para piratear, que se desarrolló por primera vez a fines de la década de 1990 en la Universidad Carnegie Mellon. Sphinx hackeó captcha en el sitio web de eBay en el 75% de los casos, pero luego su efectividad cayó al 25-30%.
En 2012, los autores del proyecto Stiltwalker introdujeron una red neuronal que fue capaz de distinguir el "patrón" de frecuencia de palabras individuales, a pesar del ruido de fondo. Según
los desarrolladores, el sistema superó con éxito la verificación de validación actual de Google en ese momento en el 99% de los casos.
En cuanto a los creadores de unCAPTCHA, es probable
que escuchemos más sobre su trabajo. Existe la posibilidad de que intenten descifrar el reCAPTCHA actualizado por tercera vez de manera similar.
Lectura adicional de nuestro canal de Telegram y "Hi-Fi World":
¿Qué es el audio 8D? Discutiendo una nueva tendencia
Chip Bluetooth que no necesita batería
A.
Los científicos aprenden a transmitir sonido con láser
A.
La etiqueta KPM digitalizó todo su catálogo