Como o gigante de TI da gigante de áudio foi "contornado" pela segunda vez

Engenheiros da Universidade de Maryland desenvolveram um sistema que "ignora" o reCAPTCHA do Google com quase cem por cento de probabilidade. Ele usa algoritmos de reconhecimento de fala para resolver captcha de áudio. Nós dizemos como isso funciona.


Fotografia fotográficamontreal / PD

Antecedentes


Pela primeira vez, os desenvolvedores da Universidade de Maryland introduziram um sistema para ignorar o "som" reCAPTCHA (que eles chamaram de solução unCAPTCHA) em 2017. O captcha de áudio do Google foi um registro em que o locutor chamou uma sequência de números. Os autores usaram algoritmos de reconhecimento de fala para automatizar o processo de inserção de valores. Eles conseguiram alcançar a precisão da solução captcha em 85%.

Os autores enviaram informações sobre a vulnerabilidade ao Google. O gigante de TI atualizou o reCAPTCHA no qual substituiu a sequência de números por frases. No entanto, no final do ano passado, os engenheiros de Maryland finalizaram sua rede neural. Ela conseguiu contornar o captcha de áudio atualizado com uma precisão de 90%.

Como isso funciona


O bot visita uma página na Internet protegida pelo reCAPTCHA e executa várias ações para simular o comportamento humano. Depois que ele clica no captcha e seleciona a opção para resolvê-lo usando gravações de áudio.

Na versão unCAPTCHA de 2017, o arquivo de áudio foi dividido em segmentos. Marcadores eram pausas entre números. O resultado foram várias gravações sonoras com palavras separadas. Os desenvolvedores enviaram essas gravações para os serviços de reconhecimento de fala na nuvem: API de fala em texto do Google Cloud </ iron>, Bing Speech Recognition, IBM Bluemix e Wit-AI. Eles determinaram o conteúdo das gravações de áudio pelo padrão de frequência do espectrograma. Ao mesmo tempo, vários serviços em nuvem foram usados ​​pelos desenvolvedores para minimizar o erro de reconhecimento de valores numéricos.

Em seguida, o unCAPTCHA v1 compilou o chamado mapa fonético. Incluiu respostas de diferentes sistemas para a mesma passagem. Além disso, uma rede neural convolucional entrou em ação, que extraiu palavras do cartão que não indicavam o nome do dígito, corrigiu erros e escolheu a resposta mais provável para preencher o reCAPTCHA. Em geral, o processo é o seguinte:



Na segunda versão do unCAPTCHA (que foi introduzida em dezembro), a segmentação e um mapa fonético não eram mais necessários . O captcha do Google atualizado usa frases separadas em vez de números, e seus serviços na nuvem determinam melhor. Portanto, foi possível obter alta precisão no reconhecimento de captcha de áudio usando uma ferramenta - Google Speech-to-Text. Após a análise, o bot insere imediatamente o texto recebido na linha captcha.

É assim que é o envio de áudio para a nuvem e a inserção de uma resposta (do repositório no GitHub). A demonstração do programa pode ser vista neste gif-ke .

O que eles dizem sobre tecnologia


Segundo os autores do unCAPTCHA, a nova versão do captcha do Google não complicou, mas, pelo contrário, simplificou o hack. Agora, o serviço de entrada automática não precisa enviar solicitações para diferentes plataformas na nuvem e treinar uma rede neural separada para avaliar os resultados.


Foto AdNorrel / CC BY-SA

Em defesa do reCAPTCHA, vale ressaltar que a nova versão, no entanto, acrescentou vários obstáculos para os hackers. O primeiro é simular o comportamento do usuário na página se tornou mais difícil. No unCAPTCHA v1, o registro da conta foi totalmente automatizado com o Selenium . Agora captcha O Google reconhece se a página usa este serviço e bloqueia automaticamente o acesso. Os desenvolvedores da Universidade de Maryland tiveram que prescrever manualmente as ações do "usuário" e alterar o script para cada nova tentativa de entrada. Enquanto os engenheiros de Maryland estavam trabalhando em sua solução, o Google atualizou o reCAPTCHA novamente e o unCAPTCHA ainda não consegue lidar com isso. No entanto, muitos sites ainda usam versões mais antigas da proteção DDoS. Portanto, a vulnerabilidade permanece relevante.

De que outra forma captcha áudio capturado


Na rede, você pode encontrar informações sobre outras soluções para hackear captcha de áudio. Um dos primeiros sistemas foi baseado na classificação manual de arquivos de áudio. O áudio foi dividido em segmentos com palavras separadas - letras e números, os quais foram correlacionados com seus espectrogramas. Por exemplo, esse método de hacking foi proposto pelo projeto devoicecaptcha de 2006. Em seguida, o programa ignorou o captcha do Google com uma precisão de 33%.

Outros projetos implementaram algoritmos mais complexos que automatizaram completamente o processo de resolução do captcha. Por exemplo, eles usaram o programa Sphinx para hackers, que foi desenvolvido pela primeira vez no final dos anos 90 na Universidade Carnegie Mellon. A Sphinx invadiu o captcha no site do eBay em 75% dos casos, mas depois sua eficácia caiu para 25 a 30%.

Em 2012, os autores do projeto Stiltwalker introduziram uma rede neural capaz de distinguir o "padrão" de frequência de palavras individuais, apesar do ruído de fundo. Segundo os desenvolvedores, o sistema ignorou com êxito a verificação de validação atual do Google naquele momento em 99% dos casos.

Quanto aos criadores do unCAPTCHA, provavelmente ouviremos mais sobre o trabalho deles. Há uma chance de que eles tentem decifrar o reCAPTCHA atualizado pela terceira vez de maneira semelhante.



Leitura adicional do nosso canal Telegram e “Hi-Fi World”:

O que é o áudio 8D - discutindo uma nova tendência
Chip Bluetooth que não precisa de bateria
A. Cientistas aprendem a transmitir som com lasers
A. A etiqueta KPM digitalizou todo o seu catálogo

Source: https://habr.com/ru/post/pt438578/


All Articles