音频巨头IT巨头如何第二次被“规避”

马里兰大学的工程师开发了一种系统,该系统以几乎100%的概率“绕过”了Google的reCAPTCHA。 它使用语音识别算法来解决音频验证码。 我们告诉它如何工作。


照片摄影蒙特利尔/ PD

背景知识


马里兰大学的开发人员在2017年首次引入了一种绕过“健全的” reCAPTCHA(称为解决方案unCAPTCHA)的系统。 然后,Google音频验证码是一条记录,播音员在其中呼叫了一系列数字。 作者使用语音识别算法来自动化输入值的过程。 他们设法将验证码解决方案的准确性提高了85%。

作者将有关此漏洞的信息发送给了Google。 这家IT巨头更新了 reCAPTCHA,在其中用短语替换了数字序列。 然而,在去年年底,来自马里兰州的工程师完成了他们的神经网络。 她设法以90%的精度避开了更新的音频验证码。

如何运作


该漫游器访问受reCAPTCHA保护的Internet上的页面,然后执行一些操作来模拟人类行为。 在他单击验证码并选择使用录音解决该问题的选项之后。

在2017年的unCAPTCHA版本中,音频文件被分成多个部分。 标记是数字之间的停顿。 结果是用单独的单词录制了多个声音。 开发人员将这些录音发送到了云语音识别服务:Google Cloud Speech-to-Text API </ iron>,Bing Speech Recognition,IBM Bluemix和Wit-AI。 他们通过频谱图的频率模式确定了录音的内容。 同时,开发人员使用了几种云服务来最大程度地减少数值识别的错误。

然后,unCAPTCHA v1编译了所谓的语音地图。 它包括来自不同系统的同一段落的答案。 此外,卷积神经网络开始发挥作用,该网络从卡中提取出未指示数字名称的单词,并纠正了错误,并选择了最可能的答案来填写reCAPTCHA。 通常,该过程如下:



在unCAPTCHA的第二版(于12月推出)中, 不再需要分段和语音地图。 更新后的Google验证码使用单独的短语而不是数字,并且其云服务确定更好。 因此,可以使用一种工具-Google Speech-to-Text实现高精度的音频验证码识别。 经过分析,漫游器立即将接收到的文本输入验证码行。

就是将音频发送到云并输入响应(来自GitHub上的存储库)的样子 。 该程序的演示可以在此gif-ke上看到。

他们对技术的评价


据unCAPTCHA的作者称,新版本的Google验证码没有使复杂化,但是相反,简化了黑客攻击。 现在,用于自动输入的服务不需要将请求发送到不同的云平台,也不需要训练单独的神经网络来评估结果。


图片AdNorrel / CC BY-SA

为了捍卫reCAPTCHA,值得注意的是,新版本仍然为黑客增加了一些障碍。 首先是模拟页面上的用户行为已变得更加困难。 在unCAPTCHA v1中,使用Selenium完全自动进行了帐户注册。 现在,验证码Google可以识别网页是否使用了该服务,并自动阻止访问。 马里兰大学的开发人员必须手动规定“用户”操作,并为每次新的输入尝试更改脚本。 当马里兰州的工程师正在研究他们的解决方案时,Google再次重新更新了reCAPTCHA,而unCAPTCHA仍然无法处理它。 但是,许多站点仍使用旧版本的DDoS保护。 因此,漏洞仍然很重要。

否则如何破解音频验证码


在网络上,您可以找到有关破解音频验证码的其他解决方案的信息。 首批系统之一是基于音频文件的手动分类。 音频被分为几个部分,每个部分都有单独的单词-字母和数字,它们与它们的声谱图相关。 例如,这种黑客入侵方法是2006年devoicecaptcha项目提出的。 然后,该程序以33%的准确性绕过了Google验证码。

其他项目实施了更复杂的算法,从而完全自动化了验证码的处理过程。 例如,他们使用Sphinx程序进行黑客入侵,该程序最初是在1990年代后期由卡内基梅隆大学开发的。 Sphinx在75%的情况下在eBay网站上破解了验证码,但后来其有效性下降到25-30%。

2012年,Stiltwalker项目的作者引入了一个神经网络,尽管存在背景噪音,该神经网络仍能够区分单个单词的频率“模式”。 根据开发人员的说法,该系统在99%的情况下都成功绕过了Google的当前检查。

至于unCAPTCHA的创作者,我们可能会听到更多关于他们的作品的信息。 他们有机会尝试以类似方式第三次破解更新的reCAPTCHA。



来自我们的电报频道和“ Hi-Fi世界”的其他阅读:

什么是8D音频-讨论新趋势
不需要电池的蓝牙芯片
A. 科学家学会用激光传输声音
A. KPM标签将整个目录数字化

Source: https://habr.com/ru/post/zh-CN438578/


All Articles