哈Ha!
坐下,让自己成为一只海鸥,因为我写得有点紧,并且穿过右耳。 那么,你准备好了吗? 好,那就开始吧。
注意! 以下信息仅出于研究目的而编写, 不得用于个人利益!
我也许会从背景开始。 即,随着网络驱动器的发展,其扇区位于云中。 这项技术的精髓使得可以从多个帐户(大约100个或1k个帐户)中制作一个每个10 Gb的Yandex.Disk(在读取时可能会更改)一个大磁盘,例如10Tb。 这里...
我接受它的意思是,对于几年前该程序的开发(我仍在编写该程序,但在另一篇文章中有更多介绍),并提出了一个问题-如何介绍YaCaptcha。
所以我看了一下这个验证码,在谷歌上搜索了一下,我想-有必要使用TensorFlow,然后转移到FANN。 当然有点不高兴,但无事可做。 让我认为,我将下载几张图片(约100k),以便您可以训练神经元,但现在我会记得U-net分割。 好吧,我在Delphi + Synapase上画了几行代码,启动了它,然后搜索了神经元。 我是在搜索过程中下载的,通常之前,我必须说很多。 从这里开始乐趣。
我进去了,这意味着,我在有照片的爸爸中,我看到了-只重复一次! 是的,是的,有很多重复的图片。 好吧,我认为这是行不通的,我下载了第一个程序,该程序似乎删除了相同的文件(如果内存没有变化,则似乎是clonespy )。 发射了它,但躺在炉子上睡觉。 早上,我仔细地看了一下统计数据:从10万张图片中删除了76k重复,它们不仅相似,而且100%相同! 您问什么意思? 我现在解释。
如果您选择一个神经元,您的认知度将达到〜18%, 正如我们的朋友所写 (好吧,在我看来,如果您愿意的话,您最多可以将其压缩到45-50%)。 但是,即使是这样,我们也不要忘记使用类似方法的麻烦(需要创建数据库,手动输入dox ...很多验证码,然后您仍然需要将所有内容系统化并等待它们全部聚集在一起)以及占用的空间和时间性能也不说程序会很棒。
是否有可能以其他方式走? -你问。 在这里,我建议进行计数-我们有10万张图片,其中有76k张重复图片,即 如果我们从这些图像中阻塞数据库(例如,取总和的哈希值),我们将获得高达76%的识别百分比,高于神经元,并且数据库权重与TensorFlow的权重表大约相同(如果不小于)。 同时,此方法将在任何地方都可以使用,不需要一堆库。
我们发现Yandex非常强大,以至于他们创建了很少的验证码变体。 有了这个,您可以编写一个我上面写过的程序。 这不是系统的视觉漏洞。 还是您认为超过100Tb的硬盘空间便宜?
感谢收看!