Comme captcha l'a dit sur la vulnérabilité de Yandex

Bonjour, Habr!


Asseyez-vous, faites-vous une mouette, car j'Ă©cris un peu serrĂ© et Ă  travers l'oreille droite. Alors, tu es prĂȘt? TrĂšs bien, alors commençons.


ATTENTION! Les informations dĂ©crites ci-dessous sont Ă©crites Ă  des fins de recherche uniquement et ne sont pas destinĂ©es Ă  ĂȘtre utilisĂ©es Ă  des fins personnelles !


Je vais peut-ĂȘtre commencer par le contexte. A savoir, avec le dĂ©veloppement d'un lecteur rĂ©seau, dont les secteurs sont dans le cloud. L'essence de cette technologie a permis de crĂ©er un mĂȘme Yandex.Disk de 10 Go Ă  partir de plusieurs comptes (enfin, environ 100 ou 1k comptes) du mĂȘme Yandex.Disk chacun (cela peut changer au moment de la lecture), disons 10 To. Ici ...


Je l'ai pris, cela signifie, pour le développement de ce programme il y a quelques années (j'ai toujours écrit le programme, mais plus à ce sujet dans un autre article) et la question s'est posée - comment introduire YaCaptcha.


Voici quelques exemples:
image
image
image
image

J'ai donc regardé ce captcha, googlé un peu et je pense - il faudrait utiliser TensorFlow, puis transférer vers FANN. Bouleversé, bien sûr, un peu, mais rien à faire. Laissez-moi penser que je vais télécharger quelques images (~ 100k) pour que vous puissiez ensuite entraßner les neurones, mais pour l'instant je me souviendrai de la segmentation U-net. Eh bien, j'ai esquissé quelques lignes de code sur Delphi + Synapase, je l'ai lancé et je suis allé sur Google à propos du neurone. J'ai téléchargé pendant la recherche, je dois dire, avant ... beaucoup, en général. Et ici, le plaisir commence.


Je suis entrĂ©, ça veut dire, je suis dans un papa avec des photos et je vois - seulement des rĂ©pĂ©titions! Oui, oui, il y avait beaucoup de photos rĂ©pĂ©tĂ©es. Eh bien, je pense que cela ne fonctionnera pas, et j'ai tĂ©lĂ©chargĂ© le premier programme qui semblait supprimer les mĂȘmes fichiers (il semble, si la mĂ©moire ne change pas, clonespy ). LancĂ©, mais allongĂ© sur le poĂȘle pour dormir. Le matin, j'ai regardĂ© les statistiques et rĂ©flĂ©chi: Ă  partir de 100 000 images, 76 000 rĂ©pĂ©titions ont Ă©tĂ© supprimĂ©es, et elles ne sont pas seulement similaires - elles sont 100% identiques! Qu'est-ce que cela signifie, demandez-vous? Je vais vous expliquer maintenant.


Si vous prenez un neurone, vous pouvez obtenir une reconnaissance de quelque part ~ 18%, comme l'Ă©crit notre ami (enfin, il me semble, vous pouvez presser jusqu'Ă  45-50% si vous le souhaitez). Mais mĂȘme si c'est le cas, n'oublions pas combien d'histoires avec des mĂ©thodes similaires (les bases de donnĂ©es doivent ĂȘtre créées, entrez manuellement dox ... beaucoup de captcha, alors vous devez toujours systĂ©matiser tout et attendre que tout soit rĂ©uni) et combien d'espace cela prendra et le temps performance ni dire que le programme sera gĂ©nial.


Est-il possible d'aller d'une maniĂšre ou d'une autre dans l'autre sens? - demandez-vous. Et ici, je propose de compter - nous avons 100 000 images, dont 76 000 rĂ©pĂ©titions, c'est-Ă -dire si nous obstruons la base de donnĂ©es de ces images (par exemple, prenons le hachage de la somme), nous obtenons un pourcentage de reconnaissance allant jusqu'Ă  76%, ce qui est supĂ©rieur au neurone, et le poids de la base de donnĂ©es est Ă  peu prĂšs le mĂȘme (sinon moins) que le tableau de poids pour TensorFlow. Dans le mĂȘme temps, cette mĂ©thode fonctionnera partout et n'a pas besoin d'un tas de bibliothĂšques.


Nous obtenons que Yandex est si robuste qu'ils ont créé si peu de variations de captcha. Et grùce à cela, vous pouvez écrire un programme sur lequel j'ai écrit ci-dessus. N'est-ce pas une vulnérabilité visuelle du systÚme. Ou pensez-vous que plus de 100 To d'espace disque dur sont bon marché?


Merci d'avoir regardé!


Informations utilisées:

Source: https://habr.com/ru/post/fr425779/


All Articles