Si vous utilisez Internet, vous devez avoir interagi avec des réseaux de neurones. Il s'agit d'une forme d'algorithme d'apprentissage automatique utilisé dans de nombreux domaines, de la traduction de langage à la modélisation financière. L'une des spécialités de cette approche est la reconnaissance d'image. Plusieurs sociétés - dont Google, Microsoft, IBM et Facebook - ont développé leurs propres algorithmes de mise en page des photos. Mais alors que ces algorithmes peuvent faire des erreurs très étranges.
L'API Microsoft Azure pour la vision par ordinateur a ajouté la légende suivante à cette image: «un troupeau de moutons broute sur une colline recouverte d'une végétation luxuriante», et les balises: «paissent, moutons, montagne, bétail, cheval». Mais il n'y a pas de mouton sur la photo. Généralement. J'ai étudié chaque endroit.
balises: herbe, champ, mouton, debout, arc en ciel, hommeSur cette photo, l'ordinateur a également vu les moutons. Par chance, je sais que certains moutons paissent vraiment près de cet endroit. Mais ils ne sont pas visibles sur la photo.
balises: colline, pâturage, mouton, girafe, troupeauVoici un autre exemple. Les réseaux de neurones imaginaient généralement des moutons chaque fois qu'elle voyait de telles images. Que se passe-t-il?
Les réseaux de neurones sont formés en traitant de nombreux exemples. Dans ce cas, elle a été nourrie de nombreuses images tracées manuellement par des personnes - et il y avait des moutons sur beaucoup d'entre elles. En commençant par un manque total de connaissances sur ce que vous avez vu, les réseaux de neurones doivent créer des règles selon lesquelles les images doivent être étiquetées «moutons». Apparemment, elle n'a pas compris que le mot «mouton» signifie un animal, et pas seulement de l'herbe sans arbres. De manière similaire à la deuxième photo, elle a donné le label «arc-en-ciel», car ce paysage est humide et pluvieux, ne réalisant pas qu'un arc-en-ciel a besoin d'une bande multicolore.
Peut-être que les réseaux de neurones sont trop sensibles et voient-ils des moutons partout? Il s'avère que non. Ils ne voient des moutons que lorsqu'ils s'attendent à les voir. Ils trouvent facilement des moutons dans les champs et sur les flancs des montagnes, mais dès que les moutons commencent à apparaître dans des endroits inattendus, il devient évident à quel point ces algorithmes reposent sur des suppositions et des probabilités.
Emmenez le mouton dans la pièce et elle sera désignée comme chat. Élevez un mouton ou une chèvre dans vos bras et ils le marqueront comme un chien.
«À gauche: un homme tient un chien à la main. À droite: une femme tient un chien à la main. »Peignez-les en orange et elles deviendront des fleurs.
"Quelques fleurs d'oranger dans le champ"Mettez les moutons en laisse et ils le désigneront comme un chien. Mettez-la dans la voiture et ce sera un chien ou un chat. S'ils entrent dans l'eau, ils peuvent être considérés comme des oiseaux ou même des ours polaires.
Et si les chèvres grimpent à un arbre, elles se transformeront en oiseaux. Ou des girafes (il s'est avéré que Microsoft Azure est connu pour voir des girafes partout en raison de l'abondance excessive de girafes qui, selon les rumeurs, figuraient dans le jeu de données initial).
NeuralTalk2: une volée d'oiseaux vole dans les airs
Microsoft Azure: plusieurs girafes se tiennent à côté d'un arbreLes réseaux de neurones corrélent les modèles. Ils voient des morceaux de texture similaires à de la fourrure, des taches de vert et décident qu'il y a des moutons sur la photo. S'ils voient de la fourrure et des formes ressemblant à une cuisine, ils peuvent décider de voir des chats.
Si la vie suit les règles, la reconnaissance d'image fonctionne comme il se doit. Mais dès que les gens ou les moutons font quelque chose d'inattendu, les algorithmes montrent immédiatement une faiblesse.
Si vous voulez faire passer quelque chose d'inaperçu au-delà du réseau neuronal, alors vous serez aidé dans un style presque cyberpunk par le surréalisme. Peut-être qu'à l'avenir, des agents secrets se déguiseront en poules ou conduiront des voitures tachées comme des vaches.
Il existe de nombreux exemples d'erreurs très drôles dans le fil Twitter qui ont commencé par une question simple:
Et vous-même pouvez tester le fonctionnement de l'API pour la reconnaissance des formes à partir de Microsoft Azure et vous assurer que même les algorithmes les plus avancés reposent sur la chance et la probabilité. Un autre algorithme, NeuralTalk2, j'ai principalement utilisé pour traiter les images de ce fil de commentaires sur Twitter.