Est-il important que les ordinateurs et les gens voient le monde différemment?

Selon certains paramètres, la vision industrielle est supérieure à l'homme. Selon d'autres, il ne nous rattrapera peut-être jamais.




Lorsque les ingénieurs ont décidé pour la première fois d'enseigner aux ordinateurs à voir, ils tenaient pour acquis que les ordinateurs verraient tout comme les gens. Les premières suggestions pour la vision par ordinateur des années 1960 étaient «apparemment motivées par les caractéristiques de la vision humaine», a déclaré John Tsotsos , spécialiste des TI à l'Université York.

Depuis lors, beaucoup de choses ont changé.

La vision par ordinateur a dépassé le stade des châteaux dans les airs et s'est transformée en une zone en plein développement. Aujourd'hui, les ordinateurs sont en avance sur les personnes dans certaines tâches de reconnaissance de formes, par exemple, dans la classification des images («chien ou loup?») Ou la détection d'anomalies dans les photographies médicales. Et le processus de traitement des données visuelles par les "réseaux de neurones" est de plus en plus différent du processus utilisé par les gens.

Les ordinateurs nous battent dans notre propre jeu, le jouant selon d'autres règles.

Les réseaux de neurones sous-jacents à la vision par ordinateur sont assez simples. Ils reçoivent une image d'entrée et la traitent en plusieurs étapes. Ils reconnaissent d'abord les pixels, puis les visages et les contours, puis les objets entiers, et à la fin ils donnent une idée de ce qu'ils ont glissé. Ces systèmes sont appelés réseaux de neurones à distribution directe car leur fonctionnement est similaire à un convoyeur.

Nous ne savons pas grand-chose sur la vision humaine, mais nous savons que cela ne fonctionne pas comme ça. Dans notre histoire récente, «Le modèle mathématique révèle les secrets de la vision », nous avons décrit un nouveau modèle mathématique qui tente d'expliquer le mystère principal de la vision humaine: comment le cortex visuel du cerveau recrée des représentations vives et précises du monde sur la base des maigres informations qu'il reçoit de la rétine.

Ce modèle suppose que le cortex visuel est capable de fonctionner grâce à une séquence de boucles de rétroaction neuronale qui traitent de petits changements dans les données provenant du monde extérieur en une gamme diversifiée d'images qui apparaissent avant notre perception intérieure. Ce processus de rétroaction est très différent des méthodes de propagation directe avec lesquelles la vision par ordinateur fonctionne.

«Ce travail montre à quel point le cortex visuel est complexe et, à certains égards, différent» de la vision par ordinateur, a déclaré Jonathan Victor , neuroscientifique à l'Université Cornell.

Cependant, dans certaines tâches, la vision par ordinateur est supérieure à la vision humaine. La question se pose: est-il même nécessaire de construire des schémas de vision par ordinateur basés sur l'humain?

Dans un sens, la réponse sera négative. Les informations atteignant le cortex visuel sont limitées par l'anatomie: un nombre relativement petit de nerfs relie le cortex visuel au monde extérieur, ce qui limite la quantité de données visuelles avec lesquelles le cortex visuel doit travailler. Les ordinateurs n'ont pas de tels problèmes de bande passante, il n'y a donc aucune raison pour qu'ils travaillent avec un manque d'informations.

«Si j'avais une puissance de calcul et une mémoire infinies, aurais-je besoin de limiter le flux d'informations? Probablement pas », a déclaré Tsotsos. Cependant, il pense qu'il est imprudent de négliger la vision humaine.

Les tâches de classification dans lesquelles les ordinateurs ont réussi ces jours-ci sont trop simples pour la vision par ordinateur, dit-il. Pour résoudre avec succès ces problèmes, il vous suffit de trouver des corrélations dans des ensembles de données massifs. Pour des tâches plus complexes, telles que l'examen d'un objet sous différents angles de vue afin de le reconnaître (approximativement comment une personne se familiarise avec une statue, la contourner de différents côtés), de telles corrélations peuvent ne pas être suffisantes. Pour leur bonne exécution, les ordinateurs peuvent avoir à apprendre d'une personne.

L'année dernière, dans une interview avec notre magazine, pionnière de l'intelligence artificielle, Judah Pearl, a parlé de la même chose dans un contexte plus général, arguant que la formation à la corrélation ne serait pas suffisante pour le développement de systèmes d'IA à long terme.

Par exemple, une caractéristique clé de la vision humaine est une réaction retardée. Nous traitons les informations visuelles et arrivons à la conclusion sur ce que nous voyons. Lorsque cette conclusion ne nous convient pas, nous regardons ce qui se passe à nouveau, et souvent ce deuxième regard nous dit plus précisément ce qui se passe. Les systèmes de vision par ordinateur fonctionnant selon le schéma de distribution directe n'ont pas une telle opportunité, à cause de laquelle ils échouent souvent misérablement même les tâches les plus simples de reconnaissance de formes.

La vision humaine a un autre aspect, moins évident et plus important que la vision par ordinateur manque.

Le système visuel humain s'est amélioré au fil des ans. Dans le travail de 2019 , que Tsotsos a écrit avec des collègues, il a été constaté que la capacité de supprimer le bruit dans une scène sursaturée de détails et de se concentrer sur ce dont ils ont besoin n'apparaît chez les personnes qu'à l'âge d'environ 17 ans. D'autres chercheurs ont découvert que la capacité de reconnaître les visages s'améliore constamment jusqu'à 20 ans.

Les systèmes de vision par ordinateur fonctionnent en digérant d'énormes quantités de données. L'architecture sous-jacente est fixe et ne change pas avec le temps comme cela se produit dans le cerveau. Et si les mécanismes d'apprentissage sous-jacents sont si différents, les résultats seront-ils différents? Tsotsos estime que le système de vision par ordinateur attend à la fin.

"Apprendre de ces méthodes d'apprentissage en profondeur est aussi loin que possible de l'apprentissage humain", a-t-il déclaré. "Par conséquent, il me semble qu'une impasse les attend." Ils atteindront la limite de développement au-delà de laquelle ils ne pourront plus aller. »

Source: https://habr.com/ru/post/fr469945/


All Articles