DeepMind AI ne parvient pas à identifier avec précision les actions de Homer Simpson



Il existe de plus en plus de types de réseaux de neurones, et ils aident vraiment les gens à vivre et à travailler. Certains systèmes prédisent la météo, d'autres - apprennent à faire des diagnostics, et une partie des systèmes est entrée dans les grandes entreprises. L'IA, sa forme faible, sait déjà analyser d'énormes quantités de données, trouvant des dépendances entre, à première vue, des facteurs indépendants. Mais, bien sûr, il y a encore beaucoup de problèmes - l'intelligence artificielle n'est pas en mesure de faire face à l'analyse du comportement d'un personnage de dessin animé aussi «mystérieux» que Homer Simpson.

Non, le système peut identifier certaines de ses actions, mais pas toutes. Dans le même temps, le réseau de neurones a été formé sur un grand nombre de vidéos YouTube des Simpsons. Il convient de noter que DeepMind est loin d'être nouveau pour le développement de divers systèmes d'IA. Par exemple, l'un des développements de cette société, qui faisait auparavant partie de Google, et maintenant transféré à la juridiction de Softbank, a réussi à vaincre les champions du monde en jeu.

Les systèmes DeepMind, ainsi que les développements de ce type par d'autres sociétés, sont capables d'analyser d'énormes volumes d'informations. Au fil du temps, le travail des réseaux de neurones devient de plus en plus parfait à mesure qu'ils s'auto-apprennent. Qu'il s'agisse de reconnaissance faciale ou de traduction de l'anglais vers le chinois et vice versa - les résultats s'améliorent de jour en jour. Afin d'apprendre à leur système, appelé Kinetics, à comprendre le comportement des gens, les employés de DeepMind ont «alimenté» plus de 300 000 vidéos YouTube, apprenant à distinguer environ 400 types d'actions humaines.

«Les systèmes d'IA sont maintenant très bons pour reconnaître divers objets dans les images, mais leur côté faible fonctionne avec la vidéo», explique les représentants de DeepMind. "L'une des principales raisons est le manque de grands échantillons de vidéos de haute qualité."

Afin de résoudre ce problème, les employés de DeepMind ont décidé de créer leur propre échantillon . Pour chacun des 400 types d'actions, une personne de YouTube a "coupé" au moins 400 vidéos, d'une durée d'environ 10 secondes. Le résultat est l'un des premiers ensembles de données spécialisés de haute qualité conçus pour l'enseignement de l'IA. Bien sûr, la société DeepMind, qui a formé cet échantillon alors qu'elle était toujours une division de Google, a eu de la chance parce que Google (maintenant - tenant Alphabet) est le propriétaire de YouTube. Par conséquent, les employés de Deepmind avaient probablement accès à des outils spécialisés pour travailler avec des supports de service vidéo. D'autres entreprises auront plus de mal à cet égard, car trouver des vidéos de haute qualité accessibles au public pour compiler un ensemble de données spécialisées n'est pas aussi simple qu'il y paraît.

La précision de l'identification des différentes cinétiques vues dans les vidéos des actions des gens était d'environ 80%, ce qui n'est pas si peu. Certes, cela s'applique aux vidéos ordinaires, où ils jouent au tennis, calment un enfant qui pleure, font des prévisions météorologiques, etc. Dans le cas d'Homer Simpson, tout est plus compliqué, ici la précision chute immédiatement quatre fois, jusqu'à 20%. Il était difficile pour les réseaux de neurones d'identifier les actions d'Homère telles que lancer une pièce de monnaie, peigner les cheveux inexistants (ces cheveux restés n'étaient pas comptés) et d'autres.

En plus de Homer, Kinetics est difficile à identifier un plat ou un produit si seulement une partie de celui-ci est montré. Un burger à moitié mangé est déjà défini avec beaucoup moins de précision qu'un tout. Des problèmes surviennent également si l’objet s’avère très petit. Selon le représentant de DeepMind, pour enseigner au réseau neuronal à déterminer correctement une action avec un haut degré de précision, parfois seules quelques vidéos suffisent. Mais parfois même une centaine n'aide pas à augmenter la précision de la détermination d'actions spécifiques.



Tous ces problèmes sont bien connus. Par exemple, auparavant, le même réseau de neurones avait des difficultés à identifier les visages des personnes appartenant à certains groupes ethniques. Selon certains experts, les algorithmes sous-jacents à la cinétique sont capables de déterminer le sexe d'une personne en fonction de certaines caractéristiques du discours et des textes .

Le réseau neuronal de DeepMind est capable de déterminer le sexe d'une personne dans la vidéo (mais en aucun cas dans tous les cas), ainsi que d'évaluer «l'équilibre entre les sexes» d'un certain nombre de vidéos. Par exemple, la vidéo avec des moustaches et des barbes à raser est principalement masculine (ce qui serait surpris), mais travailler avec les sourcils ou la cheerleading est féminin. Certes, le problème de la reconnaissance du genre persiste, les développeurs ont quelque chose à travailler ici.

À l'avenir, le travail sur de tels systèmes est susceptible de déterminer non seulement ce que les gens font en vidéo, mais aussi la raison de leurs actions. Par exemple, un réseau de neurones peut déterminer pourquoi une personne s'est exclamée «oh», expliquant la cause de cette action. Cela nécessite un travail supplémentaire solide et de nombreux jeux de données pour la formation.

Probablement, si vous entraînez mieux Kinetics, ce système apprendra à déterminer les actions d'Homer Simpson. Bien que qui sache, c'est un personnage très imprévisible. Ça va marcher?

Source: https://habr.com/ru/post/fr404523/


All Articles