Un réseau de neurones prédit 1 seconde de l'avenir en photographie


Un réseau neuronal contradictoire génératif optimisé pour le traitement vidéo est capable de montrer ce qui se passera dans la seconde

qui suit.La capacité de prédire le futur proche est une compétence importante pour toute personne. La vitesse de la réaction humaine n'est pas suffisante pour réagir aux événements environnants en temps réel, nous les prédisons donc en mode constant avec une probabilité proche de 100%. Les athlètes savent où le ballon volera. Les hommes d'affaires savent quand l'interlocuteur tend la main. Nous prédisons la trajectoire des voitures sur la route et les prochaines actions des personnes sur les expressions faciales et les objets entre leurs mains.

L'intelligence artificielle doit également connaître l'avenir. Il doit comprendre quels événements conduiront à quel résultat, afin d'éviter des oublis évidents et planifier ses actions. Un groupe de chercheurs deLe laboratoire d' informatique et d'intelligence artificielle (CSAIL) du Massachusetts Institute of Technology enseigne au réseau neuronal à prédire l'avenir en l'entraînant dans des millions de vidéos.

Un réseau neuronal formé dans un seul cadre statique (photographies) tente de prédire les événements futurs. Le programme est limité par une taille d'image de 64 × 64 pixels et une durée de prédiction de 32 images, soit environ une seconde de l'avenir.

Connaître l'avenir permet de mieux comprendre le présent. Il s'agit de la capacité de base que tout robot fonctionnant dans le monde réel devrait posséder. En observant une personne devant une assiette avec une fourchette et un couteau à la main, il faut clairement prévoir que cette personne va bientôt commencer à manger. Sans une telle compréhension, le robot ne peut pas fonctionner de manière efficace - vous ne voulez pas que le robot ramasse et déplace la chaise sur le côté lorsque vous êtes assis sur une chaise? Non, il doit comprendre ce qui va se passer en une seconde et ne rien toucher. Ou vice versa, déplacez rapidement la chaise exactement à l'endroit où la personne s'assoit.

À l'heure actuelle, même les systèmes d'IA les plus avancés n'ont pas la capacité de base de prédire l'avenir proche. Par conséquent, cette étude est si importante. Des travaux similaires sont menés par des groupes de recherche de l'Université de New York et de Facebook, mais leurs réseaux de neurones ne produisent que quelques images du futur ou le montrent trop flou.

Le programme développé au CSAIL prédit assez précisément les événements les plus banals et les plus évidents. Par exemple, à partir d'une photographie d'un train sur une plate-forme, elle prédit son mouvement.

Exemples de prédiction d'événements à partir de photographies. Échantillons de mouvements de personnes, d'animaux, de phénomènes naturels, de transports

Dans une étude scientifique, les développeurs résolvent le problème fondamental de l'étude du scénario de déroulement des événements dans le cadre dans le temps. De toute évidence, une telle tâche est très difficile à annoter formellement. Par conséquent, le réseau neuronal a été formé directement sur le matériau fini - sur des millions de vidéos sans annotations sémantiques. Cette approche présente certains avantages, car l'IA peut apprendre hors ligne, simplement en regardant ce qui se passe et en traitant une énorme quantité de matériel vidéo sur Internet.

Le réseau neuronal formé a ensuite été chargé de générer de petites vidéos dans un seul cadre statique. Pour obtenir un résultat réaliste, les auteurs de l'étude ont utilisé un réseau contradictoire génératif (GAN). Un réseau neuronal génère de la vidéo et le deuxième réseau discriminateur apprend à distinguer la fausse vidéo de la vraie et bloque les contrefaçons. Comme l'apprend le discriminateur, le générateur de réseau doit générer des vidéos de plus en plus réalistes pour réussir le test.


Le modèle génératif utilise deux flux qui simulent séparément le premier plan et l'arrière-plan pour les séparer l'un de l'autre et distinguer clairement le mouvement de l'objet.



Au fil du temps, un tel programme sera en mesure d'aider plus efficacement une personne dans différentes situations. Par exemple, un robot peut prédire quand une personne tombera - et l'empêcher de tomber. L'assistant numérique dans la voiture apprendra à prédire les actions du conducteur par le mouvement des mains et des yeux pour éviter un accident.

Toutes les vidéos sur lesquelles le réseau de neurones a été formé, ainsi que le code source du programme sont publiés dans le domaine public . Le code génératif du réseau neuronal contradictoire est sur GitHub . En utilisant les données pour la formation (environ 10,5 téraoctets de matériel vidéo), vous pouvez répéter l'expérience vous-même. Alternativement, des modèles déjà formés sont disponibles en téléchargement (1 Go dans l'archive).

Les vidéos de formation ont été prises à partir de l'hébergement de photos et de vidéos Flickr, où elles sont sous licence gratuite. Ce sont des scènes thématiques: événements de plage, matchs de golf, gares et bébés dans les hôpitaux.



Deux millions de vidéos ne représentent que deux ans de séquences vidéo. "C'est très petit par rapport à la quantité d'informations vidéo qui ont traversé le cerveau d'un enfant de 10 ans ou par rapport à la quantité d'informations qui ont été traitées au cours du processus évolutif du développement de la vie sur Terre", admet Carl Vondrick, l'un des auteurs de la revue scientifique. travailler.

Mais ce n'est que le début, l'IA fait les premiers pas, mais vous devez commencer quelque part. À l'avenir, le réseau neuronal sera formé sur des fragments plus longs de la vidéo. Les auteurs espèrent que l'IA commencera progressivement à limiter le choix des options possibles pour l'avenir, compte tenu des limites des lois de la physique et des propriétés des objets. Les expériences montrent que le réseau neuronal est capable de les absorber. Progressivement, le programme apprendra à prédire un avenir plus lointain, et pas seulement 1 seconde. Il est probable que des modules supplémentaires y seront connectés, tels que la reconnaissance de la personnalité, la lecture des lèvres, la prédiction de la criminalité sur le visage d'une personne , etc.

Article scientifique publiésur le site du Massachusetts Institute of Technology. L'étude se poursuit grâce au financement de la US National Science Foundation et aux subventions de Google pour deux des trois membres de l'équipe de recherche. Le rapport a été préparé pour la 29e conférence sur les systèmes de traitement de la neuroinformation (NIPS 2016), qui se tiendra du 5 au 10 décembre à Barcelone.

Source: https://habr.com/ru/post/fr399667/


All Articles