Récemment, nous avons
parlé de la façon dont nous sommes analysés dans les cinémas à l'aide de la technologie de vision par ordinateur: émotions, gestes, et c'est tout. Aujourd'hui, nous publions une conversation avec notre collègue de Microsoft Research. Il est engagé dans la création de cette vision même. Sous la coupe, des détails sur le développement de la technologie, un peu sur le RGPD, ainsi que les domaines d'application. Rejoignez-nous maintenant!

D'un point de vue technique, les experts en vision par ordinateur "créent des algorithmes et des systèmes pour analyser automatiquement les images et extraire des informations du monde visible". Du point de vue d'un profane, ils créent des machines qu'ils peuvent voir. C'est ce que font le chercheur en chef et chef du département de recherche, le Dr Gang Hua, et une équipe d'experts en vision par ordinateur. Pour les appareils tels que les robots personnels, les véhicules sans pilote et les drones, que nous rencontrons de plus en plus dans la vie quotidienne, la vision est très importante.
Aujourd'hui, le Dr Hua nous expliquera comment les récents progrès de l'IA et de l'apprentissage automatique ont contribué à améliorer les technologies de reconnaissance d'images et de «compréhension» des vidéos, et ont également contribué au développement de l'art. Il expliquera également l'essence de l'approche d'ensemble distribué de l'apprentissage actif, dans laquelle les personnes et les machines travaillent ensemble en laboratoire pour créer des systèmes de vision par ordinateur qui peuvent voir et reconnaître le monde ouvert.
Gang Hua, chercheur principal et chef de la recherche. Photo gracieuseté de Maryatt Photography.L'entretien
Si nous regardons en arrière dix à quinze ans, nous verrons qu'il y avait plus de diversité dans la communauté des spécialistes de la vision par ordinateur. Pour examiner le problème sous différents angles et trouver sa solution, diverses méthodes d'apprentissage automatique et des connaissances de divers domaines, tels que la physique et l'optique, ont été appliquées. Nous soulignons l'importance de la diversité dans tous les domaines d'activité, je pense donc que la communauté scientifique en bénéficiera si nous avons des points de vue plus différents.
Nous vous présentons la recherche technologique de pointe et les scientifiques qui la soutiennent.
D'un point de vue technique, les experts en vision par ordinateur "créent des algorithmes et des systèmes pour analyser automatiquement les images et extraire des informations du monde visible". Du point de vue d'un profane, ils créent des machines qu'ils peuvent voir. C'est ce que font le chercheur en chef et chef du département de recherche, le Dr Gang Hua, et une équipe d'experts en vision par ordinateur. Pour les appareils tels que les robots personnels, les véhicules sans pilote et les drones, que nous rencontrons de plus en plus dans la vie quotidienne, la vision est très importante.
Aujourd'hui, le Dr Hua nous expliquera comment les récents progrès de l'IA et de l'apprentissage automatique ont contribué à améliorer les technologies de reconnaissance d'images et de «compréhension» des vidéos, et ont également contribué au développement de l'art. Il expliquera également l'essence de l'approche d'ensemble distribué de l'apprentissage actif, dans laquelle les personnes et les machines travaillent ensemble en laboratoire pour créer des systèmes de vision par ordinateur qui peuvent voir et reconnaître le monde ouvert. À ce sujet et bien plus encore - dans la nouvelle version du podcast Microsoft Research.
Vous êtes le chercheur en chef et le chef du département de recherche de MSR (Microsoft Research), et votre spécialité est la vision par ordinateur.Oui
De manière générale, pourquoi un spécialiste de la vision par ordinateur se lève-t-il le matin? Quel est son objectif principal?La vision par ordinateur est un domaine de recherche relativement jeune. En bref, nous essayons de créer des machines qui peuvent voir le monde et le percevoir de la même manière qu'une personne. Dans un langage plus technique, les informations qui pénètrent dans l'ordinateur sous forme d'images et de vidéos simples peuvent être représentées comme une séquence de chiffres. Nous voulons extraire de ces chiffres des structures qui décrivent le monde, des informations sémantiques. Par exemple, je peux dire qu'une partie de l'image correspond à un chat. Et l'autre partie correspond à la machine, je veux dire une interprétation de ce genre. Le voici, l'objectif de la vision par ordinateur. Cela semble être une tâche simple pour les gens, cependant, pour enseigner les ordinateurs à ce sujet, nous avons dû faire beaucoup de travail au cours des 10 dernières années. Cependant, la vision par ordinateur en tant que domaine de recherche a déjà 50 ans. Néanmoins, nous devons encore résoudre de nombreux problèmes.
Oui Il y a 5 ans, vous avez dit ce qui suit, je reformule: "Pourquoi, après 30 ans de recherche, travaillons-nous toujours sur le problème de la reconnaissance faciale?" Dites-nous comment vous avez répondu à cette question et ce qui a changé pendant cette période.Si nous répondons du point de vue d'il y a cinq ans, je dirais qu'au cours des 30 années qui se sont écoulées depuis le début de la recherche dans le domaine de la vision par ordinateur et de la reconnaissance faciale, nous avons accompli beaucoup. Mais pour la plupart, nous parlons d'un environnement contrôlé où, lors de la capture de visages, vous pouvez régler l'éclairage, la caméra, les décorations, etc. Il y a cinq ans, lorsque nous avons commencé à travailler plus in vivo, dans un environnement non contrôlé, il s'est avéré qu'il y avait un énorme fossé dans la précision de la reconnaissance. Cependant, au cours des cinq dernières années, notre communauté a fait de grands progrès grâce à l'utilisation de méthodes d'apprentissage approfondi plus avancées. Même dans le domaine de la reconnaissance faciale in vivo, nous avons fait des progrès et sommes vraiment arrivés au point où il est devenu possible d'utiliser ces technologies à des fins commerciales diverses.
Il s'avère que le deep learning a vraiment permis de réaliser de grands succès dans les domaines de la vision par ordinateur et de la reconnaissance d'images au cours des dernières années.Oui.
Lorsque nous avons parlé de la différence de conditions dans un environnement complètement contrôlé et imprévisible, je me suis souvenu de plusieurs scientifiques, invités du podcast, qui ont noté que les ordinateurs tombent en panne lorsque les données ne sont pas suffisamment complètes ... par exemple, la séquence «chien, chien, chien, chien à trois pattes» "- l'ordinateur commence à douter que ce dernier soit aussi un chien?Oui
Est-ce vrai? Alors, quelles méthodes d'apprentissage approfondi auparavant inaccessibles vous permettent aujourd'hui de faire dans le domaine de la reconnaissance?C’est une grande question. Du point de vue de la recherche, le deep learning ouvre plusieurs possibilités. Tout d'abord, vous pouvez effectuer une formation complète afin de déterminer la représentation correcte de l'image sémantique. Par exemple, revenons au chien. Supposons que nous regardions diverses photographies de chiens, par exemple des images de 64 × 64 pixels, où chaque pixel peut prendre environ deux cent cinquante valeurs différentes. Si vous y réfléchissez, il s'agit d'un grand nombre de combinaisons. Mais si nous parlons du chien comme d'un modèle, où les pixels sont en corrélation les uns avec les autres, alors le nombre de combinaisons correspondant au «chien» sera beaucoup moins.
En utilisant des méthodes complètes d'apprentissage en profondeur, vous pouvez apprendre au système à déterminer la représentation numérique correcte d'un «chien». Grâce à la profondeur des structures, nous pouvons créer des modèles vraiment complexes qui peuvent maîtriser une grande quantité de données pour la formation. Ainsi, si mes données de formation couvrent toutes les options et représentations possibles du modèle, je pourrai finalement le reconnaître dans un contexte plus large, car j'ai considéré presque toutes les combinaisons possibles. Ceci est le premier.
Une autre possibilité d'apprentissage en profondeur est une sorte de comportement de composition. Il y a une couche de structure et une couche de présentation, donc, lorsque des informations ou une image tombent dans des réseaux profonds et que l'extraction d'images primitives de bas niveau commence, alors progressivement le modèle peut collecter des structures sémantiques de plus en plus complexes à partir de ces images primitives. Les algorithmes d'apprentissage en profondeur identifient des modèles plus petits qui correspondent à des modèles plus grands et les assemblent pour former le modèle final. C'est donc un outil très puissant, en particulier pour les tâches de reconnaissance visuelle.
Ainsi, le thème principal de la conférence CVPR est la reconnaissance des modèles avec la vision par ordinateur.Oui, c'est vrai.
Et la reconnaissance des formes est ce à quoi la technologie aspire vraiment.
Oui bien sûr. En fait, le but de la vision par ordinateur est de capturer le sens en pixels. D'un point de vue technique, l'ordinateur a besoin de comprendre ce qu'est l'image et nous en obtenons un certain résultat numérique ou symbolique. Par exemple, un résultat numérique peut être un nuage de points tridimensionnel qui décrit la structure de l'espace ou la forme d'un objet. Il peut également être associé à certaines étiquettes sémantiques, telles que «chien» ou «chat», comme je l'ai dit plus tôt.
Je vois. Parlons donc un peu des balises. Une caractéristique intéressante et importante du processus d'apprentissage automatique est le fait que l'ordinateur doit fournir à la fois des pixels et des étiquettes.Oui bien sûr.
Vous avez parlé de trois choses qui vous intéressent le plus dans le contexte de la vision par ordinateur. Vidéo, visages, art et multimédia. Parlons de chacun d'eux individuellement et commençons par votre recherche actuelle, ce que vous appelez la «compréhension» de la vidéo.Oui L'expression "comprendre la vidéo" parle d'elle-même. En entrée, nous utilisons de la vidéo au lieu d'images. Ici, il est important non seulement de reconnaître les pixels, mais également de prendre en compte la façon dont ils se déplacent. Pour la vision par ordinateur, la reconnaissance d'image est un problème spatial. Dans le cas de la vidéo, elle devient spatio-temporelle car une troisième dimension - temporelle - apparaît. Et si vous regardez les nombreuses tâches réelles associées au streaming vidéo, qu'il s'agisse de caméras de surveillance intérieures ou de caméras de route sur l'autoroute, l'essentiel est que l'objet se déplace dans un flux constant d'images. Et nous devons extraire des informations de ce flux.
Ces caméras créent une énorme quantité de matériel vidéo. Caméras de sécurité qui tournent 24 heures sur 24 dans les supermarchés et autres. Quels avantages pouvez-vous tirer de ces enregistrements pour les gens?Mon équipe travaille sur un projet d'incubation, dans lequel nous créons une technologie fondamentale. Dans le cadre de ce projet, nous essayons d'analyser le trafic sur les routes. Un grand nombre de caméras routières ont été installées dans les villes, mais la plupart des vidéos enregistrées ont été perdues. Cependant, ces caméras peuvent être utiles. Prenons un exemple: vous voulez contrôler plus efficacement les feux de circulation. Habituellement, le changement des signaux rouge et vert est déterminé par le programme défini. Cependant, si je voyais que beaucoup moins de voitures se déplaçaient dans une direction que dans d'autres, alors pour optimiser le mouvement, je pouvais garder la couleur verte plus longtemps dans les directions surchargées. Ce n'est qu'une application.
Veuillez traduire cette idée!On va essayer!
Lequel d'entre nous ne s'est pas tenu au feu rouge, bien que presque personne n'ait conduit sur le vert dans l'autre sens?Ça y est!
À peu près, vous vous demandez: pourquoi dois-je attendre?
Je suis d'accord. Cette technologie peut également être appliquée dans d'autres cas, par exemple lorsque nous avons accumulé de grandes archives d'enregistrements vidéo. Supposons que les citoyens demandent des voies cyclables supplémentaires. Nous pourrions utiliser les vidéos, analyser les données de circulation, puis décider de faire une piste cyclable à cet endroit. En introduisant cette technologie, nous pourrions considérablement affecter les flux de trafic et aider les villes à prendre de telles décisions.
Je pense que c'est une excellente idée, car dans la plupart des cas, nous prenons de telles décisions sur la base de nos propres idées, et non sur des données, en regardant ce que nous pourrions dire: «Hé, vous savez, ici la piste cyclable aurait été très au fait. Et ici, cela ne fera que compliquer le mouvement. "C'est vrai. Parfois, d'autres capteurs sont utilisés pour cela. Ils embauchent une entreprise qui installe des équipements spéciaux sur les routes. Mais c'est économiquement inefficace. Mais les caméras routières sont déjà installées et traînent. Les flux vidéo sont déjà disponibles. Non? Alors pourquoi ne pas en profiter?
Je suis d'accord. Ceci est un excellent exemple de la façon dont l'apprentissage automatique et la compréhension vidéo peuvent être appliqués.Exactement.
Un autre domaine d'application important est donc la reconnaissance faciale. Nous revenons encore à la question «Pourquoi travaillons-nous toujours sur le problème de la reconnaissance faciale?».C'est vrai.
Soit dit en passant, ces technologies peuvent dans certains cas être appliquées de manière très intéressante. Dites-nous ce qui se passe dans le domaine de la reconnaissance faciale. Qui fait ça et quoi de neuf?Avec le recul, la technologie de reconnaissance faciale a été étudiée par Microsoft alors que je travaillais encore à Live Labs Research. Nous avons ensuite créé la première bibliothèque de reconnaissance faciale que divers groupes de développement de produits pouvaient utiliser. Cette technologie a été introduite pour la première fois sur Xbox. Ensuite, les développeurs ont essayé d'utiliser la reconnaissance faciale pour se connecter automatiquement au système. Je pense que ce fut le premier cas. Au fil du temps, le centre d'étude de la reconnaissance faciale s'est déplacé vers Microsoft Research Asia, où nous avons toujours un groupe de chercheurs avec qui je collabore.
Nous essayons constamment d'élargir les limites du possible. Nous travaillons maintenant avec des services techniques pour nous aider à collecter plus de données. Sur la base de ces données, nous formons des modèles plus avancés. Récemment, nous nous sommes concentrés sur la direction de la recherche, que nous appelons «la synthèse des visages avec la préservation de la reconnaissance». La communauté d'experts du deep learning a également connu un grand succès. Ils utilisent des réseaux profonds pour former des modèles génératifs qui peuvent simuler la distribution d'images afin que des données puissent en être extraites, c'est-à-dire synthétiser réellement l'image. Vous pouvez donc créer des réseaux profonds qui créent des images.
Mais nous voulons aller plus loin. Nous voulons synthétiser des visages. Dans le même temps, nous voulons maintenir la reconnaissance de ces individus. Nos algorithmes ne devraient pas simplement créer un ensemble arbitraire de visages sans aucune signification sémantique. Supposons que nous voulons recréer le visage de Brad Pitt. Vous devez créer un visage qui lui ressemble vraiment. Si vous devez recréer le visage de la personne que je connais, le résultat doit être précis.
Autrement dit, vous voulez maintenir la reconnaissance de la personne que vous essayez de recréer?Oui.
Soit dit en passant, je me demande si cette technologie fonctionnera longtemps, à mesure qu'une personne vieillit, ou sera-t-il nécessaire de mettre à jour constamment la base de données avec des individus?C'est une très bonne question. Nous menons actuellement des recherches pour résoudre ce problème. Au niveau technologique actuel, il est toujours nécessaire de mettre à jour la base de données de temps en temps. Surtout si le visage a beaucoup changé. Par exemple, si une chirurgie plastique a été effectuée, le système moderne ne pourra pas produire le résultat correct.
Attendez, ce n'est pas vous.Oui, c'est complètement différent. Cette question peut être abordée de plusieurs côtés. Les visages humains ne changent pas vraiment beaucoup entre 17-18 ans et environ 50 ans. Mais que se passe-t-il immédiatement après la naissance? Les visages des enfants changent considérablement, car les os se développent et la forme du visage et de la peau change également. Mais dès qu'une personne grandit et passe au stade de maturité, les changements commencent à se produire très lentement. Nous menons actuellement des recherches dans le cadre desquelles nous développons des modèles de vieillissement. Ils aideront à créer un système de reconnaissance faciale amélioré basé sur l'âge. En fait, il s'agit d'une technologie très utile qui peut être appliquée dans l'application des lois, par exemple, pour reconnaître les enfants enlevés il y a de nombreuses années qui ...
Ils ont l'air très différents.Oui, ils ont l'air différents. Si les algorithmes de reconnaissance intelligente des visages pouvaient prendre en compte la photo d'origine ...
Et pour dire, à quoi auraient-ils l'air à 14 ans s'ils avaient été enlevés beaucoup plus tôt, ou quelque chose comme ça?Oui, oui, exactement.
Ceci est une excellente application. Parlons d'un autre domaine que vous explorez activement - le multimédia et l'art. Dites-nous comment la science recoupe l'art, et en particulier votre travail dans le domaine du transfert profond du style artistique.Bon. Jetez un œil aux besoins des gens. Tout d'abord, nous avons besoin de nourriture, d'eau et de sommeil, non? Une fois les besoins de base satisfaits, une personne a un fort désir d'art ...
Et l'envie de créer.Et créez des objets d'art. Dans le cadre de ce domaine de recherche, nous voulons connecter la vision par ordinateur aux objets d'art du multimédia et de l'art. Nous pouvons utiliser la vision par ordinateur pour donner du plaisir artistique aux gens. Dans le cadre d'un projet de recherche distinct sur lequel nous travaillons depuis deux ans, nous avons créé une séquence d'algorithmes avec lesquels vous pouvez créer une image dans n'importe quel style artistique si des échantillons de ce style sont fournis. Par exemple, nous pouvons créer une image dans le style de Van Gogh.
Van gogh?Oui, ou tout autre artiste ...
Renoir ou Monet ... ou Picasso.Oui, l'un d'eux. Tous ceux dont vous vous souvenez ...
Intéressant. Vous utilisez des pixels?Oui, en utilisant des pixels. Ceci est également créé par des réseaux profonds utilisant certaines des technologies d'apprentissage en profondeur que nous avons développées.
Cette recherche semble exiger des connaissances dans de nombreux domaines. Où trouvez-vous des professionnels capables de ...Je dirais que dans un sens, notre objectif est de ... Vous savez, les œuvres d'art ne sont pas toujours disponibles pour tout le monde. Certaines œuvres d'art sont vraiment très chères. Avec l'aide de ces technologies numériques, nous essayons de rendre ce travail accessible aux gens ordinaires.
Démocratisez-les.Oui, démocratisez l'art, comme vous le dites.
C'est impressionnant.Notre algorithme vous permet de créer un modèle numérique clair de chaque style. Et nous pouvons même les mélanger si nous voulons créer de nouveaux styles. Cela rappelle la création d'un espace artistique où nous pouvons étudier les options intermédiaires et observer comment les techniques changent lors du passage d'un artiste à un autre. Et nous pouvons même regarder plus en profondeur et essayer de comprendre ce qui détermine exactement le style d'un artiste particulier.
Ce qui m'intéresse particulièrement, c'est le fait que, d'une part, nous parlons de travailler avec les nombres: informatique, algorithmes et mathématiques. Et d'autre part, parler d'art est une catégorie beaucoup plus métaphysique. Et pourtant vous les avez combinés, et cela montre que le cerveau d'un scientifique peut avoir un côté artistique.Exactement. Je pense que l'outil le plus important que nous utilisons pour tout rassembler est la statistique.
Intéressant..
, … – - MSR, – . , ?. , , -. … . , - . - , , . . .
, , Amazon Mechanical Turk. . , . . , . -, , . -, , .
. . . , . , , . .
, . . , , ?, . , , . ( ), , , -, .
, .. , , , , , . . , NIH, - (co-robots).
- ?-. . , . , . , . , . , . , - , , .
, , . , , ? , , ? . . , , , .
Microsoft Research ?Microsoft . , 2006-2009 Live Labs. . . , . Nokia Research, IBM Research …
-, ?, -, . Microsoft Research 2015 . , 2017 .
. ?. Microsoft Research — . . — . . . . , , , Intelligent Group , .
.Oui
, , . - , ? -, ?, , . . : . , , , , , - . . , , , , . , .
… , : , , ? , , , ?Microsoft (GDPR). , , , , . , . - -, . . , - . , ? , , . . , , , …
, . : « . ».Oui, c'est vrai.
, , . ? 10 ?. , . . , . . , .
, , «» . , - , . - , ? . — . , . , , . , . , . . . , …
.
. . . 10-15 , , . , , . , , , .
. , , , .Oui, exactement!Pour en savoir plus sur le Dr Gang Hua, ainsi que sur les avancées incroyables de la vision par ordinateur, visitez notre site Web: Microsoft.com/research