Une idée tirée de la physique aide l'IA à travailler dans des dimensions plus élevées.

Les lois de la physique ne changent pas d'un point de vue. Cependant, cette idée aide les ordinateurs à reconnaître certaines fonctionnalités dans l'espace courbe de dimensions supérieures.




Les ordinateurs apprennent à conduire des voitures, à battre des champions du monde dans les jeux de société et même à écrire de la prose. Pour l'essentiel, la révolution de l'IA est basée sur les capacités d'un type de réseau neuronal artificiel, dont le schéma est inspiré par des couches interconnectées de neurones dans le cortex visuel du cerveau des mammifères. Les soi-disant «réseaux de neurones convolutionnels» (SNA) se sont révélés étonnamment bien adaptés pour trouver des modèles dans des données bidimensionnelles - en particulier dans des tâches de vision par ordinateur telles que la reconnaissance de mots ou d'objets manuscrits dans des images numériques.

Mais lorsqu'elle est appliquée à des ensembles de données qui ne sont pas réductibles à la géométrie dans un plan - par exemple, à des modèles de forme irrégulière utilisés dans l'animation informatique 3D, pour pointer des nuages ​​générés par des robomobiles pour marquer le monde autour d'eux - cette architecture efficace d'apprentissage automatique (MO) n'est plus fonctionne si bien. En 2016, une nouvelle discipline, le deep learning géométrique (GGO), est apparue, dont le but était d'amener le SNA au-delà de l'avion.

Maintenant, les chercheurs ont atteint leur objectif en développant une nouvelle plate-forme théorique pour construire des NS capables de trouver des motifs sur toutes les surfaces géométriques. Ces réseaux de neurones convolutifs à jauge équivalente ont été développés à l'Université d'Amsterdam et au laboratoire de recherche Qualcomm AI avec la participation de chercheurs tels que Taco Cohen , Maurice Weiler , Berkai Kitsanoglu et Max Welling . ESNS peut trouver des motifs non seulement dans des tableaux bidimensionnels de pixels, mais aussi sur des sphères et sur des objets incurvés asymétriquement. "Cette plate-forme est une réponse définitive au défi posé par le problème de l'apprentissage en profondeur sur les surfaces courbes", a déclaré Welling.

Le KESNS a déjà sérieusement dépassé ses prédécesseurs en détectant des modèles dans les simulations du climat mondial, qui sont naturellement effectuées sur la sphère. Les algorithmes peuvent également être utiles pour améliorer la vision des drones et des robomobiles qui perçoivent les objets tridimensionnels et pour détecter les motifs dans les données collectées à partir de surfaces courbes de formes irrégulières du cœur, du cerveau ou d'autres organes.


Taco Cohen, l'un des principaux architectes du CECNS

La solution au problème GO trouvée par des chercheurs en dehors de l'avion a un lien profond avec la physique. Les théories physiques qui décrivent le monde, comme la théorie générale de la relativité d'Albert Einstein ou le modèle standard en physique, ont la propriété de «l'équivariance de jauge». Cela signifie que l'ampleur du monde et leur relation ne dépendent pas de systèmes de référence arbitraires (ou «étalonnage»); ils restent inchangés, que l'observateur se déplace ou se repose, ou la distance entre les nombres sur la règle. Les mesures prises par différents moyens doivent être converties entre elles de manière à maintenir l'interconnexion entre les choses.

Par exemple, si nous mesurons la longueur d'un terrain de football en yards, puis en mètres, nous obtiendrons des nombres différents, mais leur différence sera prévisible. Deux photographes prenant des photos d'un objet à partir de deux points différents recevront des images différentes, mais ils peuvent être connectés les uns aux autres. L'équivariance de jauge garantit la cohérence des modèles physiques, quel que soit le point de vue ou les unités de mesure. KESNS accepte les mêmes hypothèses sur les données.

"Ils voulaient introduire l'idée de la physique dans le réseau neuronal - quand il n'y a pas de domaines particuliers", a déclaré Kyle Kranmer , physicien à l'Université de New York qui applique le MO à la physique des particules. "Et ils ont compris comment le faire."

Évasion d'avion


En 2015, Michael Bronstein , spécialiste en informatique à l'Imperial College de Londres, a inventé le terme «apprentissage profond géométrique» pour décrire les premières tentatives faites ensuite pour quitter l'avion et développer NS capable de rechercher des modèles dans les données 3D. Bientôt, ce terme - et la recherche - ont pris racine .

Bronstein et ses associés savaient que pour aller au-delà du plan euclidien, il faudrait réinventer l'une des procédures de calcul de base qui rendent les NS si efficaces pour reconnaître les images bidimensionnelles. Cette procédure, la soi-disant La «convolution» permet à la couche NS d'effectuer une opération mathématique sur de petites sections des données d'entrée, puis de transférer le résultat vers la couche réseau suivante.

"Vous pouvez imaginer le paquet comme une fenêtre coulissante", a expliqué Bronstein. SNA déplace beaucoup de ces fenêtres de filtrage en fonction des données, et chacune d'elles recherche un certain modèle. Dans le cas d'une photo de chat, un SNA formé peut utiliser des filtres qui reconnaissent les signes de bas niveau en pixels, tels que les visages. Ces signes sont transmis jusqu'aux couches suivantes du réseau, et ils conduisent des convolutions supplémentaires, en choisissant des signes d'un niveau supérieur - tels que les yeux, la queue ou les oreilles triangulaires. En conséquence, le SNS formé pour reconnaître les chats utilise les résultats de ces convolutions couche par couche afin de marquer s'il y a un chat sur la photo ou non.


Comme le SNS le voit:

  1. Les filtres qui reconnaissent les signes se déplacent le long de l'image entrante et le degré de coïncidence avec chaque filtre à chaque position est enregistré, ce qui donne une carte des signes.
  2. Après le traitement, les cartes de fonction sont à nouveau convolutées, utilisant déjà des filtres configurés pour des fonctionnalités de niveau supérieur.
  3. En conséquence, le réseau apprend à reconnaître et à classer correctement les images.

Cependant, cette approche ne fonctionne que dans l'avion. "Lorsque l'avion sur lequel vous devez analyser est déformé, vous avez des problèmes", a déclaré Welling.

Convolution sur une surface incurvée - en géométrie c'est ce qu'on appelle un collecteur topologique - revient à presser un morceau carré de papier millimétré sur le globe, en essayant de transférer avec précision les contours de la côte du Groenland. Vous ne pouvez pas presser le papier au Groenland sans l'écraser, ce qui signifie que votre dessin sera déformé lorsque vous le lisserez à nouveau. Vous pouvez appuyer le papier contre le globe à un moment donné et dessiner les contours en les regardant à travers le papier (cette technique est connue sous le nom de projection Mercator ), mais des distorsions seront également obtenues dans ce cas. Vous pouvez attacher du papier millimétré à une carte du monde plate, pas à un globe, mais ensuite vous copiez simplement ses distorsions - par exemple, pensez au fait que tout le bord supérieur de la carte signifie en fait le seul point du globe, le pôle Nord. Et si la variété s'avère ne pas être une sphère soignée comme un globe, mais quelque chose de plus complexe et de faux, comme une forme de bouteille en trois dimensions ou une protéine posée, alors il sera encore plus difficile de la convoluer.

Bronstein et ses collègues ont trouvé une solution au problème de convolution sur les variétés non euclidiennes en 2015. Ils ont remplacé la structure coulissante par une structure qui ressemblait plus à une toile ronde qu'à un morceau de papier millimétré - elle peut être appuyée contre le globe (ou toute surface incurvée) sans se froisser, sans se déchirer et sans s'étirer.

La modification des propriétés du filtre glissant a favorisé la compréhension du SCN de certaines relations géométriques. Par exemple, le réseau pourrait automatiquement comprendre qu'une figure tridimensionnelle, incurvée de différentes manières - par exemple, une personne debout et une personne qui a levé une jambe - est un seul et même objet, et non deux complètement différentes. De plus, ce changement a considérablement amélioré les performances de l'Assemblée nationale. Le SNS standard "utilisait des millions d'exemples de chiffres, ils devaient être entraînés pendant des semaines", a déclaré Bronstein. «Nous utilisons environ 100 figurines dans diverses poses et formons le réseau pendant environ une demi-heure.»

En même temps, Taco Cohen et ses collègues d'Amsterdam ont commencé à aborder ce problème du côté opposé. En 2015, Cohen, alors étudiant diplômé, n'a pas étudié la question de l'évasion de l'avion. Il était intéressé par un problème technique, comme il le considérait, d'ingénierie: l'efficacité des données, c'est-à-dire la question de savoir comment former la NS en utilisant moins d'exemples, au lieu des milliers ou des millions qui sont généralement nécessaires pour cela. "L'apprentissage en profondeur est très lent", a déclaré Cohen. Cela ne crée pas de problèmes particuliers si vous entraînez le SNS à reconnaître les chats (compte tenu de la disponibilité inépuisable de photos de chats sur Internet). Mais si vous apprenez au SCN à reconnaître quelque chose de plus important, comme des tumeurs cancéreuses dans une image de tissu pulmonaire, il est assez difficile de trouver une quantité suffisante de données de formation - médicalement précises, correctement étiquetées et libres de droits d'auteur. Et moins il y a d'exemples nécessaires pour former le réseau, mieux c'est.

Cohen savait qu'une façon d'augmenter l'efficacité des données était de donner au NS une idée de ces données à l'avance, par exemple, qu'un cancer du poumon ne cesse pas d'être une tumeur si son image est tournée ou reflétée. Le réseau de convolution a généralement besoin d'apprendre ces informations à partir de zéro, en étudiant de nombreux exemples du même modèle, présentés sous différentes formes. En 2016, Cohen et Welling ont travaillé ensemble sur un article décrivant comment encoder certaines de ces hypothèses en NS sous forme de symétries géométriques. Une telle approche a si bien fonctionné qu'en 2018, Cohen et Maricia Winkles l'ont encore plus résumé, montrant des résultats prometteurs dans la reconnaissance du cancer du poumon dans les images CT. Leur NS a pu trouver des preuves visuelles de la présence de la maladie en utilisant seulement un dixième des données à partir desquelles d'autres réseaux de neurones ont été formés.

Les chercheurs d'Amsterdam ont poursuivi leurs généralisations et ont fini par évaluer l'équivariance.

Élargir l'équivariance


La physique et l'apprentissage automatique ont quelque chose en commun. Selon Cohen, "les deux zones sont occupées à observer et à construire des modèles qui prédisent les résultats des observations suivantes". Ce qui est important, a-t-il dit, c'est que les deux domaines construisent des modèles de choses non séparées (il n'est guère utile d'avoir une description pour un atome d'hydrogène, et la seconde pour le même atome, seulement inversée), mais de catégories générales. "Et la physique, bien sûr, a fait de grands progrès dans ce domaine."

Equivariance


L'équivariance (ou «covariance», selon les préférences des physiciens) est l'hypothèse sur laquelle les physiciens se sont appuyés pour généraliser leurs modèles depuis Einstein. «Cela signifie simplement que si vous décrivez correctement une sorte de physique, cette description devrait être indépendamment du type de« dirigeants »que vous utilisez, ou, en général, du type d'observateur que vous êtes», a expliqué Miranda Chen , physicienne théorique. de l'Université d'Amsterdam, qui a écrit avec Cohen et d'autres scientifiques un article sur l'étude de la relation entre la physique et le KESNS. Comme Einstein lui-même l'a écrit en 1916: "Les lois générales de la nature doivent être exprimées par des équations qui fonctionnent dans tous les systèmes de coordonnées."


Miranda Chen, physicienne théorique de l'Université d'Amsterdam

Les réseaux de neurones convolutifs sont devenus l'une des méthodes les plus efficaces en défense civile grâce à l'utilisation d'un exemple simple d'un tel principe, «l'équivariance de transfert». Une fenêtre de filtre qui reconnaît une caractéristique spécifique de l'image - par exemple, des faces verticales - glisse (ou «enveloppe») le long d'un plan de pixels et enregistre tous les endroits où ces faces verticales sont situées; il crée ensuite une «carte des entités», marquant ces endroits, et la passe au niveau suivant du réseau. La création de cartes d'entités est obtenue en raison de l'équivariance du transfert: le réseau neuronal suppose que la même entité peut apparaître n'importe où dans le plan bidimensionnel et qu'il peut reconnaître la face verticale, se trouvant dans le coin supérieur droit ou inférieur gauche.

"L'essence des NS équivariants est de prendre ces symétries évidentes et de les incorporer dans l'architecture du réseau afin que cette propriété fonctionne comme si elle était gratuite", a déclaré Weiler.

En 2018, Weiler, Cohen et leur superviseur, Max Welling, ont étendu cette «action gratuite» pour inclure d'autres types d'équivariance. Leurs «SNA équivalents à un groupe» peuvent reconnaître les éléments tournés ou réfléchis dans les images plates sans avoir à tirer des leçons de variations spécifiques de ces éléments; Les SNA sphériques peuvent créer des cartes d'entités basées sur des données situées à la surface d'une sphère sans les déformer lorsqu'elles sont transformées en projections plates.

Cette approche n'était pas encore assez universelle pour travailler avec des données sur une structure bosselée de forme irrégulière - c'est-à-dire sur presque tous les objets du monde réel, des pommes de terre aux protéines, du corps humain à la courbure de l'espace-temps. De telles variétés n'ont pas de symétrie «globale», sur laquelle l'Assemblée nationale pourrait émettre des hypothèses équivariantes: chacune de leurs sections est différente de toutes les autres.


Pliage sur des surfaces courbes sur lesquelles les SNA standard ne fonctionnent pas. Un filtre avec détection des bords qui glisse le long d'une telle surface, selon le chemin, peut prendre une orientation différente et produire différentes cartes d'entités.

Le problème est que faire glisser un filtre plat sur une surface peut changer son orientation, en fonction du chemin particulier. Imaginez un filtre configuré pour reconnaître un motif simple: une tache sombre à gauche et une tache lumineuse à droite. Déplacez-le sur une surface plane dans les quatre directions et il sera toujours orienté de la même manière. Mais la situation change même à la surface de la sphère. Si vous tenez le filtre à 180 degrés le long de l'équateur de la sphère, son orientation restera - une tache sombre à gauche, une tache lumineuse à droite. Cependant, si vous le dessinez au même point à travers le pôle nord de la sphère, le filtre sera renversé. Il ne trouvera pas le même motif dans les données, ne produira pas la même carte de signe. Déplacez le filtre sur une variété plus complexe et, à la fin, il pourra pointer dans n'importe quelle direction.

Le point, explique Welling, est d'oublier de suivre les changements dans l'orientation du filtre lorsque vous vous déplacez le long de différents chemins. Au lieu de cela, vous pouvez sélectionner une seule orientation (ou étalonnage) du filtre, puis déterminer un moyen cohérent de convertir toute autre orientation en celui-ci.

Le problème est que, bien que tout étalonnage puisse être utilisé dans l'orientation d'origine, la conversion vers d'autres options devrait conserver le modèle d'origine - tout comme la conversion de la vitesse de la lumière de mètres par seconde en miles par heure devrait préserver la quantité physique sous-jacente. Avec une approche de jauge équivariante, dit Welling, "les chiffres eux-mêmes changent, mais ils changent de façon complètement prévisible".

Soen, Weiler et Welling ont codé l'équivariance de jauge - le même «déjeuner gratuit» - à leur SCN en 2019. Pour ce faire, ils ont imposé des restrictions mathématiques sur ce que le NS peut «voir» dans les données lors de l'utilisation de la convolution; ne jauge que des modèles équivariants passés à travers les couches du réseau. "En fait, vous pouvez lui donner n'importe quelle surface", des avions euclidiens aux objets incurvés arbitrairement, y compris des variétés exotiques telles qu'une bouteille de Klein ou un espace-temps en quatre dimensions, "et il s'adaptera au GO sur cette surface", a déclaré Veling.

Théorie de travail


La théorie KESNS est si généralisée qu'elle inclut automatiquement les hypothèses des approches géométriques précédentes de GO - par exemple, l'équivariance rotationnelle ou le déplacement des filtres à travers les sphères. Cela correspond même à la méthode antérieure de Michael Bronstein, qui permettait à la NS de reconnaître une figure en trois dimensions, courbée de différentes manières. «L'équivariance de jauge est une plateforme très large. En tant que cas particulier, cela comprend ce que nous avons fait en 2015 », a déclaré Bronstein.

KESNS fonctionne théoriquement sur n'importe quelle surface courbe de n'importe quelle dimension, mais Cohen et ses co-auteurs l'ont vérifié sur des données climatiques mondiales, dont la structure est sphérique. Ils ont utilisé leur plate-forme pour créer le SCN qui reconnaît les conditions météorologiques extrêmes, telles que les cyclones tropicaux, sur la base de données de simulation climatique. En 2017, le gouvernement et les scientifiques ont utilisé le SCN standard pour déterminer la présence de cyclones dans ces données avec une précision de 74%; L'année dernière, le KESNS a reconnu les cyclones avec une précision de 97,9% (il a également dépassé l'approche moins généralisée du GO, développée en 2018 spécifiquement pour les zones - le résultat de ce système était de 94%).

Maiyur Mudigonda, climatologue au Lawrence Berkeley National Laboratory, qui utilise la défense civile dans son travail, a déclaré qu'il continuerait de surveiller le développement du CESN. "Cet aspect de l'intelligence humaine, la reconnaissance correcte des signes quelle que soit leur orientation dans l'espace, est ce que nous voulons transférer à la communauté climatique", a-t-il déclaré. Qualcomm, une société de puces qui a récemment embauché Cohen et Welling et acheté la startup qu'ils ont fondée, prévoit d'appliquer la théorie KESNS au développement d'algorithmes de vision par ordinateur améliorés, par exemple, un drone qui peut voir tous les 360 degrés à la fois (une telle vision du monde semblable à un poisson œil »est naturellement cartographiée sur le champ d’application, comme les données climatiques mondiales).

Pendant ce temps, KESNS gagne en popularité parmi les physiciens - par exemple, Kranmer prévoit de les faire travailler avec des données de simulations de l'interaction des particules subatomiques."Nous analysons les données liées aux fortes interactions nucléaires, essayant de comprendre ce qui se passe à l'intérieur du proton", a déclaré Kranmer. Il a dit que les données sont à quatre dimensions, "par conséquent, nous avons une option idéale pour utiliser les NS avec une équivariance de jauge."

Rizi Condor, un ancien physicien qui étudie actuellement KESNS, a déclaré que les applications scientifiques potentielles de ces réseaux sont beaucoup plus importantes que leur utilisation en IA. "Si vous reconnaissez des chats sur YouTube et que vous vous retrouvez mal à reconnaître les chats à l'envers, ce n'est pas très bon, mais peut-être pas mortel", a-t-il déclaré. Cependant, il est extrêmement important pour les physiciens que le réseau ne reconnaisse pas incorrectement le champ ou la trajectoire de la particule en raison de la façon dont ils ont été orientés. "Ce n'est pas une question de commodité", a déclaré Condor, "il est très important de respecter les symétries existantes."

Cependant, bien que l'inspiration pour la création de KESNS ait été les mathématiques, qui sont venues de la physique, et elles peuvent être utiles aux physiciens, Cohen a noté que ces NS ne seront pas en mesure de découvrir de nouvelles physiques par elles-mêmes. «Nous sommes désormais en mesure de créer des réseaux capables de traiter des données très exotiques, mais la structure de ces données doit être connue à l'avance», a-t-il déclaré. En d'autres termes, les physiciens peuvent utiliser KESNS car Einstein a déjà prouvé que l'espace-temps peut être représenté comme un collecteur courbe à quatre dimensions. L’Assemblée nationale de Cohen n’a pas pu «trouver» seule cette structure. "Nous ne recherchons pas d'informations sur les symétries", a-t-il déclaré, tout en espérant que cela sera possible à l'avenir.

Cohen ne peut pas se réjouir des relations existantes entre les différents domaines, dont il avait auparavant seulement supposé, et a maintenant démontré avec une rigueur mathématique. "J'ai toujours eu le sentiment que l'apprentissage automatique et la physique font quelque chose de très similaire", a-t-il déclaré. «C'est l'un de ces miracles qui m'étonne: nous avons commencé avec un problème d'ingénierie, et dans le processus d'amélioration des systèmes, nous avons découvert de plus en plus de connexions.»

Source: https://habr.com/ru/post/fr485654/


All Articles