7 ans de battage médiatique sur les réseaux de neurones dans les graphiques et les perspectives inspirantes du Deep Learning 2020



La nouvelle annĂ©e se rapproche, les annĂ©es 2010 se termineront bientĂŽt, donnant au monde la renaissance sensationnelle des rĂ©seaux de neurones. J'ai Ă©tĂ© troublĂ© et privĂ© de sommeil par une simple pensĂ©e: «Comment peut-on estimer rĂ©trospectivement la vitesse de dĂ©veloppement des rĂ©seaux de neurones?» Pour «Celui qui connaĂźt le passĂ© connaĂźt l'avenir». À quelle vitesse les diffĂ©rents algorithmes ont-ils dĂ©collĂ©? Comment Ă©valuer la vitesse des progrĂšs dans ce domaine et estimer la vitesse des progrĂšs de la prochaine dĂ©cennie?



Il est clair que vous pouvez calculer approximativement le nombre d'articles dans différents domaines. La méthode n'est pas idéale, vous devez prendre en compte les sous-domaines, mais en général, vous pouvez essayer. Je donne une idée, sur Google Scholar (BatchNorm) c'est bien réel! Vous pouvez envisager de nouveaux ensembles de données, vous pouvez de nouveaux cours. Votre humble serviteur, aprÚs avoir trié plusieurs options, a opté pour Google Trends (BatchNorm) .

Mes collĂšgues et moi avons pris les demandes des principales technologies ML / DL, par exemple, Batch Normalization , comme dans l'image ci-dessus, ajoutĂ© la date de publication de l'article avec un point, et obtenu un calendrier assez long pour dĂ©coller la popularitĂ© du sujet. Mais pas pour tous ceux-lĂ , le chemin est jonchĂ© de roses, le dĂ©collage est tellement Ă©vident et beau, comme la batnorm. Certains termes, tels que rĂ©gularisation ou saut de connexion, n'ont pas pu ĂȘtre crĂ©Ă©s du tout en raison du bruit des donnĂ©es. Mais en gĂ©nĂ©ral, nous avons rĂ©ussi Ă  collecter les tendances.

Peu importe ce qui s'est passé - bienvenue dans la coupe!

Au lieu d'introduire ou de reconnaĂźtre l'image


Alors! Les données initiales étaient assez bruyantes, parfois il y avait de fortes pointes.
Source: Andrei Karpaty twitter - les étudiants se tiennent dans les allées d'un vaste public pour écouter une conférence sur les réseaux de neurones convolutifs

Conventionnellement, il suffisait à Andrey Karpaty de donner une conférence sur le légendaire CS231n: Réseaux de neurones convolutifs pour la reconnaissance visuelle pour 750 personnes avec la vulgarisation du concept de la façon dont un pic pointu va. Par conséquent, les données ont été lissées avec un simple filtre-boßte (toutes les sorties lissées sont marquées comme lissées sur l'axe). Comme nous voulions comparer le taux de croissance de la popularité - aprÚs le lissage, toutes les données ont été normalisées. Cela s'est avéré assez drÎle. Voici un graphique des principales architectures en compétition sur ImageNet:


Source: Ci-aprĂšs - les calculs de l'auteur selon Google Trends

Le graphique montre trĂšs clairement qu'aprĂšs la publication sensationnelle AlexNet , qui a brassĂ© la bouillie du battage mĂ©diatique actuel des rĂ©seaux de neurones Ă  la fin de 2012, pendant prĂšs de deux ans, il bouillonnait, contrairement aux affirmations du tas, seul un cercle relativement restreint de spĂ©cialistes s'est joint . Le sujet n'est allĂ© au grand public qu'Ă  l'hiver 2014-2015. Faites attention Ă  la pĂ©riodicitĂ© du calendrier Ă  partir de 2017: de nouveaux sommets chaque printemps. En psychiatrie, cela s'appelle une exacerbation printaniĂšre ... C'est un signe certain que maintenant le terme est principalement utilisĂ© par les Ă©tudiants, et en moyenne, l'intĂ©rĂȘt pour AlexNet diminue par rapport au pic de popularitĂ©.

De plus, au second semestre 2014, VGG est apparu. Soit dit en passant, VGG a co-Ă©crit avec le superviseur des Ă©tudes mon ancienne Ă©tudiante Karen Simonyan , qui travaille maintenant dans Google DeepMind ( AlphaGo , AlphaZero , etc.). Pendant ses Ă©tudes Ă  l'UniversitĂ© d'État de Moscou en 3e annĂ©e, Karen a mis en Ɠuvre un bon algorithme d'estimation de mouvement , qui sert de rĂ©fĂ©rence aux Ă©tudiants de 2 ans depuis 12 ans. De plus, les tĂąches y sont quelque peu insaisissables. Comparez:


Source: fonction de perte pour les tùches d'estimation de mouvement (matériel d'auteur) et VGG-56

Sur la gauche, vous devez trouver le point le plus profond d'une surface non triviale en fonction des donnĂ©es d'entrĂ©e pour le nombre minimum de mesures (de nombreux minima locaux sont possibles), et sur la droite, vous devez trouver un point infĂ©rieur avec des calculs minimaux (et Ă©galement un tas de minima locaux, et la surface dĂ©pend Ă©galement des donnĂ©es) . À gauche, nous obtenons le vecteur de mouvement prĂ©vu et Ă  droite, le rĂ©seau formĂ©. Et la diffĂ©rence est qu'Ă  gauche, il n'y a qu'une mesure implicite de l'espace colorimĂ©trique et Ă  droite, une paire de mesures de centaines de millions. Eh bien, la complexitĂ© de calcul Ă  droite est d'environ 12 ordres de grandeur (!) SupĂ©rieure. Un peu comme ça ... Mais la deuxiĂšme annĂ©e, mĂȘme avec une tĂąche simple, oscille comme ... [coupĂ© par la censure]. Et le niveau de programmation des Ă©coliers d'hier pour des raisons inconnues au cours des 15 derniĂšres annĂ©es a nettement baissĂ©. Ils doivent dire: "Vous le ferez bien, ils vous emmĂšneront Ă  DeepMind!" On pourrait dire «inventer le VGG», mais «ils vont se tourner vers DeepMind» pour une raison quelconque, cela motive mieux. Ceci, Ă©videmment, est un analogue moderne avancĂ© du classique "Vous mangerez de la semoule, vous deviendrez astronaute!". Cependant, dans notre cas, si l'on compte le nombre d'enfants dans le pays et la taille du corps des cosmonautes, les chances sont des millions de fois plus Ă©levĂ©es, car deux d'entre nous travaillent dĂ©jĂ  chez DeepMind depuis notre laboratoire.

Vient ensuite ResNet , brisant la barre du nombre de couches et commençant à décoller aprÚs six mois. Et enfin, DenseNet, qui est venu au début du battage médiatique , a décollé presque immédiatement, encore plus cool que ResNet.

Si nous parlons de popularité, je voudrais ajouter quelques mots sur les caractéristiques du réseau et les performances, dont dépend également la popularité. Si vous regardez comment la classe ImageNet est prédite en fonction du nombre d'opérations sur le réseau, la disposition sera la suivante (en haut et à gauche - mieux):


Source: Analyse comparative des architectures représentatives des réseaux de neurones profonds

Tapez AlexNet n'est plus un gĂąteau, et ils gouvernent les rĂ©seaux basĂ©s sur ResNet. Cependant, si vous regardez l'Ă©valuation pratique du FPS plus prĂšs de mon cƓur, vous pouvez clairement voir que VGG est plus proche de l'optimum ici, et en gĂ©nĂ©ral, l'alignement change sensiblement. Y compris AlexNet de façon inattendue sur l'enveloppe Pareto-optimale (l'Ă©chelle horizontale est logarithmique, mieux au-dessus et Ă  droite):


Source: Analyse comparative des architectures représentatives des réseaux de neurones profonds

Total:

  • Dans les annĂ©es Ă  venir, l'alignement des architectures Ă  forte probabilitĂ© changera de maniĂšre trĂšs significative en raison de la progression des accĂ©lĂ©rateurs de rĂ©seaux neuronaux , lorsque certaines architectures vont dans des paniers et d'autres dĂ©collent soudainement, simplement parce qu'il vaut mieux se reposer sur un nouveau matĂ©riel. Par exemple, dans l'article mentionnĂ© , une comparaison est effectuĂ©e sur la carte NVIDIA Titan X Pascal et la carte NVIDIA Jetson TX1, et la disposition change sensiblement. Dans le mĂȘme temps, les progrĂšs du TPU, du NPU et d'autres ne font que commencer.
  • En tant que praticien, je ne peux m'empĂȘcher de remarquer que la comparaison sur ImageNet est effectuĂ©e par dĂ©faut sur ImageNet-1k, et non sur ImageNet-22k, simplement parce que la plupart forment leurs rĂ©seaux sur ImageNet-1k, oĂč il y a 22 fois moins de classes (ce Ă  la fois plus facile et plus rapide). Le passage Ă  ImageNet-22k, qui est plus pertinent pour de nombreuses applications pratiques, changera Ă©galement l'alignement (pour ceux qui sont affinĂ©s de 1k - beaucoup).

Plus profondément dans la technologie et l'architecture


Mais revenons Ă  la technologie. Le terme abandon en tant que mot de recherche est assez bruyant, mais une croissance de 5 fois est clairement associĂ©e aux rĂ©seaux de neurones. Et le dĂ©clin de son intĂ©rĂȘt est trĂšs probable avec un brevet Google et l'avĂšnement de nouvelles mĂ©thodes. Veuillez noter qu'environ un an et demi s'est Ă©coulĂ© entre la publication de l' article original et le regain d'intĂ©rĂȘt pour la mĂ©thode:


Cependant, si nous parlons de la période précédant la montée en popularité, alors en DL l'une des premiÚres places est clairement prise par les réseaux récurrents et le LSTM :


20 ans avant le pic actuel de popularitĂ©, et maintenant, avec leur utilisation, la traduction automatique, l'analyse du gĂ©nome ont Ă©tĂ© radicalement amĂ©liorĂ©es, et dans un avenir proche (si vous prenez de ma rĂ©gion), YouTube, le trafic Netflix va baisser deux fois avec la mĂȘme qualitĂ© visuelle. Si vous apprenez correctement les leçons de l'histoire, il est Ă©vident qu'une partie des idĂ©es de la sĂ©rie d'articles actuelle ne «dĂ©collera» qu'aprĂšs 20 ans. Menez une vie saine, prenez soin de vous et vous le verrez personnellement!

Maintenant plus proche du battage médiatique promis. Les GAN ont décollé comme ceci:


On peut voir clairement que pendant presque un an, il y a eu un silence total et qu'en 2016, aprĂšs 2 ans, une forte augmentation a commencĂ© (les rĂ©sultats ont Ă©tĂ© sensiblement amĂ©liorĂ©s). Ce dĂ©collage un an plus tard a donnĂ© le sensationnel DeepFake, qui, cependant, a Ă©galement dĂ©collĂ© de 1,5 an. Autrement dit, mĂȘme les technologies trĂšs prometteuses nĂ©cessitent beaucoup de temps pour passer d'une idĂ©e Ă  des applications que tout le monde peut utiliser.

Si vous regardez quelles images le GAN a gĂ©nĂ©rĂ©es dans l' article original et ce qui peut ĂȘtre construit avec StyleGAN , il devient assez Ă©vident pourquoi il y avait un tel silence. En 2014, seuls les spĂ©cialistes ont pu Ă©valuer Ă  quel point c'Ă©tait cool - faire, en substance, un autre rĂ©seau en tant que fonction de perte et les former ensemble. Et en 2019, chaque Ă©colier pourrait apprĂ©cier Ă  quel point c'est cool (sans comprendre complĂštement comment cela se fait):



Il existe de nombreux problĂšmes diffĂ©rents rĂ©solus avec succĂšs par les rĂ©seaux de neurones aujourd'hui, vous pouvez prendre les meilleurs rĂ©seaux et crĂ©er des graphiques de popularitĂ© pour chaque direction, gĂ©rer le bruit et les pics de requĂȘtes de recherche, etc. Afin de ne pas rĂ©pandre mes pensĂ©es sur l'arbre, nous terminerons cette sĂ©lection par le thĂšme des algorithmes de segmentation, oĂč les idĂ©es de convolution atreuse / dilatĂ©e et d' ASSP au cours de la derniĂšre annĂ©e et demie se sont tout Ă  fait enflammĂ©es dans l'algorithme de rĂ©fĂ©rence :


Il convient Ă©galement de noter que si DeepLabv1 plus d'un an a «attendu» la montĂ©e en popularitĂ©, DeepLabv2 a dĂ©collĂ© en un an et DeepLabv3 presque immĂ©diatement. C'est-Ă -dire en gĂ©nĂ©ral, nous pouvons parler d'accĂ©lĂ©rer la croissance de l'intĂ©rĂȘt au fil du temps (enfin, ou d'accĂ©lĂ©rer la croissance de l'intĂ©rĂȘt pour les technologies d'auteurs rĂ©putĂ©s).

Tout cela ensemble a conduit à la création du problÚme mondial suivant - une augmentation explosive du nombre de publications sur le sujet:


Source: Trop de documents d'apprentissage automatique?

Cette annĂ©e, nous recevons environ 150 Ă  200 articles par jour, Ă©tant donnĂ© que tous ne sont pas publiĂ©s sur arXiv-e. Aujourd'hui, lire des articles, mĂȘme dans leur propre sous-domaine, est totalement impossible. En consĂ©quence, de nombreuses idĂ©es intĂ©ressantes seront certainement enfouies sous les dĂ©combres de nouvelles publications, ce qui affectera le moment de leur «dĂ©collage». Cependant, l'augmentation explosive du nombre de spĂ©cialistes compĂ©tents employĂ©s dans la rĂ©gion donne peu d' espoir de faire face au problĂšme.

Total:

  • En plus d'ImageNet et de l'histoire en coulisses des succĂšs du jeu DeepMind, les GAN ont donnĂ© naissance Ă  une nouvelle vague de vulgarisation des rĂ©seaux de neurones. Avec eux, il Ă©tait vraiment possible de «filmer» des acteurs sans utiliser d'appareil photo . Et s'il y en aura plus! Sous ce bruit informationnel, des technologies de traitement et de reconnaissance moins sonores, mais tout Ă  fait fonctionnelles seront financĂ©es.
  • Comme il y a trop de publications, nous attendons avec impatience l'Ă©mergence de nouvelles mĂ©thodes de rĂ©seau neuronal pour une analyse rapide des articles, car elles seules nous sauveront (une blague avec une fraction de blague!).

Robots de travail, homme heureux


Depuis 2 ans maintenant, AutoML gagne en popularité sur les pages des journaux . Tout a commencé traditionnellement avec ImageNet, dans lequel, dans la précision Top-1, il a commencé à prendre fermement la premiÚre place:


L'essence d'AutoML est trĂšs simple, un rĂȘve centenaire de scientifiques des donnĂ©es s'y est rĂ©alisĂ© - pour un rĂ©seau neuronal de sĂ©lectionner des hyper-paramĂštres. L'idĂ©e a Ă©tĂ© accueillie avec Ă©clat:

Ci-dessous sur le graphique, nous voyons une situation assez rare lorsque, aprĂšs la publication des premiers articles sur NASNet et AmoebaNet , ils commencent Ă  gagner en popularitĂ© par rapport aux normes des idĂ©es prĂ©cĂ©dentes presque instantanĂ©ment (un Ă©norme intĂ©rĂȘt pour le sujet est affectĂ©):


L'image idyllique est quelque peu gĂąchĂ©e par deux points. Tout d'abord, toute conversation sur AutoML commence par la phrase: "Si vous avez un dofigalion GPU ...". Et c'est ça le problĂšme. Google, bien sĂ»r, affirme qu'avec leur Cloud AutoML, cela est facilement rĂ©solu, l' essentiel est que vous ayez suffisamment d'argent , mais tout le monde n'est pas d'accord avec cette approche. DeuxiĂšmement, cela fonctionne jusqu'Ă  prĂ©sent imparfaitement . En revanche, rappelant les GAN, cinq ans ne se sont pas encore Ă©coulĂ©s, et l'idĂ©e elle-mĂȘme s'annonce trĂšs prometteuse.

Dans tous les cas, le décollage principal d'AutoML commencera avec la prochaine génération d'accélérateurs matériels pour les réseaux de neurones et, en fait, avec des algorithmes améliorés.


Source: Image de Dmitry Konovalchuk, documents de l'auteur

Total: En fait, les data scientists n'auront pas de vacances Ă©ternelles, bien sĂ»r, car pendant trĂšs longtemps il restera un gros mal de tĂȘte avec les donnĂ©es. Mais avant la nouvelle annĂ©e et le dĂ©but des annĂ©es 2020, pourquoi ne pas rĂȘver?

Quelques mots sur les outils


L'efficacitĂ© de la recherche dĂ©pend beaucoup des outils. Si pour programmer AlexNet, vous aviez besoin d'une programmation non triviale, aujourd'hui un tel rĂ©seau peut ĂȘtre rassemblĂ© en plusieurs lignes dans de nouveaux frameworks.


On voit clairement comment la popularité évolue par vagues. Aujourd'hui, le plus populaire (y compris selon PapersWithCode ) est PyTorch . Et une fois que le populaire Caffe sort magnifiquement trÚs bien. (Remarque: le sujet et le logiciel signifient que le filtrage des sujets de Google a été utilisé lors du traçage.)

Eh bien, puisque nous avons abordé les outils de développement, il convient de mentionner les bibliothÚques pour accélérer l'exécution du réseau:


La plus ancienne du sujet est (respect NVIDIA) cuDNN , et, heureusement pour les développeurs, au cours des derniÚres années, le nombre de bibliothÚques a augmenté plusieurs fois, et le début de leur popularité est devenu nettement plus rapide. Et il semble que tout cela ne soit qu'un début.

Total: MĂȘme au cours des 3 derniĂšres annĂ©es, les outils ont considĂ©rablement changĂ© pour le mieux. Et il y a 3 ans, selon les normes d'aujourd'hui, ils ne l'Ă©taient pas du tout. La progression est trĂšs bonne!

Perspectives promises du réseau neuronal


Mais le plaisir commence plus tard. Cet Ă©tĂ©, dans un grand article sĂ©parĂ©, j'ai dĂ©crit en dĂ©tail pourquoi le CPU et mĂȘme le GPU ne sont pas assez efficaces pour fonctionner avec les rĂ©seaux de neurones, pourquoi des milliards de dollars affluent dans le dĂ©veloppement de nouvelles puces et quelles sont les perspectives. Je ne vais pas me rĂ©pĂ©ter. Vous trouverez ci-dessous une gĂ©nĂ©ralisation et l'ajout du texte prĂ©cĂ©dent.

Pour commencer, vous devez comprendre les diffĂ©rences entre les calculs de rĂ©seau de neurones et les calculs dans l'architecture von Neumann familiĂšre (dans laquelle ils peuvent, bien sĂ»r, ĂȘtre calculĂ©s, mais de maniĂšre moins efficace):


Source: Image de Dmitry Konovalchuk, documents de l'auteur
Architecture de Von Neumann
RĂ©seaux de neurones
La plupart des calculs sont des opérations séquentielles.
Calcul massivement parallÚle (vous avez besoin d'une architecture avec un grand nombre de modules informatiques et une accélération du calcul tensoriel)
Le cours des calculs change
selon les conditions ( superscalarité nécessaire)
La structure de calcul est presque toujours fixe et connue à l'avance (la superscalarité est inefficace)
Il y a une localité selon les données (le cache fonctionne bien)
Aucune localité de données (le cache réchauffe l'air)
Calculs précis
Les calculs peuvent ne pas ĂȘtre prĂ©cis.
Les données changent différemment pour différents algorithmes
Des dizaines de mégaoctets de coefficients de réseau sont inchangés lorsque les données sont exécutées à plusieurs reprises via un réseau de neurones

La fois prĂ©cĂ©dente, la discussion principale a tournĂ© autour du FPGA / ASIC, et les calculs inexacts sont passĂ©s presque inaperçus, nous allons donc nous attarder sur eux plus en dĂ©tail. Les Ă©normes perspectives de rĂ©duction des puces des gĂ©nĂ©rations futures rĂ©sident prĂ©cisĂ©ment dans la capacitĂ© de lire de maniĂšre inexacte (et de stocker les donnĂ©es de coefficient localement). Le grossissement, en fait, est Ă©galement utilisĂ© en arithmĂ©tique exacte, lorsque les poids du rĂ©seau sont convertis en nombres entiers et quantifiĂ©s, mais Ă  un nouveau niveau. À titre d'exemple, considĂ©rons un additionneur Ă  un seul bit (l'exemple est assez abstrait):


Source: conception de multiplicateur 8 bits x 8 bits haute vitesse et faible consommation utilisant de nouvelles portes XOR Ă  deux transistors (2T)

Il a besoin de 6 transistors (il existe diffĂ©rentes approches, le nombre de transistors requis peut ĂȘtre de plus en plus, mais en gĂ©nĂ©ral, quelque chose comme ça). Pour 8 bits, environ 48 transistors sont nĂ©cessaires. Dans ce cas, l'additionneur analogique ne nĂ©cessite que 2 (deux!) Transistors, c'est-Ă -dire 24 fois moins:


Source: Multiplicateurs analogiques (analyse et conception de circuits intégrés analogiques)

Si la prĂ©cision est plus Ă©levĂ©e (par exemple, Ă©quivalente Ă  10 ou 16 bits numĂ©riques), la diffĂ©rence sera encore plus grande. Encore plus intĂ©ressante est la situation avec la multiplication! Si un multiplexeur numĂ©rique 8 bits nĂ©cessite environ 400 transistors , alors un analogique 6, c'est-Ă -dire 67 fois (!) De moins. Bien sĂ»r, les transistors «analogiques» et «numĂ©riques» sont sensiblement diffĂ©rents du point de vue des circuits, mais l'idĂ©e est claire - si nous parvenons Ă  augmenter la prĂ©cision des calculs analogiques, nous atteignons facilement la situation lorsque nous avons besoin de deux ordres de grandeur de transistors en moins. Et l’important n’est pas tant de rĂ©duire la taille (ce qui est important dans le cadre du «ralentissement de la loi de Moore»), mais de rĂ©duire la consommation d’électricitĂ©, ce qui est essentiel pour les plates-formes mobiles. Et pour les centres de donnĂ©es, ce ne sera pas superflu.


Source: IBM pense que les puces analogiques accélÚrent l'apprentissage automatique

La clé du succÚs ici sera une réduction de la précision, et là encore IBM est au premier plan:


Source: IBM Research Blog: précision 8 bits pour la formation de systÚmes d'apprentissage en profondeur

Ils sont dĂ©jĂ  engagĂ©s dans des ASIC spĂ©cialisĂ©s pour les rĂ©seaux de neurones, qui prĂ©sentent une supĂ©rioritĂ© de plus de 10 fois sur le GPU, et prĂ©voient d'atteindre une supĂ©rioritĂ© de 100 fois dans les annĂ©es Ă  venir. Cela semble extrĂȘmement encourageant, nous l'attendons vraiment avec impatience, car, je le rĂ©pĂšte, ce sera une percĂ©e pour les appareils mobiles.

En attendant, la situation n'est pas si magique, bien qu'il y ait de sérieux succÚs. Voici un test intéressant des accélérateurs matériels mobiles actuels des réseaux de neurones (l'image est cliquable, et cela réchauffe encore l'ùme de l'auteur, également en images par seconde):


Source: Evolution des performances des accélérateurs d'intelligence artificielle mobiles: débit d'image pour le modÚle float Inception-V3 (modÚle FP16 utilisant TensorFlow Lite et NNAPI)

Le vert indique les puces mobiles, le bleu indique le CPU, l'orange indique le GPU. On voit clairement que les puces mobiles actuelles, et tout d'abord, la puce haut de gamme de Huawei, dépassent déjà les processeurs des dizaines de fois plus grandes (et la consommation d'énergie). Et c'est fort! Avec le GPU, jusqu'à présent, tout n'est pas si magique, mais il y aura autre chose. Vous pouvez regarder les résultats plus en détail sur un site Web séparé http://ai-benchmark.com/ , faites attention à la section des tests là-bas, ils ont choisi un bon ensemble d'algorithmes pour la comparaison.

Total: Les progrÚs des accélérateurs analogiques sont aujourd'hui assez difficiles à évaluer. Il y a une course. Mais les produits ne sont pas encore sortis, il y a donc relativement peu de publications. Vous pouvez surveiller les brevets apparaissant avec un retard (par exemple, un flux dense d'IBM ) ou rechercher des brevets rares d' autres fabricants. Il semble que ce sera une révolution trÚs sérieuse, principalement dans les smartphones et les TPU de serveurs.

Au lieu d'une conclusion


ML / DL est aujourd'hui appelé une nouvelle technologie de programmation, lorsque nous n'écrivons pas de programme, mais insérons un bloc et le formons. C'est-à-dire Comme au début, il y avait un assembleur, puis C, puis C ++, et maintenant, aprÚs 30 longues années d'attente, la prochaine étape est ML / DL:


Cela a du sens. RĂ©cemment, dans les entreprises avancĂ©es, les lieux de dĂ©cision dans les programmes sont remplacĂ©s par des rĂ©seaux de neurones. C'est-Ă -diresi hier il y avait des dĂ©cisions «sur les FI» ou sur des heuristiques qui Ă©taient bonnes pour le cƓur du programmeur ou mĂȘme les Ă©quations de Lagrange (wow!) et d'autres rĂ©alisations plus complexes de dĂ©cennies de dĂ©veloppement de la thĂ©orie du contrĂŽle ont Ă©tĂ© utilisĂ©es, aujourd'hui, ils ont mis un rĂ©seau neuronal simple avec 3-5 couches avec plusieurs entrĂ©es et des dizaines de cotes. Elle apprend instantanĂ©ment, travaille beaucoup plus efficacement et le dĂ©veloppement de code devient plus rapide. Si auparavant, il fallait s'asseoir, chaman , allumer le cerveau , maintenant je l'ai collĂ©, alimentĂ© des donnĂ©es, et cela a fonctionnĂ©, et vous ĂȘtes occupĂ© avec des choses de niveau supĂ©rieur. Juste une sorte de vacances!

Naturellement, le dĂ©bogage est dĂ©sormais diffĂ©rent. Si avant, quand quelque chose ne fonctionnait pas, il y avait une demande: "Envoyez un exemple sur lequel ça ne marche pas!" Et puis un barbu sĂ©rieux et expĂ©rimentĂ©le programmeur connaissait le code et l'heuristique, a statuĂ© quelques coefficients, et s'il a devinĂ© une gĂ©nĂ©ralisation de l'exemple pour tous ces cas et l'a corrigĂ© au bon endroit, alors d'autres exemples similaires ont commencĂ© (oh, bonheur!) Ă  fonctionner. Avec un bloc de rĂ©seau neuronal, une telle focalisation ne fonctionnera pas et la demande sera: "Donnez un exemple et des donnĂ©es balisĂ©es, pliz!" Et puis il y aura une autre formation avec le contrĂŽle d'obtenir un nombre suffisant d'exemples sur tous les nƓuds potentiellement impliquĂ©s dans la mauvaise dĂ©cision. Et encore plus loin dans la production, un gros bouton rouge "Retrain" apparaĂźtra simplement avec la mĂȘme inscription grande et rouge en dessous "Appuyez pas plus d'une fois par mois!" (Afin de limiter le rĂ©glage du fichier). Et l'Ă©conomie mondiale deviendra encore plus efficace. AllĂ©luia!

Cependant, en tant qu'outil mathĂ©matique, le ML / DL en gĂ©nĂ©ral, et les rĂ©seaux de neurones en particulier, est clairement quelque chose de plus que la prochaine technologie de programmation. Les mĂȘmes rĂ©seaux de neurones se retrouvent dĂ©sormais simplement Ă  chaque Ă©tape:

  • Le smartphone prend des photos du texte et le reconnaĂźt - ce sont des rĂ©seaux de neurones,
  • Un smartphone traduit bien Ă  la volĂ©e d'une langue Ă  l'autre et parle une traduction - rĂ©seaux de neurones et encore une fois rĂ©seaux de neurones,
  • Le navigateur et le haut-parleur intelligent reconnaissent assez bien la parole - encore une fois les rĂ©seaux de neurones,
  • Le tĂ©lĂ©viseur affiche une image de contraste lumineux de 8K Ă  partir de la vidĂ©o d'entrĂ©e 2K - Ă©galement un rĂ©seau neuronal,
  • Les robots en production sont devenus plus prĂ©cis, ils ont commencĂ© Ă  mieux voir et reconnaĂźtre les situations anormales - encore une fois les rĂ©seaux de neurones,
  • 10 , , - 90- — ,
  • — ,
  • — - — ,
  • — ! )



Seulement 4 ans se sont écoulés depuis que les gens ont appris à former des réseaux neuronaux trÚs profonds à bien des égards grùce à BatchNorm (2015) et à sauter les connexions (2015), et 3 ans se sont écoulés depuis leur «décollage», et nous lisons vraiment les résultats de leur travail n'a pas vu. Et maintenant, ils atteindront les produits. Quelque chose nous dit que dans les années à venir, beaucoup de choses intéressantes nous attendent. Surtout quand les accélérateurs "décollent" ...



Il Ă©tait une fois, si quelqu'un se souvient, PromĂ©thĂ©e a volĂ© le feu d'Olympe et l'a remis aux gens. Angry Zeus avec d'autres dieux a crĂ©Ă© la premiĂšre beautĂ© d'une femme-homme nommĂ©e Pandora, qui Ă©tait dotĂ©e de nombreuses qualitĂ©s fĂ©minines merveilleuses (j'ai soudainement rĂ©alisĂ© que le rĂ©cit politiquement correct de certains des mythes de la GrĂšce antique est extrĂȘmement difficile) . Pandora a Ă©tĂ© envoyĂ©e aux gens, mais PromĂ©thĂ©e, qui soupçonnait que quelque chose n'allait pas, a rĂ©sistĂ© Ă  son sort, et son frĂšre ÉpimĂ©thĂ©e ne l'a pas fait. En cadeau pour le mariage, Zeus a envoyĂ© un beau cercueil avec Mercure et Mercure, une Ăąme gentille, a rempli la commande - il a donnĂ© le cercueil Ă  EpimĂ©thĂ©e, mais l'a averti de ne pas l'ouvrir de toute façon. La curieuse Pandore a volĂ© le cercueil de son mari, l'a ouvert, mais il n'y avait que des pĂ©chĂ©s, des maladies, des guerres et d'autres problĂšmes de l'humanitĂ©. Elle a essayĂ© de fermer le cercueil, mais il Ă©tait trop tard:


Source: Artiste Frederick Stuart Church, BoĂźte ouverte de Pandore

Depuis lors, la phrase «ouvrir la boĂźte de Pandore» a disparu, c'est-Ă -dire effectuer par curiositĂ© une action irrĂ©versible, dont les consĂ©quences peuvent ne pas ĂȘtre aussi belles que les dĂ©corations du cercueil Ă  l'extĂ©rieur.

Vous savez, plus je plonge profondément dans les réseaux de neurones, plus distinct est le sentiment qu'il s'agit d'une autre boßte de Pandore. Cependant, l'humanité a la plus riche expérience dans l'ouverture de telles boßtes! De la récente récente - c'est l'énergie nucléaire et Internet. Donc, je pense que nous pouvons faire face ensemble. Pas étonnant qu'un groupe d'hommes barbus durs parmi les ouvreurs. Eh bien, un cercueil est beau, d'accord! Et ce n'est pas vrai qu'il n'y a que des problÚmes, un tas de bonnes choses ont déjà été obtenues. Par conséquent, ils se sont réunis et ... nous ouvrons plus loin!

Total:

  • L'article n'inclut pas de nombreux sujets intĂ©ressants, par exemple, les algorithmes ML classiques, l'apprentissage par transfert, l'apprentissage par renforcement, la popularitĂ© des ensembles de donnĂ©es, etc. (Messieurs, vous pouvez continuer le sujet!)
  • À la question sur le cercueil: je pense personnellement que les programmeurs de Google qui ont permis Ă  Google d'abandonner le contrat de 10 milliards de dollars avec le Pentagone sont grands et beaux. Ils respectent et respectent. Cependant, notez que quelqu'un a remportĂ© cet appel d'offres majeur.

Lisez aussi:


Autant de nouvelles découvertes intéressantes dans les années 2020 en général et dans la nouvelle année en particulier!


Remerciements


Je remercie chaleureusement:

  • Laboratoire d'infographie et multimĂ©dia VMK UniversitĂ© d'État de Moscou M.V. Lomonosov pour sa contribution au dĂ©veloppement de l'apprentissage profond en Russie et pas seulement
  • personnellement Konstantin Kozhemyakov et Dmitry Konovalchuk, qui ont fait beaucoup pour rendre cet article meilleur et plus visuel,
  • et enfin, un grand merci Ă  Kirill Malyshev, Yegor Sklyarov, Nikolai Oplachko, Andrey Moskalenko, Ivan Molodetsky, Evgeny Lyapustin, Roman Kazantsev, Alexander Yakovenko et Dmitry Klepikov pour de nombreux commentaires et corrections utiles qui ont rendu ce texte bien meilleur!

Source: https://habr.com/ru/post/fr481844/


All Articles