Samsung Moscow Center for Artificial Intelligence in stories des employés

Notre article est l'occasion d'en apprendre davantage sur la recherche dans la nouvelle division de Samsung Research - le Centre pour l'intelligence artificielle (AI) à Moscou. Il a ouvert ses portes en mai 2018 et a réuni en un an et demi les meilleurs professionnels du domaine du machine learning.

Vous trouverez ci-dessous des mini-entretiens avec le personnel du centre - conférenciers du Forum annuel sur l'intelligence artificielle, qui s'est tenu au Centre en décembre dernier. Nous avons interviewé des collègues de deux laboratoires: un laboratoire de vision par ordinateur et de modélisation visuelle et un laboratoire d'analyse multimodale de données.



À propos de Samsung AI Center


Samsung investit dans la recherche et le développement ~ 8% du chiffre d'affaires annuel - c'est l'un des principaux indicateurs au monde. La société possède le plus grand portefeuille de brevets actifs aux États-Unis et a déposé des demandes pour la plupart des technologies les plus en vogue en Europe. Au cours des trois prochaines années, Samsung investira 22 milliards de dollars dans le développement de la 5G et de la technologie dans le domaine de l'intelligence artificielle.

Samsung Research, une division de recherche de Samsung Electronics, regroupe 21 centres de recherche à travers le monde:


Unités de recherche Samsung sur la carte du monde (à partir de https://research.samsung.com/ )

Parmi eux, 7 sont des centres spécialisés uniquement en IA. Le Moscow AI Center a été ouvert le 29 mai 2018, les six autres se trouvent à Séoul, Montréal, Toronto, New York, Cambridge et Mountain View.

Le principal domaine de recherche du Samsung AI AI Center à Moscou est l'apprentissage automatique, une approche qui a été appliquée avec succès dans la reconnaissance vocale, la vision par ordinateur et l'analyse des données. Le directeur du Centre est Viktor Lempitsky, Ph.D., professeur agrégé de l'Institut des sciences et technologies de Skolkovo, le scientifique russe le plus cité dans sa catégorie de sujet en 2018, lauréat du Scopus Award Russia en 2018 pour sa contribution au développement de l'industrie.

Les architectes et designers qui ont conçu le bureau du Moscow AI Center se sont inspirés de l'idée de l'infini numérique. Le concept de bureau est conçu pour créer un espace qui maximise la créativité dans un environnement confortable: mobilier mobile et cloisons multifonctionnelles mobiles, avec lesquelles vous pouvez combiner plusieurs salles de réunion et créer la configuration nécessaire de l'espace de travail.


Conférence de Mikhail Romanov (ingénieur principal, Visual Understanding Lab) pour les étudiants de Samsung AI Bootcamp 2018 dans la salle de réunion Matrix

Les salles de réunion portent le nom de films sur l'intelligence artificielle (The Matrix, The Terminator, The Bicentennial Man, From The Car, etc.), chacun a des écrans des deux côtés, et vous pouvez écrire sur les murs avec des marqueurs. Des tablettes fixées à la porte des salles de réunion grâce à la technologie de reconnaissance faciale vous permettent de vous renseigner sur le temps libre et de réserver une salle.


Espace ouvert avec mobilier ergonomique: tables mobiles, chaises spécialement conçues

Le Centre AI dispose d'espaces sportifs et de loisirs où vous pouvez jouer au tennis de table dans une salle spéciale avec absorption acoustique, faire du yoga et du fitness, prendre une douche et changer de vêtements. Et même il y a quelques capsules pour un court sommeil!



Chaque année, le Samsung AI Forum a lieu au Moscow AI Center. L'objectif du Forum d'Intelligence Artificielle est la communication et l'interaction de scientifiques exceptionnels de Russie et de l'étranger. Sur le lieu de l'événement, ils peuvent partager leurs connaissances et leur expérience, proposer des idées pour résoudre les problèmes les plus urgents dans le domaine de l'IA. En décembre dernier, dans le cadre du deuxième Forum annuel, les résultats de la recherche de collègues de Moscou ont été présentés, qui peuvent être utilisés pour créer des services de haute qualité basés sur les technologies de l'IA, ainsi que pour développer des applications et des composants pour les produits de l'entreprise.



Laboratoire de vision par ordinateur et de modélisation visuelle


Le chef du laboratoire est Anton Konushin, Ph.D., professeur agrégé du HSE et de la VMK Moscow State University, où il dirige également le laboratoire commun de Samsung et de la Moscow State University.

Mikhail Romanov et Igor Slinko, auteurs du cours "Réseaux de neurones et vision par ordinateur" travaillent également au laboratoire de vision par ordinateur et de modélisation visuelle. Il s'agit du premier cours en ligne gratuit de masse Samsung Research lancé en Russie en 2019, et les gars sont nos pionniers. Le cours parle de l'utilisation des réseaux de neurones dans l'analyse d'images à partir des bases, ne nécessite pas de connaissances spécialisées, seules des connaissances de base dans le domaine des mathématiques et des statistiques supérieures et une préparation à la programmation en Python sont nécessaires. Le cours compte déjà 24 000 étudiants inscrits. Et la caractéristique qui tue: la perspective d'un emploi - plusieurs personnes sont déjà devenues des employées du Centre suite aux entretiens.

Danila Rukhovich


Âgé de 25 ans, il est diplômé du Mechmath de l'Université d'État de Moscou, étudie en cycle universitaire avec un diplôme en «Fondements théoriques de l'informatique». Il a travaillé chez IBM Research, Angry Developers, SMTDP Tech. Au Samsung AI Forum, Danila Rukhovich et Danil Galeev ont présenté le rapport «MixMatch Domain Adaptaion: Solution gagnante pour les deux pistes du défi VisDA 2019 » ( code source ).

Nous avons deux grands groupes dans notre laboratoire: le premier est engagé dans l'estimation de la profondeur (mesure de la profondeur de l'image), le second est le SLAM (par la méthode de localisation simultanée et de construction de la carte). Et il y a de petites équipes avec des tâches différentes, par exemple, mon collègue Danil Galeev et moi-même étions engagés dans les GAN (réseaux génératifs-compétitifs), et maintenant l'adaptation de domaine.

L'adaptation de domaine consiste à former un modèle de réseau neuronal sur un domaine (domaine), puis à le tester sur un autre domaine. Les deux domaines les plus courants sont les données synthétiques et les données réelles. C'est cet énoncé du problème qui est le plus pertinent, car les données synthétiques peuvent être générées autant que vous le souhaitez, elles sont bon marché. Par exemple, vous pouvez générer de nombreuses images de villes et y entraîner une voiture sans pilote, ce qui est beaucoup plus facile que de conduire une vraie voiture dans les rues de vraies villes et de collecter des données réelles.

Il est clair que si nous formons le réseau neuronal sur des données synthétiques et le transférons simplement à des données réelles, cela ne fonctionnera pas très bien. Comment réduire cette différence? Vous pouvez générer puis utiliser un grand nombre de données synthétiques étiquetées, pour former un réseau neuronal sur celles-ci. Ensuite, utilisez beaucoup de données réelles non allouées (c'est-à-dire que des ressources ont été dépensées, mais uniquement pour la collecte de données, et non pour leur balisage). Et ainsi, en combinant des données étiquetées et non allouées, nous réalisons une augmentation significative de la précision des modèles de réseaux de neurones.


Exemples de différents domaines dans l'ensemble de données DomainNet: clipart, infographie, peinture, croquis, photo, graphiques. L'objet est le même, mais les domaines sont différents.

Konstantin Sofiyuk


25 ans, diplômé de l'Université d'État de Moscou VMK. Il aime le jogging, le snowboard et la vision par ordinateur.
Konstantin s'est exprimé au Samsung AI Forum avec le rapport «AdaptIS: Adaptive Instance Selection Network» .

Je m'intéresse aux algorithmes qui aideront à résoudre de vrais problèmes. Par exemple, automatisez les tâches de routine quotidiennes. Le travail humain est le plus cher. Par conséquent, je suis intéressé à faire ces choses qui peuvent être converties au profit des gens.

À mon avis, l'intelligence artificielle a deux voies de développement: elle sera soit «forte» et quelque chose comme le «Saint Graal» se révélera. L'émergence d'une IA «forte» changera tout dans nos vies; J'ai du mal à prévoir ce qui va se passer. Ou bien, il sera possible de parler d'une IA "faible", alors la robotique est probablement la direction la plus intéressante. Un véhicule sans pilote appartient à la même direction, car il s'agit essentiellement d'un robot routier. Le remplacement des conducteurs par des robots soulève la question: quelles conséquences sociales cela entraînera-t-il? Nous vivons tous dans une société et la technologie peut provoquer un changement social mondial. Je réfléchis sur ce sujet.

Un de mes derniers articles est consacré au sujet de la segmentation d'instance - recherche et mise en évidence sur l'image de tous les objets dont nous avons besoin. Nous les sélectionnons à l'aide d'un masque pixel par pixel, c'est-à-dire qu'à chaque point, il est indiqué si ce pixel appartient à l'objet ou non. Cela correspond bien au concept de compréhension de la scène visuelle, car la première étape pour comprendre une image consiste à comprendre quels objets y sont présents. Il existe des algorithmes de détection d'objets qui résolvent ce problème, mais chaque objet est mis en surbrillance avec un rectangle, et les objets se chevauchent fortement: cela donne une approximation trop simple, trop approximative de l'endroit où se trouve l'objet. Si vous regardez à quoi ressemblent les scènes d'intérieur ordinaires (je ne parle pas des pièces de design idéales, où elles sont propres et bien rangées), les vrais appartements ressembleront à ceci: un canapé, des oreillers sont allongés dessus, d'autres choses.

Lorsque j'ai commencé cette tâche, j'étais confronté au fait que les algorithmes existants ne font pas bien face à de tels cas. Nous sommes arrivés à un nouvel algorithme que nous avons présenté dans notre travail. Il vous permet de sélectionner des objets avec n'importe quelle complexité d'intersections: l'essentiel est qu'au moins un pixel de l'objet soit visible. L'algorithme est basé sur l'hypothèse selon laquelle vous pouvez toujours trouver un pixel dans une image qui appartient à un objet spécifique. S'il n'y a pas un seul pixel de l'objet dans l'image, alors il n'y a pas d'objet. Et s'il y a un objet, si une personne voit l'objet, alors il y a un pixel qui lui appartient. En conséquence, l'algorithme vous permet de trouver de tels pixels et de sélectionner l'intégralité du masque de l'objet à travers ces pixels.

Nous traitons maintenant du sujet de la segmentation interactive, et c'est aussi une tâche très importante. Revenons à la tâche précédente: pour former la segmentation d'instance, vous avez besoin d'un balisage pixel par pixel de haute qualité de tous les objets dans les images, et cela coûte cher, car il est banal de s'asseoir et de sélectionner manuellement le contour de chaque objet dans Photoshop pendant très longtemps. Et la segmentation interactive vous permet d'automatiser ce balisage. Nous marquons chaque objet non pas en sélectionnant le polygone de cet objet, mais simplement une personne clique sur l'objet - fait le clic dit positif. L'objet est soit sélectionné dès le premier clic, soit s'il n'a pas fonctionné (par exemple, certaines parties de l'objet ont été sautées, ou, au contraire, quelque chose d'inutile est tombé), nous avons mis un clic négatif.

Par conséquent, au lieu de sélectionner l'objet entier avec un contour pixel par pixel, nous réduisons le problème au fait que cette zone doit ou non être sélectionnée d'un simple clic. La pratique montre que dans la plupart des images en dix clics, vous pouvez sélectionner des objets avec une grande précision. C'est une énorme différence, le balisage de données sera parfois accéléré.


Le masque que l'algorithme affiche si vous sélectionnez un point d'objet

Laboratoire d'analyse de données multimodales


Le chef du laboratoire est Sergey Nikolenko, Ph.D., chercheur principal à la section de Saint-Pétersbourg de l'Institut V. A. Steklov de mathématiques (POMI RAS), professeur agrégé à la Higher School of Economics de Saint-Pétersbourg, co-auteur du livre «Deep Learning. Immersion dans le monde des réseaux de neurones . "

Gleb Sterkin


Gleb a 25 ans; il est diplômé du département de physique de l'Université d'État de Moscou. Ingénieur et chef de projet dans un laboratoire d'analyse multimodale de données. "Pas de passe-temps, pas de passe-temps, peuplé de robots."
Au Samsung AI Forum, Gleb a fait une présentation sur la traduction diurne haute résolution sans étiquettes de domaine

Mon laboratoire est engagé dans les modèles génératifs, la photographie informatique. Il existe un certain nombre de tâches pour la restauration de structures tridimensionnelles, à savoir lorsque plusieurs photographies doivent recréer la forme tridimensionnelle d'un objet complexe. Ce sont également les tâches associées à l'obtention de représentations universelles d'images ou d'objets dans les images. Tout cela, en général, tourne autour des réseaux de neurones. D'un point de vue appliqué, les applications sont impressionnantes lorsqu'une personne interagit avec des modèles génératifs, des effets implicites aux cas où le modèle agit comme un outil pour une personne, par exemple, dans la synthèse de la musique.

Je m'occupe principalement de modèles génératifs combinés à l'interaction homme-machine. C'est intéressant! Quelque chose de compliqué, comme un réseau de neurones, se transforme en un outil comme une caméra, applicable pour obtenir un plaisir momentané ou une expérience sensorielle: j'ai appuyé sur trois boutons, j'ai obtenu quelque chose de cool, ne réfléchissant pas beaucoup à la façon dont cela fonctionne, mais comprenant à peu près ce qui se passera en conséquence, bien que cela se révèle parfois et quelque chose d'inattendu.

Notre étude résout une tâche plutôt simple, à première vue. L'algorithme, après avoir reçu une photographie de paysage à l'entrée, alimente un ensemble de photographies du même paysage à différents moments de la journée. Par exemple, si à l'entrée il y a une photo d'une ville de jour, à quoi ressemblerait-elle le soir, la nuit, le matin et entre les périodes entre ces heures de la journée, de sorte qu'une vidéo fluide et belle soit obtenue? Cette technologie fonctionne en haute résolution jusqu'à 4K.



Nous travaillons avec des paysages, car dans les paysages, le changement de jour ou de saison sera le plus évident. L'intérieur des bâtiments ne change pas beaucoup pendant la journée, à l'exception peut-être de certains reflets, éblouissements, qui dépendent de divers facteurs - comment les treillis et les stores sont situés sur les fenêtres. Tout est clair dans les paysages: vous avez le soleil, le ciel, un grand espace qu'il faut éclairer différemment, pour y dessiner quelque chose. Si l'algorithme fait la transition de la nuit au jour, vous devez étirer les zones sombres, et si du jour au soir, vous devez tout assombrir correctement.

En voyant le paysage, il n'est pas très difficile pour une personne d'imaginer exactement comment elle changera en fonction de l'heure de la journée ou de l'année. Il était très intéressant de simuler une perception essentiellement humaine, sans passer un temps fou à collecter de vraies images et vidéos pour chaque paysage.

Dmitry Nikulin


25 ans. En 2017, il est diplômé du département d'algèbre de l'Université d'État de Saint-Pétersbourg. Il a effectué un stage chez Google à Londres, où il a amélioré le système de vérification des utilisateurs de Google My Business, puis un stage chez Yandex Research et a travaillé pour Serokell, une entreprise spécialisée dans le conseil et l'externalisation dans le domaine de la programmation à Haskell. En même temps, il est diplômé de ShAD, maintenant cela aide à faire un cours sur RL là-bas. Samsung a un peu plus d'un an. Il apprend les langues: outre l'anglais, il connaît un peu le français, l'espagnol et l'espéranto.

Dmitry a présenté deux rapports au Samsung AI Forum: «Free-Lunch Saiency via Attention in Atari Agents» et «Perceptual Gradient Networks».

Le principal domaine de recherche en laboratoire pour l'analyse de données multimodales est les tâches associées à la génération et au traitement d'images, et au cours de la dernière année, j'ai réussi à travailler sur deux projets dans ce domaine. Au premier semestre, j'étais engagé dans l'apprentissage par renforcement (RL) - c'est l'une des technologies d'apprentissage automatique dans lesquelles le système de test (l'agent) apprend en interagissant avec un certain environnement. En termes simples, le processus d'apprentissage peut être considéré comme un jeu: encourager les actions menant à des récompenses et éviter de conduire à l'échec.

Mon projet consistait à comprendre quelles parties de l'image un réseau neuronal examine qui implémente des agents dans la RL. C'est-à-dire nous avions besoin de comprendre comment cela fonctionne et ce que nous avons finalement réussi à lui enseigner, pour cela nous construisons dans le réseau «quelque chose», montrant quelles parties de l'image originale il regarde. Mon premier rapport sur le forum portait sur la façon dont nous avons traversé un tas de différentes façons d'intégrer cette pièce dans un réseau neuronal. Le problème était d'enfoncer de manière à ce que plus rien ne soit cassé. Nous semblons avoir réussi, mais avec quelques défauts - la visualisation de la carte de l'importance de certaines parties de l'image n'est pas très claire. Nous avons fait des expériences afin d'améliorer la clarté, mais malheureusement, les agents ont commencé à travailler pire à partir de cela.


Gauche: image claire, agent faible. À droite: image grossière, agent puissant.

Le deuxième rapport s'intitulait «Perceptual Gradient Networks», il s'agissait d'optimiser la perte perceptuelle - c'est une fonction de perte qui est utilisée presque partout où il y a génération d'image par les réseaux de neurones. Pour utiliser la perte de perception, les développeurs passent d'abord par le réseau neuronal en avant, puis en arrière. Le retour en arrière est complexe sur le plan informatique. Nous voulions nous débarrasser d'un tel double passage et le remplacer par un autre réseau de neurones, à travers lequel tout peut être fait en un seul passage en avant, cela donne une augmentation de la vitesse et une diminution des besoins en mémoire. Maintenant que nous travaillons sur l'amélioration de l'architecture de ce deuxième réseau, nous nous efforçons de réduire radicalement les coûts de mémoire sans casser la qualité.

Je m'intéresse à tout ce qui concerne l'apprentissage par renforcement, car c'est le domaine le plus proche de l'intelligence artificielle générale (IA générale). Les autres domaines tels que la vision par ordinateur, la reconstruction de la posture humaine, l'analyse sonore, sont plus hautement spécialisés. Ils sont certainement plus utiles dans un avenir proche, ils peuvent déjà être pris et intégrés dans des voitures de drones ou des recherches. À propos de RL, à quelques exceptions près, cela ne peut pas être dit, mais avec lui, les tâches qui ne sont plus du tout résolues peuvent être résolues. Par exemple, les gens grâce à ces technologies ont très bien appris à jouer à des jeux informatiques très complexes tels que DotA et StarCraft. En général, RL est une méthode pour optimiser quoi que ce soit pour les objectifs que vous définissez.

Conclusion


Si vous arrivez à la fin de l'article et que vous êtes toujours intéressé, bien que la plupart des termes ne soient pas clairs, alors la bonne nouvelle est que Samsung propose des cours gratuits en ligne Stepik auxquels nous vous invitons. Nous en avons parlé plus tôt dans le blog ( 1 , 2 ).

Et pour ceux qui sont loin d'être nouveaux à ce dont nos collègues ont parlé, les postes vacants de Samsung Research peuvent être intéressants. Actuellement il y a des postes à pourvoir pour Data Scientist (2 personnes), Machine Learning Engineer (2 personnes), Deep Learning Engineer.

Source: https://habr.com/ru/post/fr484376/


All Articles