Unsere Stelle ist eine Gelegenheit, sich über die Forschung in der neuen Abteilung von Samsung Research zu informieren - dem Zentrum für künstliche Intelligenz (KI) in Moskau. Es wurde im Mai 2018 eröffnet und brachte in eineinhalb Jahren die besten Fachleute auf dem Gebiet des maschinellen Lernens zusammen.

Im Folgenden finden Sie ein Kurzinterview der Mitarbeiter des Zentrums - Redner des jährlichen Forums für künstliche Intelligenz, das im Dezember letzten Jahres im Zentrum stattfand. Wir haben Kollegen aus zwei Labors befragt: einem Labor für Computer Vision und visuelle Modellierung und einem Labor für multimodale Datenanalyse.

Informationen zum Samsung AI Center

Samsung investiert in Forschung und Entwicklung ~ 8% des Jahresumsatzes - dies ist einer der weltweit führenden Indikatoren. Das Unternehmen verfügt über das größte Portfolio aktiver Patente in den USA und hat Anmeldungen für die meisten der heißesten Technologien in Europa eingereicht. In den nächsten drei Jahren wird Samsung 22 Milliarden US-Dollar in die Entwicklung von 5G und Technologie auf dem Gebiet der künstlichen Intelligenz investieren.

Samsung Research, eine Forschungsabteilung von Samsung Electronics, vereint 21 Forschungszentren auf der ganzen Welt:

Samsung-Forschungseinheiten auf der Weltkarte (von https://research.samsung.com/ )

Unter ihnen sind 7 Zentren, die nur auf KI spezialisiert sind. Das Moscow AI Center wurde am 29. Mai 2018 eröffnet, die restlichen sechs befinden sich in Seoul, Montreal, Toronto, New York, Cambridge und Mountain View.

Das Hauptforschungsgebiet am Samsung AI AI Center in Moskau ist maschinelles Lernen, ein Ansatz, der erfolgreich in der Spracherkennung, in der Bildverarbeitung und in der Datenanalyse angewendet wurde. Der Direktor des Zentrums ist Dr. Viktor Lempitsky, außerordentlicher Professor des Skolkovo-Instituts für Wissenschaft und Technologie, der 2018 in seiner Fachkategorie am meisten zitierte russische Wissenschaftler, der 2018 für seinen Beitrag zur Entwicklung der Industrie den Scopus-Preis Russland erhielt.

Die Architekten und Designer, die das Büro des Moskauer KI-Zentrums gestalteten, ließen sich von der Idee der digitalen Unendlichkeit inspirieren. Das Bürokonzept zielt darauf ab, einen Raum zu schaffen, der Kreativität in einer komfortablen Umgebung maximiert: mobile Möbel und bewegliche multifunktionale Trennwände, mit denen Sie mehrere Besprechungsräume kombinieren und die erforderliche Konfiguration des Arbeitsbereichs erstellen können.

Vortrag von Mikhail Romanov (Senior Engineer, Visual Understanding Lab) für Studenten des Samsung AI Bootcamp 2018 im Matrix-Tagungsraum

Die Konferenzräume tragen die Namen von Filmen über künstliche Intelligenz (Die Matrix, Der Terminator, Der Zweihundertjährige Mann, Aus dem Auto usw.), jeder hat Bildschirme auf beiden Seiten, und Sie können mit Markierungen an die Wände schreiben. Mithilfe der Gesichtserkennungstechnologie an der Tür der Besprechungsräume befestigte Tablets ermöglichen es Ihnen, Informationen zur Freizeit zu erhalten und einen Raum zu reservieren.

Freiraum mit ergonomischen Möbeln: bewegliche Tische, speziell entworfene Stühle

Das AI Center verfügt über Sport- und Entspannungsbereiche, in denen Sie in einem speziellen Raum mit Schallabsorption Tischtennis spielen, Yoga und Fitness betreiben, duschen und sich umziehen können. Und selbst für einen kurzen Schlaf gibt es ein paar Kapseln!

Jedes Jahr findet das Samsung AI Forum im Moscow AI Center statt. Ziel des Artificial Intelligence Forums ist die Kommunikation und Interaktion herausragender Wissenschaftler aus Russland und dem Ausland. Am Veranstaltungsort können sie ihr Wissen und ihre Erfahrungen teilen und Ideen zur Lösung der dringendsten Probleme im Bereich der KI anbieten. Im Dezember letzten Jahres wurden im Rahmen des zweiten jährlichen Forums die Forschungsergebnisse der Moskauer Kollegen vorgestellt, mit denen künftig umfassende Dienstleistungen auf der Basis von KI-Technologien sowie bei der Entwicklung von Anwendungen und Komponenten für Unternehmensprodukte geschaffen werden können.

Labor für Computer Vision und visuelle Modellierung

Der Leiter des Labors ist Dr. Anton Konushin, außerordentlicher Professor an der HSE und der VMK Moscow State University, wo er auch das gemeinsame Labor von Samsung und der Moscow State University leitet.

Mikhail Romanov und Igor Slinko, Autoren des Kurses "Neuronale Netze und Computer Vision", arbeiten ebenfalls im Labor für Computer Vision und visuelle Modellierung. Dies ist der erste kostenlose Online-Massenkurs von Samsung Research, der 2019 in Russland gestartet wurde. Die Jungs sind unsere Pioniere. Der Kurs befasst sich mit der Verwendung neuronaler Netze bei der Analyse von Bildern aus den Grundlagen, erfordert keine speziellen Kenntnisse, nur Grundkenntnisse auf dem Gebiet der höheren Mathematik und Statistik und Programmierbereitschaft in Python. Der Kurs hat bereits 24.000 eingeschriebene Studenten. Und das Killerfeature: die Aussicht auf eine Anstellung - nach Interviews sind bereits mehrere Personen Angestellte des Zentrums geworden.

Danila Rukhovich

Der 25-jährige Absolvent der Staatlichen Moskauer Universität Mechmath studiert an einer Graduiertenschule mit dem Abschluss „Theoretische Grundlagen der Informatik“. Er arbeitete bei IBM Research, Angry Developers, SMTDP Tech. Auf dem Samsung AI Forum präsentierten Danila Rukhovich und Danil Galeev den Bericht „MixMatch Domain Adaptaion: Preisgekrönte Lösung für beide Tracks der VisDA 2019 Challenge “ ( Quellcode ).

Wir haben zwei große Gruppen in unserem Labor: Die erste beschäftigt sich mit Tiefenschätzung (Messung der Bildtiefe), die zweite mit SLAM (durch die Methode der gleichzeitigen Lokalisierung und Kartenerstellung). Und es gibt kleine Teams mit unterschiedlichen Aufgaben, zum Beispiel meine Kollegin Danil Galeev und ich haben uns früher mit GAN (generative-competitive networks) und jetzt mit Domainanpassung beschäftigt.

Die Domänenanpassung erfolgt, wenn ein neuronales Netzwerkmodell auf einer Domäne (Domäne) trainiert und dann auf einer anderen Domäne getestet wird. Die beiden häufigsten Domänen sind synthetische Daten und reale Daten. Es ist diese Aussage über das Problem, die am relevantesten ist, da synthetische Daten so oft generiert werden können, wie Sie möchten. Sie sind billig. Sie können beispielsweise viele Bilder von Städten erstellen und ein unbemanntes Auto darauf trainieren. Dies ist viel einfacher als ein echtes Auto auf den Straßen von echten Städten zu fahren und echte Daten zu sammeln.

Es ist klar, dass, wenn wir das neuronale Netzwerk auf synthetische Daten trainieren und sie einfach auf reale Daten übertragen, es nicht sehr gut funktionieren wird. Wie kann man diesen Unterschied verringern? Sie können viele markierte synthetische Daten generieren und dann verwenden, um ein neuronales Netzwerk darauf zu trainieren. Und dann viele nicht zugewiesene reale Daten verwenden (d. H. Ressourcen wurden ausgegeben, aber nur für die Datenerfassung und nicht für ihre Auszeichnung). Durch die Kombination von beschrifteten und nicht zugeordneten Daten erreichen wir eine signifikante Steigerung der Genauigkeit von neuronalen Netzwerkmodellen.

Beispiele für verschiedene Domänen im DomainNet-Datensatz: Clipart, Infografiken, Gemälde, Skizzen, Fotos, Grafiken. Das Objekt ist das gleiche, aber die Domänen sind unterschiedlich.

Konstantin Sofiyuk

25 Jahre alt, absolvierte die VMK Moscow State University. Er mag Joggen, Snowboarden und Computer Vision.
Konstantin sprach auf dem Samsung AI Forum mit dem Bericht „AdaptIS: Adaptive Instance Selection Network“ .

Ich interessiere mich für Algorithmen, die helfen, echte Probleme zu lösen. Automatisieren Sie beispielsweise alltägliche Routineaufgaben. Die menschliche Arbeit ist die teuerste. Aus diesem Grund bin ich daran interessiert, Dinge zu tun, die zum Wohle der Menschen umgesetzt werden können.

Künstliche Intelligenz hat meiner Meinung nach zwei Entwicklungspfade: Sie wird entweder „stark“ sein und so etwas wie der „Heilige Gral“ wird sich herausstellen. Die Entstehung einer „starken“ KI wird alles in unserem Leben verändern. Ich finde es schwierig vorherzusagen, was passieren wird. Oder es wird möglich sein, über eine "schwache" KI zu sprechen, dann ist Robotik wahrscheinlich die interessanteste Richtung. Ein unbemanntes Fahrzeug gehört in dieselbe Richtung, da es sich im Wesentlichen um einen Straßenroboter handelt. Das Ersetzen von Fahrern durch Roboter wirft die Frage auf: Welche sozialen Konsequenzen bringt es? Wir alle leben in einer Gesellschaft, und Technologie kann einen globalen sozialen Wandel bewirken. Ich denke über dieses Thema nach.

Einer meiner letzten Artikel befasst sich mit dem Thema Instanzensegmentierung - Suchen und Hervorheben aller benötigten Objekte auf dem Bild. Wir wählen sie mit einer pixelweisen Maske aus, dh an jedem Punkt wird angezeigt, ob dieses Pixel zum Objekt gehört oder nicht. Dies passt gut zum Konzept des visuellen Szenenverständnisses, da der erste Schritt zum Verständnis eines Bildes darin besteht, zu verstehen, welche Objekte darauf vorhanden sind. Es gibt Objekterkennungsalgorithmen, die dieses Problem lösen. Dort wird jedoch jedes Objekt mit einem Rechteck hervorgehoben, und die Objekte überlappen sich stark. Dies ergibt eine zu einfache, zu grobe Annäherung an die Position des Objekts. Wenn Sie sich ansehen, wie gewöhnliche Innenszenen aussehen (ich spreche nicht von idealen Designzimmern, in denen sie sauber und aufgeräumt sind), sehen echte Apartments so aus: ein Sofa, Kissen darauf, einige andere Dinge.

Als ich mit dieser Aufgabe anfing, war ich mit der Tatsache konfrontiert, dass vorhandene Algorithmen mit solchen Fällen nicht gut zurechtkommen. Wir kamen zu einem neuen Algorithmus, den wir in unserer Arbeit vorgestellt haben. Sie können Objekte mit beliebig komplexer Schnittmenge auswählen: Hauptsache, mindestens ein Pixel des Objekts ist sichtbar. Der Algorithmus basiert auf der Hypothese, nach der Sie immer ein Pixel in einem Bild finden können, das zu einem bestimmten Objekt gehört. Befindet sich kein Pixel des Objekts im Bild, ist kein Objekt vorhanden. Und wenn es ein Objekt gibt, wenn eine Person das Objekt sieht, dann gibt es ein Pixel, das ihm gehört. Dementsprechend können Sie mit dem Algorithmus solche Pixel finden und die gesamte Maske des Objekts über diese Pixel auswählen.

Jetzt beschäftigen wir uns mit dem Thema der interaktiven Segmentierung, und dies ist auch eine sehr wichtige Aufgabe. Zurück zur vorherigen Aufgabe: Um die Instanzensegmentierung zu trainieren, müssen Sie alle Objekte in den Bildern pixelweise in hoher Qualität markieren. Dies ist eine kostspielige Angelegenheit, da es banal ist, die Konturen jedes Objekts in Photoshop über einen sehr langen Zeitraum manuell auszuwählen. Mit der interaktiven Segmentierung können Sie dieses Markup automatisieren. Wir markieren jedes Objekt nicht durch Auswahl des Polygons dieses Objekts, sondern einfach durch Klicken einer Person auf das Objekt - macht den sogenannten positiven Klick. Das Objekt wurde entweder vom ersten Klick an ausgewählt oder wenn es nicht funktioniert hat (zum Beispiel wurden einige Teile des Objekts übersprungen oder im Gegenteil, es ist etwas Unnötiges herausgefallen), haben wir einen negativen Klick gesetzt.

Anstatt das gesamte Objekt pixelweise auszuwählen, reduzieren wir das Problem auf die Tatsache, dass dieser Bereich mit einem einfachen Klick ausgewählt werden sollte oder nicht. Die Praxis zeigt, dass Sie mit den meisten Bildern innerhalb von zehn Klicks Objekte mit hoher Genauigkeit auswählen können. Dies ist ein großer Unterschied, da die Datenauszeichnung manchmal beschleunigt wird.

Die Maske, die der Algorithmus anzeigt, wenn Sie einen Objektpunkt auswählen

Labor für multimodale Datenanalyse

Der Leiter des Labors ist Sergey Nikolenko, Ph.D., leitender Forscher an der St. Petersburger Zweigstelle des V. A. Steklov-Instituts für Mathematik (POMI RAS), außerordentlicher Professor an der Hochschule für Wirtschaft in St. Petersburg, Mitautor des Buches „Deep Learning. Eintauchen in die Welt der neuronalen Netze . "

Gleb Sterkin

Gleb ist 25 Jahre alt und absolvierte das Physik-Institut der Moskauer Staatlichen Universität. Ingenieur und Projektleiter in einem multimodalen Datenanalyselabor. "Keine Hobbys, keine Hobbys, von Robotern bevölkert."
Auf dem Samsung AI Forum hielt Gleb eine Präsentation zur hochauflösenden Tagesübersetzung ohne Domain-Labels

Mein Labor beschäftigt sich mit generativen Modellen, Computerfotografie. Es gibt eine Reihe von Aufgaben für die Wiederherstellung dreidimensionaler Strukturen, d.h. wenn mehrere Fotos die dreidimensionale Form eines komplexen Objekts nachbilden müssen. Dies sind auch die Aufgaben, die mit dem Erhalten universeller Darstellungen für Bilder oder Objekte in Bildern verbunden sind. Im Allgemeinen dreht sich alles um neuronale Netze. Aus angewandter Sicht sind Anwendungen beeindruckend, bei denen eine Person mit generativen Modellen interagiert, von impliziten Effekten bis hin zu Fällen, bei denen das Modell als Werkzeug für eine Person fungiert, beispielsweise bei der Synthese von Musik.

Ich beschäftige mich hauptsächlich mit generativen Modellen in Kombination mit Mensch-Maschine-Interaktion. Das ist interessant! Etwas Kompliziertes, wie ein neuronales Netzwerk, wird zu einem Werkzeug wie einer Kamera, das sich für kurzzeitiges Vergnügen oder sensorische Erlebnisse eignet: Ich habe drei Tasten gedrückt, etwas Cooles bekommen, nicht viel darüber nachgedacht, wie es funktioniert, aber ungefähr verstanden, was als Ergebnis passieren wird, obwohl es sich manchmal herausstellt und etwas Unerwartetes.

Unsere Studie löst eine auf den ersten Blick recht einfache Aufgabe. Der Algorithmus, der am Eingang ein Landschaftsfoto erhalten hat, füttert eine Reihe von Fotos derselben Landschaft zu verschiedenen Tageszeiten. Wenn zum Beispiel am Eingang ein Foto einer Tagesstadt zu sehen ist, wie würde es abends, nachts, morgens und in den Zeiträumen zwischen diesen Tageszeiten aussehen, um ein reibungsloses, schönes Video zu erstellen? Diese Technologie arbeitet mit einer hohen Auflösung von bis zu 4K.

Wir arbeiten mit Landschaften, weil in Landschaften der Wechsel von Tag oder Jahreszeit am offensichtlichsten ist. Das Innere der Gebäude ändert sich tagsüber nur geringfügig, mit Ausnahme einiger Reflexionen und Blendungen, die von verschiedenen Faktoren abhängen - wie sich die Gitter und Fensterläden an den Fenstern befinden. In den Landschaften ist alles klar: Sie haben die Sonne, den Himmel, einen großen Raum, der anders beleuchtet werden muss, um etwas darauf zu zeichnen. Wenn der Algorithmus von Nacht zu Tag wechselt, müssen Sie die dunklen Bereiche strecken, und wenn von Tag zu Nacht, müssen Sie alles richtig abdunkeln.

Wenn man die Landschaft sieht, fällt es einem Menschen nicht schwer, sich genau vorzustellen, wie er sich je nach Tages- oder Jahreszeit verändern wird. Es war sehr interessant, im Wesentlichen die menschliche Wahrnehmung zu simulieren und dabei nicht wahnsinnig viel Zeit darauf zu verwenden, echte Bilder und Videos für jede Landschaft zu sammeln.

Dmitry Nikulin

25 Jahre alt. Im Jahr 2017 absolvierte er die Abteilung für Algebra an der St. Petersburg State University. Er absolvierte ein Praktikum bei Google London, wo er das System zur Benutzerüberprüfung bei Google My Business verbesserte. Anschließend absolvierte er ein Praktikum bei Yandex Research und arbeitete bei Serokell, einem auf Beratung und Outsourcing im Bereich Programmierung in Haskell spezialisierten Unternehmen. Gleichzeitig absolvierte er ShAD und hilft nun, dort einen RL-Kurs zu belegen. Samsung ist etwas mehr als ein Jahr alt. Er lernt Sprachen: Neben Englisch kennt er sich ein wenig mit Französisch, Spanisch und Esperanto aus.

Dmitry präsentierte auf dem Samsung AI Forum zwei Berichte: "Free-Lunch Saliency durch Aufmerksamkeit bei Atari-Agenten" und "Perceptual Gradient Networks".

Das Hauptforschungsgebiet im Labor für die Analyse multimodaler Daten sind die Aufgaben im Zusammenhang mit der Erzeugung und Verarbeitung von Bildern, und im vergangenen Jahr habe ich es geschafft, an zwei Projekten in diesem Bereich zu arbeiten. In der ersten Jahreshälfte beschäftigte ich mich mit Reinforcement Learning (RL) - einer der Technologien für maschinelles Lernen, mit denen das Testsystem (Agent) durch Interaktion mit einer bestimmten Umgebung lernt. Einfach ausgedrückt, der Lernprozess kann als Spiel betrachtet werden: Aktionen fördern, die zu Belohnungen führen, und Misserfolge vermeiden.

In meinem Projekt ging es darum zu verstehen, welche Teile des Bildes ein neuronales Netzwerk betrachtet, das Agenten in RL implementiert. Das heißt Wir mussten verstehen, wie es funktioniert und was wir letztendlich gelernt haben. Dazu haben wir ein „Etwas“ -Netzwerk aufgebaut, das zeigt, welche Teile des Originalbildes es betrachtet. In meinem ersten Bericht im Forum ging es darum, wie wir verschiedene Wege gegangen sind, um dieses Stück in ein neuronales Netzwerk einzubetten. Das Problem war, so einzubetten, dass nichts mehr kaputt war. Es scheint uns gelungen zu sein, aber mit einigen Mängeln - die Visualisierung der Karte über die Wichtigkeit von Teilen des Bildes ist nicht sehr klar. Wir haben experimentiert, um die Übersichtlichkeit zu erhöhen, aber leider begannen die Agenten damit, schlechter zu arbeiten.

Links: klares Bild, schwacher Agent. Rechts: grobes Bild, starker Agent.

Der zweite Bericht hieß „Perceptual Gradient Networks“ (Wahrnehmungsgradientennetzwerke), er befasste sich mit der Optimierung des Wahrnehmungsverlusts - dies ist eine Verlustfunktion, die fast überall dort verwendet wird, wo Bilder durch neuronale Netze erzeugt werden. Um den Wahrnehmungsverlust zu nutzen, gehen Entwickler zuerst vorwärts und dann rückwärts durch das neuronale Netzwerk. Das Zurückgehen ist rechenintensiv. Wir wollten einen solchen Doppelpass loswerden und ihn durch ein anderes neuronales Netzwerk ersetzen, durch das alles in einem Durchgang erledigt werden kann. Dies führt zu einer Erhöhung der Geschwindigkeit und einer Verringerung des Speicherbedarfs. Jetzt arbeiten wir an der Verbesserung der Architektur dieses zweiten Netzwerks und bemühen uns, die Speicherkosten radikal zu senken, ohne die Qualität zu beeinträchtigen.

Ich interessiere mich für alles, was mit Reinforcement Learning zu tun hat, da dies der Bereich ist, der der allgemeinen künstlichen Intelligenz am nächsten liegt. Die verbleibenden Bereiche wie Computer Vision, Rekonstruktion der menschlichen Körperhaltung und Klanganalyse sind stärker spezialisiert. Sie sind sicherlich in naher Zukunft nützlicher, sie können bereits in Drohnenautos eingebaut oder gesucht werden. Über RL kann dies mit wenigen Ausnahmen nicht gesagt werden, aber damit können Aufgaben gelöst werden, die überhaupt nicht mehr gelöst werden. Zum Beispiel haben Menschen dank dieser Technologien gelernt, sehr komplexe Computerspiele wie DotA und StarCraft sehr gut zu spielen. Im Allgemeinen ist RL eine Methode, mit der Sie alles für die von Ihnen festgelegten Ziele optimieren können.

Fazit

Wenn Sie am Ende des Artikels angelangt sind und immer noch interessiert sind, obwohl die meisten Begriffe unklar sind, ist die gute Nachricht, dass Samsung kostenlose Online-Stepik- Kurse anbietet, zu denen wir Sie einladen. Wir haben früher im Blog darüber geschrieben ( 1 , 2 ).

Und für diejenigen, die mit dem, worüber unsere Kollegen gesprochen haben, noch nicht vertraut sind, könnten offene Stellen bei Samsung Research interessant sein. Momentan sind folgende Stellen zu besetzen: Data Scientist (2 Personen), Machine Learning Engineer (2 Personen), Deep Learning Engineer.

Samsung Moskauer Zentrum für Künstliche Intelligenz in Mitarbeitergeschichten