Computer Vision: Wie KI uns beobachtet

Kürzlich haben wir darüber gesprochen, wie wir in Kinos mithilfe der Computer-Vision-Technologie analysiert werden: Emotionen, Gesten und das ist alles. Heute veröffentlichen wir ein Gespräch mit unserem Kollegen von Microsoft Research. Er ist an der Schaffung dieser Vision beteiligt. Unter dem Schnitt Details zur Entwicklung der Technologie, ein wenig zur DSGVO sowie Anwendungsbereiche. Jetzt mitmachen!



Aus technischer Sicht erstellen Computer-Vision-Experten "Algorithmen und Systeme zur automatischen Analyse von Bildern und zum Extrahieren von Informationen aus der sichtbaren Welt". Aus der Sicht eines Laien schaffen sie Maschinen, die sie sehen können. Dies tun der Chefforscher und Leiter der Forschungsabteilung, Dr. Gang Hua, und ein Team von Computer-Vision-Experten. Für Geräte wie persönliche Roboter, unbemannte Fahrzeuge und Drohnen, denen wir im Alltag immer häufiger begegnen, ist das Sehen sehr wichtig.

Heute wird Dr. Hua uns erzählen, wie die jüngsten Fortschritte in der KI und im maschinellen Lernen dazu beigetragen haben, die Bilderkennung und das Videoverstehen zu verbessern und zur Entwicklung der Kunst beizutragen. Er wird auch die Essenz des verteilten Ensemble-Ansatzes für aktives Lernen erklären, bei dem Menschen und Maschinen im Labor zusammenarbeiten, um Computer-Vision-Systeme zu erstellen, die die offene Welt sehen und erkennen können.


Gang Hua, Hauptforscher und Forschungsleiter. Foto mit freundlicher Genehmigung von Maryatt Photography.

Das Interview


Wenn wir zehn bis fünfzehn Jahre zurückblicken, werden wir feststellen, dass die Gemeinschaft der Computer-Vision-Spezialisten vielfältiger war. Um das Problem aus verschiedenen Blickwinkeln zu betrachten und seine Lösung zu finden, wurden verschiedene Methoden des maschinellen Lernens und Kenntnisse aus verschiedenen Bereichen wie Physik und Optik angewendet. Wir betonen die Bedeutung der Vielfalt in allen Tätigkeitsbereichen, daher denke ich, dass die wissenschaftliche Gemeinschaft davon profitieren wird, wenn wir unterschiedlichere Sichtweisen haben.

Wir stellen Ihnen die fortschrittliche Technologieforschung und die dahinter stehenden Wissenschaftler vor.

Aus technischer Sicht erstellen Computer-Vision-Experten "Algorithmen und Systeme zur automatischen Analyse von Bildern und zum Extrahieren von Informationen aus der sichtbaren Welt". Aus der Sicht eines Laien schaffen sie Maschinen, die sie sehen können. Dies tun der Chefforscher und Leiter der Forschungsabteilung, Dr. Gang Hua, und ein Team von Computer-Vision-Experten. Für Geräte wie persönliche Roboter, unbemannte Fahrzeuge und Drohnen, denen wir im Alltag immer häufiger begegnen, ist das Sehen sehr wichtig.

Heute wird Dr. Hua uns erzählen, wie die jüngsten Fortschritte in der KI und im maschinellen Lernen dazu beigetragen haben, die Bilderkennung und das Videoverstehen zu verbessern, und auch zur Entwicklung der Kunst beigetragen haben. Er wird auch die Essenz des verteilten Ensemble-Ansatzes für aktives Lernen erläutern, bei dem Menschen und Maschinen im Labor zusammenarbeiten, um Computer-Vision-Systeme zu erstellen, die die offene Welt sehen und erkennen können. Darüber und vieles mehr - in der neuen Version des Microsoft Research-Podcasts.

Sie sind Chefforscher und Leiter der Forschungsabteilung bei MSR (Microsoft Research), und Ihre Spezialität ist Computer Vision.

Ja

Warum steht ein Computer-Vision-Spezialist im Allgemeinen morgens auf? Was ist das Hauptziel?

Computer Vision ist ein relativ junges Forschungsgebiet. Kurz gesagt, wir versuchen Maschinen zu schaffen, die die Welt sehen und genauso wahrnehmen können wie eine Person. In einer technischeren Sprache können die Informationen, die in Form einfacher Bilder und Videos in den Computer gelangen, als Folge von Zahlen dargestellt werden. Wir wollen aus diesen Zahlen einige Strukturen extrahieren, die die Welt beschreiben, einige semantische Informationen. Zum Beispiel kann ich sagen, dass ein Teil des Bildes einer Katze entspricht. Und der andere Teil entspricht der Maschine, ich meine eine Interpretation dieser Art. Hier ist es das Ziel der Computer Vision. Für die Menschen scheint dies eine einfache Aufgabe zu sein. Um Computer darüber zu unterrichten, mussten wir in den letzten 10 Jahren viel arbeiten. Computer Vision als Forschungsgebiet ist jedoch bereits 50 Jahre alt. Trotzdem müssen wir noch viele Probleme lösen.

Ja Vor 5 Jahren sagten Sie Folgendes: „Warum arbeiten wir nach 30 Jahren Forschung immer noch an dem Problem der Gesichtserkennung?“ Sagen Sie uns, wie Sie diese Frage damals beantwortet haben und was sich in dieser Zeit geändert hat.

Wenn wir aus der Perspektive von vor fünf Jahren antworten, dann würde ich sagen, dass wir in den 30 Jahren, die seit Beginn der Forschung auf dem Gebiet der Bildverarbeitung und Gesichtserkennung vergangen sind, viel erreicht haben. Zum größten Teil handelt es sich jedoch um eine kontrollierte Umgebung, in der Sie beim Erfassen von Gesichtern die Beleuchtung, Kamera, Dekorationen und dergleichen anpassen können. Als wir vor fünf Jahren begannen, in vivo in einer unkontrollierten Umgebung mehr zu arbeiten, stellte sich heraus, dass es eine große Lücke in der Genauigkeit der Erkennung gab. In den letzten fünf Jahren hat unsere Community jedoch durch den Einsatz fortschrittlicherer Deep-Learning-Methoden große Fortschritte erzielt. Selbst auf dem Gebiet der Gesichtserkennung in vivo haben wir Fortschritte erzielt und sind tatsächlich an einem Punkt angelangt, an dem es möglich wurde, diese Technologien für verschiedene kommerzielle Zwecke einzusetzen.

Es stellt sich heraus, dass durch tiefes Lernen in den letzten Jahren wirklich große Erfolge in den Bereichen Computer Vision und Bilderkennung erzielt wurden.

Richtig.

Als wir über die unterschiedlichen Bedingungen in einer vollständig kontrollierten und unvorhersehbaren Umgebung sprachen, erinnerte ich mich an mehrere Wissenschaftler, Gäste des Podcasts, die feststellten, dass Computer ausfallen, wenn die Daten nicht vollständig genug sind ... zum Beispiel die Sequenz „Hund, Hund, Hund, Hund mit drei Beinen“. "- der Computer beginnt zu zweifeln, ob dieser auch ein Hund ist?

Ja

Ist es wahr Welche genauen, bisher unzugänglichen Deep-Learning-Methoden können Sie heute im Bereich der Anerkennung anwenden?

Das ist eine gute Frage. Aus Forschungssicht eröffnet Deep Learning mehrere Möglichkeiten. Erstens können Sie ein umfassendes Training durchführen, um die korrekte Darstellung des semantischen Bildes zu bestimmen. Zum Beispiel zurück zum Hund. Angenommen, wir betrachten verschiedene Fotos von Hunden, zum Beispiel Bilder mit 64 × 64 Pixeln, wobei jedes Pixel ungefähr 250 verschiedene Werte annehmen kann. Wenn Sie darüber nachdenken, ist dies eine große Anzahl von Kombinationen. Wenn wir jedoch über den Hund als Vorlage sprechen, bei der die Pixel miteinander korrelieren, ist die Anzahl der Kombinationen, die dem „Hund“ entsprechen, viel geringer.

Mit umfassenden Deep-Learning-Methoden können Sie dem System beibringen, die korrekte numerische Darstellung eines „Hundes“ zu bestimmen. Dank der Tiefe der Strukturen können wir wirklich komplexe Modelle erstellen, die eine große Datenmenge für das Training beherrschen. Wenn meine Trainingsdaten alle möglichen Optionen und Darstellungen der Vorlage abdecken, kann ich sie am Ende in einem breiteren Kontext erkennen, da ich fast alle möglichen Kombinationen berücksichtigt habe. Dies ist der erste.

Eine weitere Möglichkeit zum tiefen Lernen ist eine Art kompositorisches Verhalten. Es gibt eine Strukturschicht und eine Präsentationsschicht. Wenn also Informationen oder ein Bild in tiefe Netzwerke fallen und die Extraktion von primitiven Bildern auf niedriger Ebene beginnt, kann das Modell allmählich semantische Strukturen von immer höherer Komplexität aus diesen primitiven Bildern sammeln. Deep-Learning-Algorithmen identifizieren kleinere Muster, die mit größeren Mustern übereinstimmen, und setzen sie zusammen, um das endgültige Muster zu bilden. Daher ist es ein sehr leistungsfähiges Werkzeug, insbesondere für visuelle Erkennungsaufgaben.

Das Hauptthema der CVPR-Konferenz ist daher das Erkennen von Mustern mit Computer Vision.

Ja Richtig.

Und Mustererkennung ist das, wonach Technologie wirklich strebt.



Ja natürlich. Tatsächlich besteht der Zweck von Computer Vision darin, die Bedeutung in Pixeln zu erfassen. Aus technischer Sicht muss der Computer verstehen, was das Bild ist, und wir erhalten ein bestimmtes numerisches oder symbolisches Ergebnis daraus. Ein numerisches Ergebnis kann beispielsweise eine dreidimensionale Punktwolke sein, die die Struktur des Raums oder die Form eines Objekts beschreibt. Es kann auch mit einigen semantischen Bezeichnungen wie "Hund" oder "Katze" assoziiert werden, wie ich bereits sagte.

Ich verstehe. Sprechen wir also ein wenig über Tags. Ein interessantes und wichtiges Merkmal des maschinellen Lernprozesses ist die Tatsache, dass der Computer sowohl Pixel als auch Beschriftungen bereitstellen muss.

Ja natürlich.

Sie haben über drei Dinge gesprochen, die für Sie im Zusammenhang mit Computer Vision am interessantesten sind. Video, Gesichter sowie Kunst und Multimedia. Lassen Sie uns über jeden einzelnen von ihnen sprechen und mit Ihrer aktuellen Forschung beginnen, die Sie als „Verständnis“ des Videos bezeichnen.

Ja Der Ausdruck "Video verstehen" spricht für sich. Als Eingabe verwenden wir Video anstelle von Bildern. Hierbei ist es wichtig, nicht nur die Pixel zu erkennen, sondern auch zu berücksichtigen, wie sie sich bewegen. Für die Bildverarbeitung ist die Bilderkennung ein räumliches Problem. Im Fall von Video wird es räumlich-zeitlich, weil eine dritte - zeitliche - Dimension erscheint. Und wenn Sie sich die vielen realen Aufgaben ansehen, die mit dem Streamen von Videos verbunden sind, ob es sich um Überwachungskameras in Innenräumen oder Straßenkameras auf der Autobahn handelt, ist das Endergebnis, dass sich das Objekt in einem konstanten Strom von Bildern bewegt. Und wir müssen Informationen aus diesem Stream extrahieren.

Solche Kameras erzeugen eine große Menge an Videomaterial. Überwachungskameras, die in Supermärkten und dergleichen rund um die Uhr schießen. Welche Vorteile für Menschen können Sie aus diesen Aufzeichnungen ziehen?

Mein Team arbeitet an einem Inkubationsprojekt, in dem wir eine grundlegende Technologie entwickeln. Im Rahmen dieses Projekts versuchen wir, den Verkehr auf den Straßen zu analysieren. In Städten wurde eine große Anzahl von Straßenkameras installiert, aber der größte Teil des von ihnen aufgenommenen Videos wird verschwendet. Diese Kameras können jedoch nützlich sein. Schauen wir uns ein Beispiel an: Sie möchten Ampeln effizienter steuern. Normalerweise wird die Änderung der roten und grünen Signale durch den festgelegten Zeitplan bestimmt. Wenn ich jedoch sah, dass sich viel weniger Autos in eine Richtung als in andere bewegten, konnte ich zur Optimierung der Bewegung die grüne Farbe in überladenen Richtungen länger beibehalten. Dies ist nur eine Anwendung.

Bitte übersetzen Sie diese Idee!

Wir werden es versuchen!

Wer von uns stand nicht an der roten Ampel, obwohl fast niemand auf dem Grün in die andere Richtung fuhr?

Das ist es!

Sie fragen sich gerade: Warum muss ich warten?



Ich stimme zu. Diese Technologie kann auch in anderen Fällen angewendet werden, beispielsweise wenn wir große Archive von Videoaufnahmen gesammelt haben. Angenommen, die Bürger haben nach zusätzlichen Radwegen gefragt. Wir könnten die Videos verwenden, die Verkehrsdaten analysieren und dann entscheiden, ob wir an dieser Stelle einen Radweg anlegen möchten. Durch die Einführung dieser Technologie könnten wir den Verkehrsfluss erheblich beeinflussen und den Städten helfen, solche Entscheidungen zu treffen.

Ich denke, das ist eine großartige Idee, denn in den meisten Fällen treffen wir solche Entscheidungen auf der Grundlage unserer eigenen Ideen und nicht auf der Grundlage der Daten, auf die wir sagen könnten: „Hey, weißt du, hier wäre der Radweg sehr übrigens. Und hier wird es die Bewegung nur komplizieren. "

Das stimmt. Manchmal werden dafür andere Sensoren verwendet. Sie beauftragen eine Firma, die spezielle Ausrüstung auf den Straßen installiert. Aber es ist wirtschaftlich ineffizient. Aber Straßenkameras sind bereits installiert und hängen einfach herum. Videostreams sind bereits verfügbar. Richtig? Warum also nicht davon profitieren?

Ich stimme zu. Dies ist ein großartiges Beispiel dafür, wie maschinelles Lernen und Videoverständnis angewendet werden können.

Genau.

Ein weiterer wichtiger Anwendungsbereich ist die Gesichtserkennung. Wir kehren noch einmal zu der Frage zurück: „Warum arbeiten wir immer noch am Problem der Gesichtserkennung?“.

Genau so.

Übrigens können solche Technologien in einigen Fällen auf sehr interessante Weise angewendet werden. Sagen Sie uns, was im Bereich der Gesichtserkennung passiert. Wer macht das und was ist neu?

Rückblickend wurde die Gesichtserkennungstechnologie von Microsoft untersucht, als ich noch bei Live Labs Research arbeitete. Dann haben wir die erste Gesichtserkennungsbibliothek erstellt, die verschiedene Produktentwicklungsgruppen verwenden können. Diese Technologie wurde erstmals auf der Xbox eingeführt. Dann versuchten die Entwickler, die Gesichtserkennung zu verwenden, um sich automatisch beim System anzumelden. Ich denke, das war der erste Fall. Im Laufe der Zeit hat sich das Zentrum für das Studium der Gesichtserkennung auf Microsoft Research Asia verlagert, wo wir immer noch eine Gruppe von Forschern haben, mit denen ich zusammenarbeite.

Wir versuchen ständig, die Grenzen des Möglichen zu erweitern. Wir arbeiten jetzt mit technischen Diensten zusammen, um mehr Daten zu sammeln. Basierend auf diesen Daten trainieren wir fortgeschrittenere Modelle. In letzter Zeit haben wir uns auf die Richtung der Forschung konzentriert, die wir "die Synthese von Gesichtern unter Wahrung der Anerkennung" nennen. Die Deep-Learning-Community von Experten war ebenfalls sehr erfolgreich. Sie verwenden tiefe Netzwerke, um generative Modelle zu trainieren, die die Verteilung von Bildern simulieren können, so dass Daten daraus extrahiert werden können, d. H. Das Bild tatsächlich synthetisieren. So können Sie tiefe Netzwerke erstellen, die Bilder erstellen.

Aber wir wollen noch einen Schritt weiter gehen. Wir wollen Gesichter synthetisieren. Gleichzeitig wollen wir die Anerkennung dieser Personen erhalten. Unsere Algorithmen sollten nicht nur eine beliebige Menge von Gesichtern ohne semantische Bedeutung erstellen. Angenommen, wir möchten das Gesicht von Brad Pitt nachbauen. Sie müssen ein Gesicht erstellen, das ihm wirklich ähnlich sieht. Wenn Sie das Gesicht der mir bekannten Person neu erstellen müssen, muss das Ergebnis korrekt sein.

Das heißt, Sie möchten die Anerkennung der Person beibehalten, die Sie neu erstellen möchten?

Richtig.

Ich frage mich übrigens, ob diese Technologie mit zunehmendem Alter noch lange funktioniert oder ob es notwendig ist, die Datenbank ständig mit Einzelpersonen zu aktualisieren.

Das ist eine sehr gute Frage. Wir forschen derzeit an der Lösung dieses Problems. Nach dem derzeitigen Stand der Technik ist es weiterhin erforderlich, die Datenbank von Zeit zu Zeit zu aktualisieren. Besonders wenn sich das Gesicht stark verändert hat. Wenn beispielsweise eine plastische Chirurgie durchgeführt wurde, kann das moderne System nicht das richtige Ergebnis erzielen.

Warten Sie, Sie sind es nicht.

Ja, das ist völlig anders. Dieses Problem kann von mehreren Seiten angegangen werden. Menschliche Gesichter verändern sich zwischen 17 und 18 Jahren und etwa 50 Jahren nicht wirklich. Aber was passiert unmittelbar nach der Geburt? Die Gesichter von Kindern verändern sich stark, weil Knochen wachsen und sich auch die Form von Gesicht und Haut ändert. Aber sobald eine Person erwachsen wird und in die Reifephase übergeht, beginnen Veränderungen sehr langsam aufzutreten. Jetzt forschen wir, in deren Rahmen wir Modelle des Alterungsprozesses entwickeln. Sie werden dazu beitragen, ein verbessertes Gesichtserkennungssystem basierend auf dem Alter zu schaffen. Tatsächlich ist dies eine sehr nützliche Technologie, die beispielsweise in der Strafverfolgung eingesetzt werden kann, um vor vielen Jahren entführte Kinder zu erkennen, die ...

Sie sehen ganz anders aus.

Ja, sie sehen anders aus. Wenn intelligente Gesichtserkennungsalgorithmen das Originalfoto berücksichtigen könnten ...

Und um zu sagen, wie würden sie im Alter von 14 Jahren aussehen, wenn sie viel früher entführt würden, oder so ähnlich?

Ja, genau.

Dies ist eine großartige Anwendung. Lassen Sie uns über einen anderen Bereich sprechen, den Sie aktiv erforschen - Multimedia und Kunst. Erzählen Sie uns, wie sich Wissenschaft mit Kunst überschneidet, und insbesondere über Ihre Arbeit im Bereich der tiefgreifenden Übertragung des künstlerischen Stils.

Gut. Schauen Sie sich die Bedürfnisse der Menschen an. Zuallererst brauchen wir Essen, Wasser und Schlaf, oder? Sobald die Grundbedürfnisse befriedigt sind, hat ein Mensch ein starkes Verlangen nach Kunst ...

Und der Wunsch zu schaffen.

Und Kunstobjekte schaffen. Im Rahmen dieses Forschungsbereichs wollen wir Computer Vision mit den Kunstobjekten Multimedia und Kunst verbinden. Wir können Computer Vision verwenden, um Menschen künstlerisches Vergnügen zu bereiten. Im Rahmen eines separaten Forschungsprojekts, an dem wir in den letzten zwei Jahren gearbeitet haben, haben wir eine Folge von Algorithmen erstellt, mit denen Sie ein Bild in jedem künstlerischen Stil erstellen können, wenn Beispiele für diesen Stil bereitgestellt werden. Zum Beispiel können wir ein Bild im Stil von Van Gogh erstellen.

Van Gogh?

Ja, oder irgendein anderer Künstler ...

Renoir oder Monet ... oder Picasso.

Ja, einer von ihnen. Jeder, an den Sie sich erinnern können ...

Interessant. Pixel verwenden?

Ja, mit Pixeln. Dies wird auch durch tiefe Netzwerke geschaffen, die einige der von uns entwickelten Deep-Learning-Technologien verwenden.

Diese Forschung scheint Wissen aus vielen Bereichen zu erfordern. Wo finden Sie Fachleute, die in der Lage sind ...

Ich würde sagen, in gewissem Sinne ist unser Ziel ... Sie wissen, Kunstwerke sind nicht immer für jedermann verfügbar. Einige der Kunstwerke sind wirklich sehr teuer. Mit Hilfe solcher digitaler Technologien versuchen wir, solche Arbeiten für normale Menschen zugänglich zu machen.

Demokratisiere sie.

Ja, demokratisiere Kunst, wie du sagst.

Das ist beeindruckend.

Mit unserem Algorithmus können Sie für jeden Stil ein klares numerisches Modell erstellen. Und wir können sie sogar mischen, wenn wir neue Stile erstellen möchten. Dies erinnert an die Schaffung eines künstlerischen Raums, in dem wir Zwischenoptionen untersuchen und beobachten können, wie sich Techniken ändern, wenn wir von einem Künstler zum anderen wechseln. Und wir können sogar tiefer schauen und versuchen zu verstehen, was genau den Stil eines bestimmten Künstlers bestimmt.

Von besonderem Interesse für mich ist die Tatsache, dass es sich einerseits um die Arbeit mit Zahlen handelt: Informatik, Algorithmen und Mathematik. Andererseits ist das Sprechen über Kunst eine viel metaphysischere Kategorie. Und doch haben Sie sie kombiniert, und dies zeigt, dass das Gehirn eines Wissenschaftlers eine künstlerische Seite haben kann.

Genau. Ich denke, dass das wichtigste Werkzeug, mit dem wir alles zusammenstellen, die Statistik ist.

Interessant.

.

, … – - MSR, – . , ?

. , , -. … . , - . - , , . . .

, , Amazon Mechanical Turk. . , . . , . -, , . -, , .

. . . , . , , . .

, . . , , ?

, . , , . ( ), , , -, .

, .

. , , , , , . . , NIH, - (co-robots).

- ?

-. . , . , . , . , . , . , - , , .

, , . , , ? , , ? . . , , , .

Microsoft Research ?

Microsoft . , 2006-2009 Live Labs. . . , . Nokia Research, IBM Research …

-, ?

, -, . Microsoft Research 2015 . , 2017 .

. ?

. Microsoft Research — . . — . . . . , , , Intelligent Group , .

.

Ja

, , . - , ? -, ?

, , . . : . , , , , , - . . , , , , . , .

… , : , , ? , , , ?

Microsoft (GDPR). , , , , . , . - -, . . , - . , ? , , . . , , , …

, . : « . ».

Ja Richtig.

, , . ? 10 ?

. , . . , . . , .

, , «» . , - , . - , ? . — . , . , , . , . , . . . , …

.



. . . 10-15 , , . , , . , , , .

. , , , .

, !

, , : Microsoft.com/research

Source: https://habr.com/ru/post/de418251/


All Articles