DeepMind AI kann die Aktionen von Homer Simpson nicht genau identifizieren



Es gibt immer mehr Arten von neuronalen Netzen, die den Menschen wirklich helfen, zu leben und zu arbeiten. Einige Systeme sagen das Wetter voraus, andere lernen, Diagnosen zu stellen, und ein Teil der Systeme ging in das große Geschäft. AI, seine schwache Form, weiß bereits, wie man große Datenmengen analysiert und auf den ersten Blick Abhängigkeiten zwischen nicht verwandten Faktoren findet. Aber natürlich gibt es immer noch viele Probleme - künstliche Intelligenz ist nicht in der Lage, die Analyse des Verhaltens einer so "mysteriösen" Zeichentrickfigur wie Homer Simpson zu bewältigen.

Nein, das System kann einige seiner Aktionen identifizieren, aber nicht alle. Gleichzeitig wurde das neuronale Netzwerk auf einer Vielzahl von YouTube-Videos von The Simpsons trainiert. Es ist erwähnenswert, dass DeepMind für die Entwicklung verschiedener KI-Systeme alles andere als neu ist. Zum Beispiel konnte eine der Entwicklungen dieses Unternehmens, das zuvor Teil von Google war und jetzt in die Zuständigkeit von Softbank übergeht, den Weltmeister im Spiel besiegen .

DeepMind-Systeme sowie Entwicklungen dieser Art durch andere Unternehmen können riesige Informationsmengen analysieren. Mit der Zeit wird die Arbeit neuronaler Netze immer perfekter, wenn sie sich selbst lernen. Ob Gesichtserkennung oder Übersetzung vom Englischen ins Chinesische und umgekehrt - die Ergebnisse verbessern sich von Tag zu Tag. Um ihrem System namens Kinetics beizubringen, das Verhalten von Menschen zu verstehen, haben DeepMind-Mitarbeiter über 300.000 YouTube-Videos „gefüttert“ und dabei gelernt, etwa 400 Arten menschlicher Handlungen zu unterscheiden.

„KI-Systeme sind jetzt sehr gut darin, verschiedene Objekte in Bildern zu erkennen, aber ihre schwache Seite arbeitet mit Video“, sagt DeepMind-Vertreter. "Einer der Hauptgründe ist das Fehlen großer Beispiele hochwertiger Videos."

Um dieses Problem zu lösen, haben DeepMind-Mitarbeiter beschlossen, eine eigene Stichprobe zu erstellen. Für jede der 400 Arten von Aktionen wurde eine Person von YouTube mindestens 400 Videos "geschnitten", was ungefähr 10 Sekunden dauerte. Das Ergebnis ist einer der ersten hochwertigen und spezialisierten Datensätze, die für den KI-Unterricht entwickelt wurden. Natürlich hatte die Firma DeepMind, die dieses Beispiel bildete, als sie noch ein Geschäftsbereich von Google war, Glück, denn Google (jetzt mit Alphabet) ist der Eigentümer von YouTube. Dementsprechend hatten Deepmind-Mitarbeiter wahrscheinlich Zugang zu speziellen Tools für die Arbeit mit Videodienstmaterialien. Andere Unternehmen werden es in dieser Hinsicht schwerer haben, da es nicht so einfach ist, öffentlich verfügbare, qualitativ hochwertige Videos zum Zusammenstellen eines speziellen Datensatzes zu finden, wie es scheint.

Die Genauigkeit der Identifizierung der verschiedenen Kinetiken, die in den Videos der Handlungen von Menschen zu sehen sind, betrug etwa 80%, was nicht so gering ist. Dies gilt zwar für gewöhnliche Videos, in denen sie Tennis spielen, ein weinendes Kind beruhigen, eine Wettervorhersage machen usw. Bei Homer Simpson ist alles komplizierter, hier sinkt die Genauigkeit sofort viermal, bis zu 20%. Für die neuronalen Netze war es schwierig, Homers Handlungen wie das Werfen einer Münze, das Kämmen nicht vorhandener Haare (die verbleibenden Haarpaare wurden nicht gezählt) und andere zu identifizieren.

Zusätzlich zu Homer ist es für Kinetics schwierig, ein Gericht oder Produkt zu identifizieren, wenn nur ein Teil davon gezeigt wird. Ein halb aufgegessener Burger ist bereits viel weniger genau definiert als ein Ganzes. Probleme treten auch auf, wenn das Objekt als sehr klein dargestellt wird. Laut dem Vertreter von DeepMind reichen manchmal nur wenige Videos aus, um dem neuronalen Netzwerk beizubringen, eine Aktion mit einem hohen Maß an Genauigkeit korrekt zu bestimmen. Aber manchmal helfen sogar hundert nicht, die Genauigkeit der Bestimmung bestimmter Aktionen zu erhöhen.



All dies sind bekannte Probleme. Zum Beispiel hatte früher dasselbe neuronale Netzwerk Schwierigkeiten, die Gesichter von Menschen zu identifizieren, die bestimmten ethnischen Gruppen angehören. Nach Ansicht einiger Experten können die Kinetik zugrunde liegenden Algorithmen das Geschlecht einer Person anhand einiger Merkmale von Sprache und Texten bestimmen.

Das neuronale Netzwerk von DeepMind ist in der Lage, das Geschlecht einer Person im Video zu bestimmen (wenn auch keineswegs in allen Fällen) sowie das „Geschlechtergleichgewicht“ einer Reihe von Videos zu bewerten. Zum Beispiel ist ein Video mit rasierenden Schnurrbärten und Bärten meistens männlich (wer wäre überrascht), aber die Arbeit mit Augenbrauen oder Cheerleading ist weiblich. Das Problem mit der Geschlechtserkennung bleibt zwar bestehen, Entwickler müssen hier etwas bearbeiten.

In Zukunft wird die Arbeit an solchen Systemen wahrscheinlich nicht nur bestimmen, was Menschen auf Video tun, sondern auch den Grund für ihre Handlungen. Zum Beispiel kann ein neuronales Netzwerk bestimmen, warum eine Person „oh“ ausrief und erklärt, was diese Aktion verursacht hat. Dies erfordert solide zusätzliche Arbeit und viele, viele Datensätze für das Training.

Wenn Sie Kinetik besser trainieren, lernt dieses System wahrscheinlich, die Aktionen von Homer Simpson zu bestimmen. Obwohl wer weiß, ist dies ein sehr unvorhersehbarer Charakter. Wird es funktionieren?

Source: https://habr.com/ru/post/de404523/


All Articles