👨‍👨‍👧 🥖 🔭 Neuronale Echtzeitnetze zur Handverfolgung ⌚️ 🎃 🏠

Kürzlich haben GoogleAI-Forscher ihre Herangehensweise an die Aufgabe gezeigt, Hände zu verfolgen und Gesten in Echtzeit zu bestimmen. Ich war mit einer ähnlichen Aufgabe beschäftigt und beschloss daher herauszufinden, wie sie sich der Lösung näherten, welche Technologien sie verwendeten und wie sie bei der Echtzeitarbeit auf einem mobilen Gerät eine gute Genauigkeit erzielten. Auch startete das Modell auf Android und getestet unter realen Bedingungen.

Warum ist das wichtig?

Handerkennung ist eine eher nicht triviale Aufgabe, die gleichzeitig sehr gefragt ist. Diese Technologie kann in Anwendungen mit zusätzlicher Realität für die Interaktion mit virtuellen Objekten verwendet werden. Es kann auch die Grundlage für das Verständnis der Gebärdensprache oder für die Erstellung gestenbasierter Steuerungsschnittstellen sein.

Was ist die Schwierigkeit?

Die natürliche Wahrnehmung von Händen in Echtzeit ist eine echte Herausforderung für das Computer-Sehen. Hände überlappen sich häufig selbst oder einander (Daumen drücken oder Händeschütteln). Während Gesichter kontrastreiche Muster aufweisen, beispielsweise im Bereich der Augen und des Mundes, ermöglicht das Fehlen solcher Zeichen in den Händen eine zuverlässige Erkennung nur anhand ihrer visuellen Zeichen.

Hände sind ständig in Bewegung, ändern Neigungswinkel und überlappen sich. Für eine akzeptable Benutzererfahrung muss die Erkennung mit hohen FPS (25+) funktionieren. Darüber hinaus sollte dies alles auf mobilen Geräten funktionieren, was die Geschwindigkeitsanforderungen sowie die Ressourcenbeschränkungen erhöht.

Was hat GoogleAI getan?

Sie implementierten Technologien zur präzisen Verfolgung von Händen und Fingern mithilfe von maschinellem Lernen (ML). Das Programm ermittelt 21 Schlüsselpunkte der Hand im 3D-Raum (Höhe, Länge und Tiefe) und klassifiziert anhand dieser Daten die Gesten, die die Hand zeigt. All dies auf der Basis von nur einem Videobild, funktioniert in Echtzeit auf Mobilgeräten und skaliert mit mehreren Händen.

Wie haben sie das gemacht?

Der Ansatz wird mithilfe von MediaPipe implementiert, einem plattformübergreifenden Open-Source-Framework zum Erstellen von Datenverarbeitungs-Pipelines (Video, Audio, Zeitreihen). So etwas wie Deepstream von Nvidia, aber mit einer Reihe von Funktionen und plattformübergreifend.

Die Lösung besteht aus 3 Hauptmodellen, die zusammenarbeiten:

Palm Detector (BlazePalm)

Nimmt das vollständige Bild vom Video auf
gibt orientierten Begrenzungsrahmen zurück (Begrenzungsrahmen)

Modell zur Bestimmung der wichtigsten Punkte auf der Hand

macht ein beschnittenes Bild von einer Hand
Gibt 21 wichtige Punkte einer Hand im 3D-Raum + Konfidenzindikator zurück (weitere Details weiter unten im Artikel).

Gestenerkennungsalgorithmus

nimmt wichtige Punkte der Hand
Gibt den Namen der Geste zurück, die die Hand zeigt

Die Architektur ähnelt der in der Posenschätzungsaufgabe verwendeten . Durch die Bereitstellung eines präzise zugeschnittenen und ausgerichteten Handbilds wird der Bedarf an Datenerweiterungen (Rotationen, Übersetzungen und Skalierungen) erheblich reduziert. Stattdessen kann sich das Modell auf die Genauigkeit der Koordinatenvorhersage konzentrieren.

Palmendetektor

Um die Handfläche zu finden, wird ein Modell namens BlazePalm verwendet - ein Single Shot Detector (SSD) -Modell, das für die Arbeit an einem mobilen Gerät in Echtzeit optimiert ist.

In einer GoogleAI-Studie wurde ein Handflächendetektor anstelle eines gesamten Armdetektors trainiert (Handfläche ist die Basis einer Handfläche ohne Finger). Der Vorteil dieses Ansatzes besteht darin, dass es einfacher ist, eine Handfläche oder Faust mit gestikulierenden Fingern zu erkennen als die ganze Hand, und die Handfläche kann auch mithilfe von quadratischen Begrenzungsrahmen (Ankern) ausgewählt werden, wobei Seitenverhältnisse ignoriert werden und somit die Anzahl der erforderlichen Anker um das 3-5-fache reduziert wird

Der Feature- Extraktor " Feature Pyramid Networks for Object Detection" (FPN) wurde auch verwendet, um den Bildkontext auch für kleine Objekte besser zu verstehen.

Als Verlustfunktion wurde ein Fokusverlust genommen, der das Ungleichgewicht der Klassen, die beim Erzeugen einer großen Anzahl von Ankern auftreten, gut bewältigt.

Klassische Kreuzentropie : CE (pt) = -log (pt)
Fokusverlust: FL (pt) = - (1-pt) log (pt)

Weitere Informationen zum Focall-Verlust finden Sie im ausgezeichneten Pager von Facebook AI Research (empfohlene Lektüre).

Unter Verwendung der obigen Techniken wurde eine durchschnittliche Genauigkeit von 95,7% erreicht. Bei Verwendung einer einfachen Kreuzentropie und ohne FPN - 86,22%.

Wichtige Punkte definieren

Nachdem der Handflächendetektor die Position der Handfläche im gesamten Bild bestimmt hat, verschiebt sich der Bereich um einen bestimmten Faktor nach oben und dehnt sich aus, um die gesamte Hand abzudecken. Weiter auf dem zugeschnittenen Bild ist das Regressionsproblem gelöst - die genaue Position von 21 Punkten im 3D-Raum wird bestimmt.

Für das Training wurden 30.000 reale Bilder manuell markiert. Es wurde auch ein realistisches 3D-Modell der Hand erstellt, mit dessen Hilfe künstlichere Beispiele auf verschiedenen Hintergründen erzeugt wurden.

Oben: Echte Handbilder mit markierten Schlüsselpunkten. Unten: Künstliche Bilder der Hand, die mit einem 3D-Modell erstellt wurden

Gestenerkennung

Für die Gestenerkennung wurde ein einfacher Algorithmus verwendet, der den Zustand jedes Fingers (z. B. gekrümmt oder gerade) anhand der Schlüsselpunkte der Hand bestimmt. Dann werden alle diese Bedingungen mit den vorhandenen Gesten verglichen. Mit dieser einfachen, aber effektiven Methode können Sie grundlegende Gesten mit guter Qualität erkennen.

Optimierungen

Das Hauptgeheimnis der schnellen Inferenz in Echtzeit ist in einer wichtigen Optimierung verborgen. Der Palmenmelder, der die meiste Zeit in Anspruch nimmt, startet nur bei Bedarf (ziemlich selten). Dies wird erreicht, indem die Position der Hand im nächsten Frame basierend auf den vorherigen Schlüsselpunkten der Hand berechnet wird.

Für die Nachhaltigkeit dieses Ansatzes wurde dem Modell ein weiterer Ausweg zur Bestimmung der wichtigsten Punkte hinzugefügt - ein Skalar, der zeigt, wie sicher das Modell ist, dass die Hand auf dem zugeschnittenen Bild vorhanden ist und korrekt eingesetzt wird. Wenn der Konfidenzwert unter einen bestimmten Schwellenwert fällt, wird der Palmendetektor gestartet und auf den gesamten Rahmen angewendet.

Realitätsprüfung

Ich habe diese Lösung auf einem Android-Gerät (Xiaomi Redmi Note 5) für einen Test unter realen Bedingungen gestartet. Das Modell verhält sich gut, bildet das Skelett der Hand korrekt ab und berechnet die Tiefe mit einer anständigen Anzahl von Bildern pro Sekunde.

Von den Minuspunkten ist zu beobachten, wie Genauigkeit und Geschwindigkeit bei einer konstanten Bewegung der Hand entlang des Rahmens zu sinken beginnen. Dies liegt daran, dass das Modell den Detektor ständig neu starten muss, da er beim Bewegen die Position der Hand verliert. Wenn die Geschwindigkeit, mit der Sie eine sich bewegende Hand finden, für Sie wichtiger ist als die Definition von Gesten, sollten Sie nach anderen Ansätzen suchen.

Einige Probleme treten auch auf, wenn sich die Hand mit dem Gesicht oder ähnlichen komplexen Hintergründen schneidet. Ansonsten ist die großartige Arbeit von GoogleAI ein großer Beitrag zur zukünftigen Entwicklung der Technologie.

GoogleAI-Blog-Artikel
Github Mediapipe Hand Tracking

Neuronale Echtzeitnetze zur Handverfolgung