🚐 🤛🏼 🌰 Wie wir den Sport-Scout durch ein neuronales Netzwerk ersetzt haben 😧 🏆 🍖

Ja, tatsächlich konnten wir das neuronale Netzwerk des Sportscouts ersetzen und begannen automatisch, Daten über das Spiel zu sammeln. Und jetzt wissen wir mehr über das Sportereignis als das anwesende Publikum und manchmal den Richter.

Wir ( Constanta ) sind auf die Entwicklung von IT-Wettprodukten spezialisiert: mobile Anwendungen, Websites und entwickeln kürzlich Projekte im Bereich Computer Vision und maschinelles Lernen. Einer von ihnen wird diskutiert.

Während Athleten um große und kleine Siege kämpfen, muss der Buchmacher den Verlauf der Ereignisse in Echtzeit kennen, um die Koeffizienten neu berechnen zu können, nach denen tatsächlich Wetten angenommen werden. Zu diesem Zweck sammeln und übertragen Sport-Scouts direkt auf den Spielplätzen mithilfe einer speziellen Anwendung auf einem Smartphone eine große Datenmenge. Ein Pfadfinder ist dieselbe Person wie wir alle, daher entstehen natürlich Risiken, die mit dem menschlichen Faktor verbunden sind. Unser Ziel ist es, sie zu minimieren und gleichzeitig das Volumen und die Geschwindigkeit der Datenerfassung und -übertragung zu erhöhen sowie die Kosten für all diese Arbeiten zu senken. Ein kleiner Ball fliegt über einen Tennistisch oder einen Ball auf einem Fußballfeld - die technische Seite der Implementierung eines Computer-Vision-Systems zur Datenerfassung weist keine konzeptionellen Unterschiede auf. Wir fanden es interessanter, sofort ein System für ein Spiel mit einer großen Anzahl interagierender Bälle zu bauen, wie beim Billard.

Ich brauche die Koordinaten und Geschwindigkeiten all deiner Bälle und dein Stichwort.

Beachten Sie, dass Sie bei der Analyse vieler Sportspiele, um das Ergebnis korrekt zu bestimmen, die Ereigniskette genau verfolgen müssen. Daher die hohen Anforderungen an die Zuverlässigkeit der Komponenten, die für die Bestimmung dieser Ereignisse verantwortlich sind. Lassen Sie uns in einem einfachen Beispiel erklären: Wenn die Spieler im Durchschnitt alle Bälle für 20 Schläge in die Taschen rollen, beträgt die Wahrscheinlichkeit, den Gewinner eines Unentschieden zu bestimmen, bei einer Zuverlässigkeit von 99% nur etwa 82% (0,99 ²⁰ ≈ 0,817). Das Spiel dauert bis zu fünf Siege eines der Spieler, dh es finden durchschnittlich 5 bis 9 Unentschieden statt. Mit einer solchen Zuverlässigkeit bei der Bestimmung von Ereignissen wird das durchschnittliche Ergebnis des Spiels im Durchschnitt mit einer Wahrscheinlichkeit von nur etwa 24% erzielt (0,817 ⁷ ≈0, 24). Die Fehlerwahrscheinlichkeit betrug aber zunächst nur 1%!

Neun Pool

Betrachten Sie Pool-9 aus der Vielzahl der Billardspiele. Der Gewinner ist der Spieler, der den Ball mit der Nummer 9 in die Tasche gesteckt hat. Die „Neun“ befindet sich zunächst in der Mitte einer Raute aus farbigen Kugeln. Der Zielball, auf den der Spielball schlagen soll, ist der Ball mit der niedrigsten Zahl auf dem Tisch. Wenn ein Spieler beispielsweise keinen einfarbigen Ball oder Foul erzielen konnte, den Zielball nicht getroffen oder einen Spielball im Loch erzielt hat, geht der Zug zum Gegner. Um einen Punkt richtig zu erzielen, ist es notwendig, den Treffer von Bällen in den Taschen und alle Ereignisse zu bestimmen, die zu einem Spielerwechsel führen.

Computer Vision

Lassen Sie uns zunächst darüber sprechen, wie ein neuronales Netzwerk Daten empfängt. Eingabeinformationsstrom - Videoübertragung von einer Kamera über dem Tisch mit einer Frequenz von 60 Bildern pro Sekunde.

Ein Beispiel für einen Frame eines vom System verarbeiteten Videostreams.

Eine Schlüsselstufe bei der Verarbeitung eines Videostreams durch ein neuronales Netzwerk ist die semantische Segmentierung. Dies ist eine klassische Aufgabe des Computer Vision, die darin besteht, dass der Algorithmus einer oder mehreren Klassen Bildpixel zuweisen sollte. Einfach ausgedrückt, auf Videobildern müssen Sie bestimmen, was was ist. Das neuronale Netzwerk erzeugt "Masken", die Pixel hervorheben, die sich beispielsweise auf einen Ball oder Spieler beziehen. Nach einer Reihe von Nachbearbeitungsalgorithmen wird die „Maske“ der Kugeln zu Koordinaten. Demnach werden nach dem Glätten durch einen Filter für jeden Ball die Geschwindigkeit und die Bewegungsbahn bestimmt. In diesem Stadium werden Ereignisse auf niedriger Ebene oder auf mittlerer Ebene, wie z. B. Kollisionen von Bällen untereinander und mit den Seiten des Tisches, verfolgt. Die empfangenen Daten werden an das Regelverarbeitungsmodul gesendet, das die gesamte Logik des Spiels implementiert. Am Ende gibt er es dem Endverbraucher, d.h. Buchmacher, hochrangige Events: Bälle in Taschen treiben, Fouls, Übergänge von Zügen und in der Tat das Ergebnis des Spiels.

Das allgemeine Schema des Systems.

Um das Problem zu lösen, müssen zunächst die Position des Tisches auf dem Rahmen und alle darauf befindlichen Kugeln ermittelt werden. Ein weiterer wichtiger Teilnehmer an der Aktion ist das Stichwort. Er bestimmt die Richtung des Schlags und dementsprechend die Flugbahn des Spielballs. Die Spieler beugen sich über den Tisch und decken ihn teilweise von der Kamera ab. Aus Sicht der Analyse des Spiels handelt es sich um „Fremdkörper“ wie einen Ständer für Bälle sowie um Mobiltelefone, Handschuhe, Servietten und andere Dinge, die nach dem Willen der Spieler an den Seiten des Tisches erscheinen. Somit werden mehrere Zielklassen für die semantische Segmentierung von Bildern erhalten: eine Tabelle, ihre Seiten, Taschen, ein Stichwort, Fremdkörper und natürlich Bälle. Zusätzlich wird jeder Ball je nach Farbe durch eine eigene Klasse dargestellt.

Für die semantische Segmentierung wird ein vollständig gefaltetes neuronales Netzwerk mit LinkNet-34- Architektur verwendet . Es funktioniert relativ schnell und hat sich in verschiedenen „Kampf“ -Aufgaben von Computer-Vision-Wettbewerben bewährt. Um den obigen Satz von Klassen zu bestimmen, wird nur ein neuronales Netzwerk verwendet, das alle Probleme der Bildverarbeitung löst.

LinkNet-34-Netzwerkarchitektur (siehe arXiv ).

Bilder werden eingegeben und ein Stapel von "Masken" aller erforderlichen Klassen wird an der Ausgabe erhalten. "Vorhersagemasken" sind zweidimensionale Anordnungen von Zahlen mit Werten von 0 bis 1. Der Wert jedes Elements der "Maske" entspricht dem Vertrauen des Netzwerks, dass das entsprechende Pixel zur Klasse dieser "Maske" gehört. Für die endgültige Klassifizierung von Pixeln werden die erhaltenen Vorhersagen durch ein Schwellenwertfilter binärisiert.

Sie können ein neuronales Netzwerk trainieren, um Pixel anhand einer großen Anzahl von Beispielen mit entsprechenden „Masken“ zu klassifizieren. Zu diesem Zweck haben wir viele Videos gesammelt, die in Frames unterteilt sind, und die Markup-Abteilung hat manuell „Masken“ für sie vorbereitet. In schwierigen Fällen waren zusätzliche Datensätze erforderlich. Wenn zum Beispiel ein Ball in eine Tasche „taucht“ oder in der Nähe der Seite des Tisches steht, fällt ein Schatten darauf, wodurch die Farben unterschiedlich aussehen. Oder wenn ein Spieler eine Raute bricht, fliegen die Bälle schnell auf komplexen Pfaden, weshalb ihre Bilder unscharf sind. Wenn das neuronale Netzwerk einige solcher Beispiele „gesehen“ hat, ist die korrekte Klassifizierung schwierig.

Ein Beispiel für ein Bild und das zugehörige Markup. Die Aufgabe des neuronalen Netzwerks besteht darin, solche "Masken" aus dem Eingabebild zu erhalten.

Schnell, schneller, noch schneller ...

Der Endbenutzer von Daten benötigt Informationen in Echtzeit (oder noch besser - schneller als in Echtzeit). Zur Beschleunigung des neuronalen Netzwerks wurden verschiedene Techniken verwendet, z. B. die Kombination der Paketnormalisierung mit der 2D-Faltung (BatchNorm Fusion), mit der Sie ein gleichwertiges Netzwerk ohne mehrere Schichten erhalten können. Das Vorbereiten und Laden eines neuen Rahmens parallel zur Verarbeitung des vorherigen auf der Grafikkarte liefert ebenfalls ein gutes Ergebnis. Darüber hinaus werden ein Teil der Vorbereitungsarbeiten mit Personal und die Nachbearbeitung von „Masken“ auf GPU durchgeführt. Schon eine einfache Idee hat dazu beigetragen, die Gesamtverarbeitungszeit für jeden Frame zu reduzieren - das Ergebnis des Netzwerks nach der Binärisierung in Form von uint8 von der Grafikkarte in den RAM zu übertragen, anstatt das vom float32-Netzwerk empfangene.

Die semantische Segmentierung eines Frames mit allen erforderlichen Vor- und Nachbearbeitungen dauert daher durchschnittlich nur 17 ms! Und für den Betrieb des Systems reicht nur eine Gaming-Grafikkarte aus.

Gab es einen Zusammenstoß?

Wir bestimmen die Koordinaten der Bälle durch „Masken“, aber zuerst müssen wir ausschließen, was nur einem Ball ähnelt, zum Beispiel runde Streifen auf den T-Shirts der Spieler. Hier kommen Heuristiken ins Spiel: Form und Größe der Bälle, ihre Position relativ zur Vergangenheit, sind bekannt. Wenn mit der „Maske“ alles in Ordnung ist, wird der Schwerpunkt zur Verarbeitung herangezogen.

Billardspieler in den schrecklichen Träumen der Entwickler.

Es ist auf den ersten Blick seltsam, aber Tatsache ist, dass das Ergebnis der Bestimmung der Position von Bällen auch bei bewegungslosen Bällen zwischen den Frames unterschiedlich sein kann. Die Erklärung ist einfach: Das „Rauschen“ eines echten Videos, Videostream-Komprimierungsartefakte, die zusammen mit einem Fehler bei der Bestimmung der Position unscharfer Bilder von sich bewegenden Bällen dazu führen, dass die Ergebnisse geglättet werden müssen.

Basierend auf den Koordinaten der vom Netzwerk empfangenen und in den vorherigen Frames bestimmten Bälle wird die Geschwindigkeit als numerische Ableitung geschätzt. Die Anzahl der berücksichtigten Punkte und das Intervall zwischen ihnen werden während des Systembetriebs abhängig von der Verfügbarkeit von Daten und Ereignissen wie Kollisionen adaptiv ausgewählt. Anschließend werden die Informationen zu Position und Geschwindigkeit der Kugeln an den Kalman- Sigma-Punkt- Filter gesendet. Damit können Sie verrauschte Daten glätten, was besonders wichtig für die Bestimmung der Geschwindigkeit und ihrer Richtung ist. Darüber hinaus kann das Ergebnis des dynamischen Modells daraus verwendet werden, um die nahe Zukunft vorherzusagen.

Demonstration der Glättung der Bestimmung der Position und Geschwindigkeit von Bällen durch den Kalman-Filter.
Links: Roh: das Ergebnis der direkten Messung, die Vektoren der Kugeln entsprechen der Geschwindigkeit, die Zahlen geben eine Schätzung der Geschwindigkeit an; UKF: Filterergebnis.
Rechts: Ein Beispiel für die Glättung der Geschwindigkeitsrichtung eines Balls mit einem Kalman-Filter. Blaue Farbe zeigt die Messergebnisse, rot - das Ergebnis der Filterung. Plötzliche Richtungssprünge entsprechen Ballkollisionen.

Die Daten über den Zustand und die Flugbahn der Bälle ermöglichen es, das Auftreten des sogenannten Low-Level-Ereignisses zu bestimmen, selbst wenn es „zwischen Frames“ fiel.

Bälle bewegen sich während eines Treffers so schnell, dass es oft keinen Rahmen gibt, der ein Ereignis direkt anzeigt, beispielsweise eine Kollision von Bällen. Daher wird für alle Arten von Interaktionen (Kollision von Bällen miteinander, mit dem Brett oder Fallen in das Loch) zunächst eine Liste möglicher Ereignisse erstellt. Es gibt zwei Kriterien. Erstens die kritisch enge gegenseitige Anordnung der Bälle. Bei langsamer Bewegung tritt ein großer relativer Fehler bei der Bestimmung der Geschwindigkeit und der Flugbahn auf. Daher ist der Abstand zwischen interagierenden Objekten wichtig. Zweitens werden bei einer hohen Bewegungsgeschwindigkeit der Kugeln mögliche Ereignisse durch den Schnittpunkt der aus dem dynamischen Modell erhaltenen Trajektorien bestimmt. Dieser Ansatz bietet einen sehr schönen Bonus: die Fähigkeit, den wahrscheinlichen Treffer des Balls in der Tasche ein wenig im Voraus vorherzusagen.

Sequentielle Frames des Videostreams während des anfänglichen Brechens einer Raute aus Bällen. Ohne ein Modell, das die Flugbahnen der Bälle beschreibt, ist es schwierig zu bestimmen, auf welchen Ball der Spielball gerichtet war.

Eine Änderung der Richtung und Größe des Geschwindigkeitsvektors ermöglicht es uns zu beurteilen, dass ein Ereignis, nämlich eine Kollision, aufgetreten ist. Wenn der Ball in eine Tasche gerollt wird, „verschwindet“ er. Es gibt jedoch einen wichtigen Punkt: Es ist notwendig, Daten über seine Flugbahn zu verwenden und zu überprüfen, ob der Ball genau gehämmert wurde und nicht aus dem Sichtfeld der Kamera verschwand, da sich die Hand eines Spielers oder ein anderes Objekt versehentlich darüber befand.

Und wenn etwas schief gelaufen ist? Nehmen wir an, einige der Ereignisse sind aufgrund eines Frame-Verlusts oder einer über dem Tisch hängenden Spielerfigur gefallen. Solche Auslassungen sind für die Spielelogik von entscheidender Bedeutung. Speichert ein heuristisches Autokorrektur-System, das die Stabilität des Systems erhöht. Wenn beispielsweise ein Treffer auf dem Spielball erkannt wird und der Zielball in das Loch fällt, aber keine Spielballkollisionen erkannt werden und andere Bälle bewegungslos bleiben, ist es logisch, eine Spielballkollision mit dem Zielball hinzuzufügen.

Spielen wir also oder nicht?

Bälle rollen, kollidieren, fallen in die Taschen ... Aber läuft das Spiel in diesem Moment wirklich? Oder im Gegenteil, alles auf dem Tisch scheint unerschütterlich ... Also hat das Spiel aufgehört? Die richtige Antwort auf diese Fragen ist wahrscheinlich genauso wichtig wie die Definition von Kollisionen. Wenn sich ein Spieler auf einen Schlag vorbereitet, darüber nachdenkt, zielt, gibt es keine Bewegung. Aber es passiert und umgekehrt, in Momenten außerhalb des Spiels kann das Leben auf dem Tisch sehr dynamisch verlaufen: Verstopfte Bälle werden von einer Tasche zur anderen bewegt, der Spielball kann nach einem Foul um den Tisch gerollt werden, und dies geschieht einschließlich der Spitze des Spielfelds (sehr ähnlich einem Schlag! ) Wenn das Ende des aktuellen Treffers leicht bestimmt werden kann - nach einem korrekten Treffer hören alle Bälle auf, sich zu bewegen, dann ist zu Beginn nicht alles so klar. Natürlich können Sie das neuronale Netzwerk trainieren, um Ereignisse im Video zu erkennen, einschließlich realer Cue-Strikes auf dem Cue-Ball. Außerdem können Sie eine Reihe von Heuristiken erstellen, die die Position und den Winkel des Cues, die Flugbahn und Geschwindigkeit seiner Enden sowie die Flugbahn des Cue-Balls nach dem mutmaßlichen Aufprall analysieren. Wir sind den zweiten Weg gegangen und das Ergebnis war ein sehr schneller und zuverlässiger Algorithmus, der den aktuellen Status des Spiels bestimmt.

Das System versucht zu verstehen, ob das Spiel gestartet wurde oder nicht.

Und wer hat letztendlich gewonnen?

Alle Daten zu Ereignissen auf niedriger Ebene (ein Treffer auf dem Spielball, die Position und Kollision von Bällen, die in die Taschen fallen) werden an das Modul gesendet, das anhand seiner Reihenfolge feststellt, ob ein Foul aufgetreten ist oder der Ball korrekt in das Loch gefallen ist, der Zug vergangen ist oder das Spiel endet. Das unparteiische Modul punktet und gibt den Gewinner bekannt. Seine Besonderheit ist, dass es ohne automatische Korrekturen und Heuristiken funktioniert und einfach die Spielregeln formal anwendet. Der Regelblock kann vollständig ersetzt werden, sodass Sie ihn ohne nennenswerte Eingriffe in das System an die lokalen Regeln des Turniers anpassen oder andere Arten von Billardspielen verarbeiten können.
Da unbemannte Fahrzeuge den Testingenieur in der Kabine, der die Sicherheit überwacht, noch nicht vollständig beseitigt haben, ermöglicht unser Regelmodul eine externe manuelle Steuerung über das Webinterface. Ein Eingriff kann erforderlich sein, wenn das automatische System ausfällt. Darüber hinaus müssen Sie Daten, die nicht im Videostream enthalten sind, manuell eingeben: Informationen zu einem Anfänger, spezielle Treffer, die während des Spiels per Sprache angekündigt werden usw. Eine Person kann möglicherweise mehrere Spiele gleichzeitig überwachen.

Wie funktioniert es?

Nach einem erfolgreichen Start und der Einrichtung des Systems erhielten wir nicht nur die erforderlichen Daten, sondern entdeckten auch viele interessante Dinge. Manchmal kann der Richter am Tisch nicht sicher feststellen, ob der Spielball den Zielball oder einen anderen in der Nähe getroffenen Ball getroffen hat. Die objektive Sicht auf unser System ermöglicht es uns zu sehen, wie sich die Situation tatsächlich entwickelt hat. Darüber hinaus sammelt das System viele Informationen, die für die weitere Analyse nützlich sind und die eine Person einfach nicht in Echtzeit bestimmen und übertragen kann: die Position und Geschwindigkeit der Bälle, die Parameter der Cue-Schläge jedes Spielers.

Derzeit funktioniert das System und wird vom Buchmacher verwendet. In Zukunft ist geplant, das System zu verbessern, einschließlich der automatischen Identifizierung von Spielern und der automatischen Ermittlung der Ergebnisse des ersten Schlags.

Technische Visualisierung der Funktionsweise des Systems. Der Ball neben dem „Spielball“ zeigt an, auf welchen ersten Ball der Spielball gerichtet war. "Zustand" - der Zustand des Systems: Es kann "warten" - bis der Spieler getroffen hat - und "spielen" - während die Bälle in Bewegung sind; "Spieler" - aktueller Spieler; Die Zahlen um die Kugeln geben die Geschwindigkeitsschätzung in cm / s an.

Wie wir den Sport-Scout durch ein neuronales Netzwerk ersetzt haben