Google Maps-Update durch eingehendes Lernen und Street View

Jeden Tag erstellt Google Maps nützliche Routen und bietet Millionen von Menschen Informationen zu Staus und kommerziellen Organisationen. Damit sich unsere Benutzer wohler fühlen, sollten diese Informationen die sich ständig ändernde Welt in Echtzeit widerspiegeln. Street View-Autos sammeln täglich Millionen von Bildern, und es ist unmöglich, mehr als 80 Milliarden hochauflösende Bilder, die heute gesammelt wurden, manuell zu analysieren, um neue oder aktualisierte Informationen zu finden, die für die Platzierung in Google Maps geeignet sind. Eines der Ziele des Ground Truth-Teams ist das automatische Extrahieren von Informationen aus georeferenzierten Bildern, um Google Maps zu verbessern.

In dem Artikel „ Extrahieren strukturierter Informationen aus der Street View-Bilddatenbank mithilfe von Aufmerksamkeitsalgorithmen “ haben wir unseren Ansatz zur genauen automatischen Erkennung von Straßennamen in sehr komplexen Street View-Fotos aus verschiedenen Ländern mithilfe eines tiefen neuronalen Netzwerks beschrieben. Unser Algorithmus zeigte eine Genauigkeit von 84,2% im komplexen FSNS-Datensatz ( French Street Name Signs ) und war den bisherigen Marktführern in diesem Bereich weit voraus. Was wichtig ist, unser System lässt sich leicht skalieren, um andere Arten von Informationen aus Street View-Fotos zu extrahieren, und jetzt können wir Anzeichen von Handelsunternehmen automatisch erkennen. Und wir freuen uns, Ihnen mitteilen zu können, dass dieses Modell gemeinfrei ist !

Bild
Ein Beispiel für einen Straßennamen, der vom System erfolgreich erkannt wurde. Ein und dasselbe Zeichen kann durch mehrere Fotos dargestellt werden, bis zu 4 Stück.

Das Erkennen von Text in einer natürlichen Umgebung ist eine schwierige Aufgabe für Computer Vision und maschinelles Lernen. Herkömmliche Zeichenerkennungssysteme (OCR) extrahieren Text aus gescannten Dokumenten, und Text aus Straßenfotos ist aufgrund visueller Artefakte - Verzerrung, Behinderung, Unschärfe, komplexer Hintergrund oder unterschiedliche Sichtweisen - schwieriger zu erkennen. Unsere Versuche, diese Forschungsprobleme zu lösen, begannen 2008, als wir mithilfe neuronaler Netze Gesichter und Nummernschilder verwischten , um die Privatsphäre unserer Benutzer zu schützen. Nach dieser Studie haben wir festgestellt, dass wir mit einer ausreichend großen Menge markierter Daten maschinelles Lernen verwenden können, um nicht nur die Privatsphäre der Nutzer zu schützen, sondern auch um Google Maps neue Informationen hinzuzufügen.

Im Jahr 2014 veröffentlichte das Ground Truth-Team den SVHN-Datensatz ( Street View House Numbers ), eine erweiterte Methode zur Erkennung von Hausnummern , die von dem damaligen Studenten, jetzt Google-Mitarbeiter Jan Goodfellow, durchgeführt wurde . Diese Arbeit war nicht nur von akademischem Interesse, sondern auch entscheidend für die Verbesserung der Genauigkeit von Google Maps. Heute wird dank dieses Systems rund ein Drittel der Standorte weltweit verbessert. In einigen Ländern wie Brasilien hat dieser Algorithmus den Standort von mehr als 90% der Adressen in Google Maps angegeben, was die Benutzerfreundlichkeit unserer Karten erheblich verbessert hat.

Der nächste logische Schritt bestand darin, diese Techniken auf Straßennamen zu übertragen. Um dieses Problem zu lösen, haben wir den Datensatz French Street Name Signs (FSNS) erstellt und veröffentlicht, einen großen Satz mit mehr als einer Million Straßennamen. Der FSNS-Satz war das Ergebnis langjähriger Arbeit, die darauf abzielte, jedem die Möglichkeit zu geben, seine OCR-Modelle an einem komplexen und realen Datensatz zu verbessern. FSNS ist viel größer und komplexer als SVHN, da für die genaue Erkennung von Straßennamen Informationen aus mehreren verschiedenen Bildern kombiniert werden müssen.

Bild
Beispiele für schwer erkennbare Zeichen, die unser System mithilfe einer Kombination verschiedener Bilder erfolgreich erkannt hat. Zufälliges Rauschen wird verwendet, wenn für ein einzelnes Zeichen keine vier verschiedenen Fotos vorhanden sind.

Mit diesem Kit hat die Google-Praktikantin Vozhna Zbigniew ein Deep-Learning-Modell entwickelt, mit dem Street View-Bilder den ganzen Sommer 2016 automatisch markiert werden können. Eine der interessanten und nützlichen Funktionen des neuen Modells ist die Möglichkeit, Text gemäß unseren Standards für Titel zu normalisieren und überschüssigen Text aus Bildern zu ignorieren.

Bild
Ein Beispiel für eine Textnormalisierung nach brasilianischen Daten. "AV." Verwandelt sich in "Avenida" und "Pres". in "Presidente"

Bild
In diesem Beispiel wird das Modell nicht gelöscht, nachdem zwei Zeichen gleichzeitig getroffen wurden, verwandelt "Av" korrekt in "Avenue" und ignoriert die Nummer "1600" korrekt.

Das neue System in Kombination mit der Extraktion von Hausnummern ermöglicht es uns, neue Adressen direkt aus Fotos an Orten zu erstellen, an denen kein Straßenname oder keine Adresse bekannt war. Jedes Mal, wenn ein Street View-Auto auf einer neuen Straße fährt, kann unser System Zehntausende von Bildern analysieren, die von der Maschine empfangen wurden, Straßennamen und Hausnummern extrahieren und neue Adressen korrekt zuordnen.

Die automatische Erstellung von Adressen reicht jedoch nicht aus. Wir möchten kommerziellen Organisationen dennoch einen Weg mit ihrem Namen bieten. Im Jahr 2015 veröffentlichten wir die Arbeit „ Großflächige Anerkennung kommerzieller Organisationen anhand von Street View-Fotos “, in der eine Methode zur genauen Erkennung von Beschilderungen von kommerziellen Einrichtungen vorgeschlagen wurde. Nachdem das Schaufenster der Organisation entdeckt wurde, muss der Name jedoch noch genau extrahiert werden. Das Modell muss herausfinden, wo der Name auf dem Foto angegeben ist und wo der Text nicht damit zusammenhängt. Wir nennen diese extrahierten Informationen "strukturierten Text". Und das ist nicht nur Text, sondern Text kombiniert mit seiner semantischen Bedeutung.

Mithilfe verschiedener Trainingsdaten können wir unser Modell, das den Straßennamen liest, dazu zwingen, die Namen von Gewerbebetrieben aus den Gebäudefassaden zu extrahieren. In diesem Fall könnten wir den Namen extrahieren und anhand von Informationen aus Google Maps prüfen, ob uns diese Institution bekannt ist. Auf diese Weise können wir genauere und aktuellere Listen kommerzieller Organisationen erstellen.

Bild
Das System hat den Geschäftsnamen trotz fehlender Informationen über den Standort des Geschäfts korrekt als "Zelina Pneus" erkannt. Sie ignorierte auch die Namen der Reifenmarken, die im Laden verkauft wurden.

Die Verwendung dieser großen Modelle für 80 Milliarden Street View-Bilder erfordert erhebliche Rechenleistung. Daher war das Ground Truth-Team das erste, das Zugang zur Tensor Processing Unit erhielt , die in diesem Jahr angekündigt wurde, um die Rechenkosten drastisch zu senken.

Menschen verlassen sich auf die Genauigkeit von Google Maps und ihre Fähigkeit, Menschen zu helfen. Wir halten Google Maps im Umgang mit sich ständig ändernden Stadtlandschaften auf dem neuesten Stand. Straßen und Gewerbebetriebe stellen uns vor technische Schwierigkeiten, die wir noch nicht zu 100% überwinden konnten. Die Mission von Ground Truth ist es, beim maschinellen Lernen an vorderster Front zu stehen und ein bequemeres Produkt für mehr als eine Milliarde Google Maps-Nutzer zu entwickeln.

Source: https://habr.com/ru/post/de404031/


All Articles