Chaque jour, Google Maps crée des itinéraires utiles, fournit des informations sur les embouteillages et les organisations commerciales à des millions de personnes. Pour que nos utilisateurs soient plus à l'aise, ces informations doivent refléter le monde en constante évolution en temps réel. Les voitures Street View collectent des millions d'images quotidiennement, et il est impossible d'analyser manuellement les plus de 80 milliards d'images haute résolution collectées aujourd'hui pour trouver des informations nouvelles ou mises à jour pouvant être placées sur Google Maps. L'un des objectifs de l'équipe Ground Truth est d'extraire automatiquement des informations à partir d'images géoréférencées pour améliorer Google Maps.
Dans l'article «
Extraire des informations structurées de la base de données d'images Street View à l'aide d'algorithmes d'attention », nous avons décrit notre approche de la reconnaissance automatique précise des noms de rue dans des photographies Street View très complexes de différents pays à l'aide d'un réseau neuronal profond. Notre algorithme a montré une précision de 84,2% sur l'ensemble de données FSNS (
French Street Name Signs ) complexes, et était bien en avance sur les précédents leaders dans ce domaine. Ce qui est important, notre système évolue facilement pour extraire d'autres types d'informations à partir de photos Street View, et maintenant il nous aide à reconnaître automatiquement les signes d'entreprises commerciales. Et nous sommes heureux d'annoncer que ce modèle
est dans le domaine public !
Un exemple de nom de rue reconnu avec succès par le système. Un même panneau peut être représenté par plusieurs photos, jusqu'à 4 pièces.La reconnaissance de texte dans un environnement naturel est une tâche difficile pour la vision par ordinateur et l'apprentissage automatique. Les
systèmes de reconnaissance de caractères traditionnels (OCR) extraient le texte des documents numérisés et le texte obtenu à partir des photos de rue est plus difficile à reconnaître en raison d'artefacts visuels - distorsion, obstruction, flou, arrière-plan complexe ou différents points de vue. Nos tentatives pour résoudre ces problèmes de recherche ont commencé en 2008, lorsque nous avons
utilisé des réseaux de neurones pour brouiller les visages et les plaques d'
immatriculation afin de protéger la vie privée de nos utilisateurs. Après cette étude, nous avons réalisé qu'avec une quantité suffisamment importante de données balisées, nous pouvons utiliser l'apprentissage automatique non seulement pour protéger la confidentialité des utilisateurs, mais également pour ajouter de nouvelles informations à Google Maps.
En 2014, l'équipe de Ground Truth a publié le jeu de données
Street View House Numbers (SVHN), une
méthode avancée de reconnaissance des numéros de maison qui était exécutée par
Jan Goodfellow , alors étudiant, alors employé de Google. Ce travail était non seulement d'intérêt académique, mais était essentiel pour améliorer la précision de Google Maps. Aujourd'hui, environ un tiers des sites dans le monde sont améliorés grâce à ce système. Dans certains pays, comme le Brésil, cet algorithme a spécifié l'emplacement de plus de 90% des adresses sur Google Maps, ce qui a considérablement amélioré la convivialité de nos cartes.
La prochaine étape logique était de transférer ces techniques aux noms de rue. Pour résoudre ce problème, nous avons créé et publié le jeu de données
French Street Name Signs (FSNS), un grand ensemble avec plus d'un million de noms de rue. L'ensemble FSNS est le résultat de nombreuses années de travail visant à fournir à chacun la possibilité d'améliorer ses modèles OCR sur un ensemble de données complexe et réel. FSNS est beaucoup plus grand et plus complexe que SVHN, car la reconnaissance précise du nom de rue nécessite de combiner les informations de plusieurs images différentes.
Exemples de caractères difficiles à reconnaître que notre système a réussi à reconnaître en utilisant une combinaison d'images différentes. Le bruit aléatoire est utilisé lorsqu'il n'y a pas quatre photographies différentes pour un seul caractère.Armé de ce kit, la stagiaire Google Vozhna Zbigniew a développé un modèle d'apprentissage en profondeur pour marquer automatiquement les images Street View tout l'été 2016. L'une des caractéristiques intéressantes et utiles du nouveau modèle est la possibilité de normaliser le texte selon nos normes pour les titres, ainsi que d'ignorer le texte en excès reçu des images.
Un exemple de normalisation de texte selon les données brésiliennes. "AV." Se transforme en «Avenida» et «Pres». dans «Presidente»
Dans cet exemple, le modèle n'est pas éteint, après avoir rencontré deux signes à la fois, transforme correctement «Av» en «Avenue» et ignore correctement le nombre «1600».Le nouveau système, combiné à l'extraction des numéros de maison, nous permet de créer de nouvelles adresses directement à partir de photographies dans des endroits où il n'y avait pas de nom de rue ou d'adresse connus. Désormais, chaque fois qu'une voiture Street View roule sur une nouvelle route, notre système est capable d'analyser des dizaines de milliers d'images reçues par la machine, d'extraire des noms de rues et des numéros de maison et de cartographier correctement de nouvelles adresses.
Mais la création automatique d'adresses ne suffit pas - nous voulons toujours fournir un itinéraire aux organisations commerciales par leur nom. En 2015, nous avons publié l'ouvrage «
Reconnaissance à grande échelle des organisations commerciales à partir de photos Street View », qui proposait une méthode pour reconnaître avec précision la signalisation des établissements commerciaux. Cependant, après la découverte de la vitrine de l'organisation, il est toujours nécessaire d'extraire avec précision son nom - le modèle doit déterminer où le nom est indiqué sur la photo et où le texte ne lui est pas lié. Nous appelons cette information extraite «texte structuré». Et ce n'est pas seulement du texte, mais du texte combiné avec sa signification sémantique.
À l'aide de diverses données de formation, nous pouvons forcer notre modèle, qui lit le nom des rues, à extraire les noms des établissements commerciaux des façades des bâtiments. Dans ce cas, nous pourrions extraire le nom et vérifier si nous connaissons cette institution à partir des informations de Google Maps. Cela nous permet de faire des listes plus précises et à jour des organisations commerciales.
Le système a correctement reconnu le nom du magasin comme «Zelina Pneus», malgré le manque d'informations sur l'emplacement du magasin. Elle a également ignoré correctement les noms des marques de pneus vendues au magasin.L'utilisation de ces grands modèles pour 80 milliards d'images Street View nécessite une puissance de traitement importante. Par conséquent, l'équipe de Ground Truth a été la première à avoir accès à l'
unité de traitement des tenseurs , qui a été annoncée cette année, afin de réduire considérablement les coûts informatiques.
Les gens comptent sur la précision de Google Maps et leur capacité à aider les gens. Nous tenons Google Maps à jour pour gérer les paysages urbains en constante évolution. Les routes et les établissements commerciaux présentent pour nous des difficultés techniques que nous n'avons pas encore pu surmonter à 100%. La mission de Ground Truth est d'être à la pointe de l'apprentissage automatique et de créer un produit plus pratique pour plus d'un milliard d'utilisateurs de Google Maps.