Todos los días, Google Maps crea rutas útiles, proporciona información sobre embotellamientos y organizaciones comerciales para millones de personas. Para que nuestros usuarios se sientan más cómodos, esta información debe reflejar el mundo en constante cambio en tiempo real. Los autos de Street View recopilan millones de imágenes diariamente, y es imposible analizar manualmente más de 80 mil millones de imágenes de alta resolución recopiladas hoy para encontrar información nueva o actualizada adecuada para su colocación en Google Maps. Uno de los objetivos del equipo de Ground Truth es extraer automáticamente información de imágenes georreferenciadas para mejorar Google Maps.
En el documento "
Extracción de información estructurada de la base de datos de imágenes de Street View utilizando algoritmos de atención ", describimos nuestro enfoque para el reconocimiento automático preciso de nombres de calles en fotografías muy complejas de Street View de diferentes países utilizando una red neuronal profunda. Nuestro algoritmo mostró una precisión del 84,2% en el complejo conjunto de datos de
signos de nombre de calle francés (FSNS), y estaba muy por delante de los líderes anteriores en esta área. Lo que es importante, nuestro sistema se escala fácilmente para extraer otro tipo de información de las fotos de Street View, y ahora nos ayuda a reconocer automáticamente los signos de las empresas comerciales. ¡Y nos complace anunciar que este modelo
es de dominio público !
Un ejemplo de un nombre de calle reconocido con éxito por el sistema. El mismo signo se puede representar con varias fotos, hasta 4 piezas.Reconocer el texto en un entorno natural es una tarea difícil para la visión por computadora y el aprendizaje automático. Los
sistemas tradicionales de
reconocimiento de caracteres (OCR) extraen texto de documentos escaneados, y el texto obtenido de las fotos de la calle es más difícil de reconocer debido a los artefactos visuales: distorsión, obstrucción, desenfoque, fondo complejo o diferentes puntos de vista. Nuestros intentos de resolver estos problemas de investigación comenzaron en 2008, cuando utilizamos
redes neuronales para difuminar rostros y placas para proteger la privacidad de nuestros usuarios. Después de este estudio, nos dimos cuenta de que con una cantidad suficientemente grande de datos etiquetados, podemos usar el aprendizaje automático no solo para proteger la privacidad de los usuarios, sino también para agregar información nueva a Google Maps.
En 2014, el equipo de Ground Truth publicó el conjunto de datos de
Street View House Numbers (SVHN), un
método avanzado de reconocimiento de número de casa que fue administrado por un entonces estudiante, ahora empleado de Google,
Jan Goodfellow . Este trabajo no solo fue de interés académico, sino que fue fundamental para mejorar la precisión de Google Maps. Hoy, aproximadamente un tercio de las ubicaciones en todo el mundo han mejorado gracias a este sistema. En algunos países, como Brasil, este algoritmo especificó la ubicación de más del 90% de las direcciones en Google Maps, lo que mejoró enormemente la usabilidad de nuestros mapas.
El siguiente paso lógico fue transferir estas técnicas a los nombres de las calles. Para resolver este problema, creamos y lanzamos el conjunto de datos de
signos de nombre de calle francés (FSNS), un conjunto grande con más de un millón de nombres de calles. El conjunto FSNS fue el resultado de muchos años de trabajo destinado a proporcionar a todos la oportunidad de mejorar sus modelos de OCR en un conjunto de datos complejo y real. El FSNS es mucho más grande y complejo que el SVHN, porque el reconocimiento preciso del nombre de la calle requiere combinar información de varias imágenes diferentes.
Ejemplos de caracteres difíciles de reconocer que nuestro sistema ha reconocido con éxito utilizando una combinación de diferentes imágenes. El ruido aleatorio se usa cuando no hay cuatro fotografías diferentes para un solo personaje.Armado con este kit, el pasante de Google Vozhna Zbigniew ha estado desarrollando un modelo de aprendizaje profundo para marcar automáticamente las imágenes de Street View durante todo el verano de 2016. Una de las características interesantes y útiles del nuevo modelo es la capacidad de normalizar el texto de acuerdo con nuestros estándares para títulos, así como ignorar el exceso de texto recibido de las imágenes.
Un ejemplo de normalización de texto según datos brasileños. "AV". Se convierte en "Avenida" y "Pres". en "Presidente"
En este ejemplo, el modelo no se extingue, al encontrar dos signos a la vez, convierte correctamente "Av" en "Avenida" e ignora correctamente el número "1600".El nuevo sistema, combinado con la extracción de números de casas, nos permite crear nuevas direcciones directamente a partir de fotografías en lugares donde no se conocía el nombre o la dirección de la calle. Ahora, cada vez que un automóvil de Street View conduce por una nueva carretera, nuestro sistema puede analizar decenas de miles de imágenes recibidas por la máquina, extraer nombres de calles y números de casas, y asignar correctamente nuevas direcciones.
Pero la creación automática de direcciones no es suficiente: aún queremos proporcionar una ruta a las organizaciones comerciales por su nombre. En 2015, publicamos el trabajo "
Reconocimiento a gran escala de organizaciones comerciales de Street View Photos "
, que proponía un método para reconocer con precisión la señalización de los establecimientos comerciales. Sin embargo, una vez que se ha descubierto el escaparate de la organización, aún es necesario extraer con precisión su nombre: el modelo debe averiguar dónde se indica el nombre en la foto y dónde está el texto no relacionado con él. Llamamos a esta información extraída "texto estructurado". Y esto no es solo texto, sino texto combinado con su significado semántico.
Usando varios datos de entrenamiento, podemos forzar a nuestro modelo, que lee el nombre de las calles, a extraer los nombres de los establecimientos comerciales de las fachadas de los edificios. En este caso, podríamos extraer el nombre y verificar si conocemos esta institución de la información de Google Maps. Esto nos permite hacer listas de organizaciones comerciales más precisas y actualizadas.
El sistema reconoció correctamente el nombre de la tienda como 'Zelina Pneus', a pesar de la falta de información sobre la ubicación de la tienda. También ignoró correctamente los nombres de las marcas de neumáticos que se venden en la tienda.El uso de estos modelos grandes para 80 mil millones de imágenes de Street View requiere una gran potencia de procesamiento. Por lo tanto, el equipo de Ground Truth fue el primero en obtener acceso a la
Unidad de Procesamiento de Tensor , que se anunció este año, para reducir drásticamente los costos informáticos.
Las personas confían en la precisión de Google Maps y su capacidad para ayudar a las personas. Mantenemos actualizado Google Maps para lidiar con paisajes urbanos en constante cambio. Las carreteras y los establecimientos comerciales presentan dificultades técnicas para nosotros que aún no hemos podido superar al 100%. La misión de Ground Truth es estar a la vanguardia del aprendizaje automático y crear un producto más conveniente para más de mil millones de usuarios de Google Maps.