Atualização do Google Maps por meio do aprendizado aprofundado e do Street View

Todos os dias o Google Maps cria rotas úteis, fornece informações sobre engarrafamentos e organizações comerciais para milhões de pessoas. Para que nossos usuários se sintam mais confortáveis, essas informações devem refletir o mundo em constante mudança em tempo real. Os carros do Street View coletam milhões de imagens diariamente, e é impossível analisar manualmente mais de 80 bilhões de imagens de alta resolução coletadas hoje para encontrar informações novas ou atualizadas, adequadas para posicionamento no Google Maps. Um dos objetivos da equipe do Ground Truth é extrair automaticamente informações de imagens georreferenciadas para aprimorar o Google Maps.

No artigo “ Extraindo informações estruturadas do banco de dados de imagens do Street View usando algoritmos de atenção ”, descrevemos nossa abordagem para o reconhecimento automático preciso de nomes de ruas em fotografias muito complexas do Street View de diferentes países usando uma rede neural profunda. Nosso algoritmo mostrou uma precisão de 84,2% no complexo conjunto de dados French Street Name Signs (FSNS) e estava bem à frente dos líderes anteriores nessa área. O que é importante: nosso sistema pode ser facilmente dimensionado para extrair outros tipos de informações das fotos do Street View e agora nos ajuda a reconhecer automaticamente sinais de empresas comerciais. E temos o prazer de anunciar que esse modelo é de domínio público !

imagem
Um exemplo de nome de rua que um sistema reconheceu com sucesso Um e o mesmo sinal podem ser representados por várias fotos, até 4 peças.

O reconhecimento de texto em um ambiente natural é uma tarefa difícil para visão computacional e aprendizado de máquina. Os sistemas tradicionais de reconhecimento de caracteres (OCR) extraem texto de documentos digitalizados, e o texto obtido de fotos de rua é mais difícil de reconhecer devido a artefatos visuais - distorção, obstrução, desfoque, fundo complexo ou pontos de vista diferentes. Nossas tentativas de resolver esses problemas de pesquisa começaram em 2008, quando usamos redes neurais para desfocar rostos e placas de carros para proteger a privacidade de nossos usuários. Após este estudo, percebemos que, com uma quantidade suficientemente grande de dados marcados, podemos usar o aprendizado de máquina não apenas para proteger a privacidade dos usuários, mas também para adicionar novas informações ao Google Maps.

Em 2014, a equipe do Ground Truth publicou o conjunto de dados Street View House Numbers (SVHN), um método avançado de reconhecimento de número de residências que foi executado por Jan Goodfellow, então estudante, agora funcionário do Google. Este trabalho não era apenas de interesse acadêmico, mas era fundamental para melhorar a precisão do Google Maps. Hoje, aproximadamente um terço dos locais em todo o mundo foram aprimorados graças a este sistema. Em alguns países, como o Brasil, esse algoritmo especificou a localização de mais de 90% dos endereços no Google Maps, o que aprimorou bastante a usabilidade de nossos mapas.

O próximo passo lógico foi transferir essas técnicas para nomes de ruas. Para resolver esse problema, criamos e lançamos o conjunto de dados French Street Name Signs (FSNS), um grande conjunto com mais de um milhão de nomes de ruas. O conjunto FSNS foi o resultado de muitos anos de trabalho que visam proporcionar a todos a oportunidade de melhorar seus modelos de OCR em um conjunto de dados complexo e real. O FSNS é muito maior e mais complexo que o SVHN, porque o reconhecimento preciso do nome da rua requer a combinação de informações de várias imagens diferentes.

imagem
Exemplos de caracteres difíceis de reconhecer que nosso sistema reconheceu com sucesso usando uma combinação de imagens diferentes. O ruído aleatório é usado quando não há quatro fotografias diferentes para um único caractere.

Armado com este kit, a estagiária do Google, Vozhna Zbigniew, desenvolveu um modelo de aprendizado profundo para marcar automaticamente as imagens do Street View durante todo o verão de 2016. Um dos recursos interessantes e úteis do novo modelo é a capacidade de normalizar o texto de acordo com nossos padrões de títulos, além de ignorar o excesso de texto recebido das imagens.

imagem
Um exemplo de normalização de texto de acordo com dados brasileiros. "AV". Se transforma em "Avenida" e "Pres". em "Presidente"

imagem
Neste exemplo, o modelo não se apaga, tendo encontrado dois sinais ao mesmo tempo, transforma corretamente "Av" em "Avenida" e ignora corretamente o número "1600".

O novo sistema, combinado à extração de números de casas, permite criar novos endereços diretamente de fotografias em locais onde não havia nome ou endereço de rua conhecido. Agora, sempre que um carro do Street View dirige por uma nova estrada, nosso sistema pode analisar dezenas de milhares de imagens recebidas pela máquina, extrair nomes de ruas e números de casas e mapear corretamente novos endereços.

Mas a criação automática de endereços não é suficiente - ainda queremos fornecer um caminho para as organizações comerciais pelo nome. Em 2015, publicamos o trabalho “ Reconhecimento em larga escala de organizações comerciais a partir do Street View Photos, que propunha um método para reconhecer com precisão as sinalizações de estabelecimentos comerciais. No entanto, após a descoberta da vitrine da organização, ainda é necessário extrair seu nome com precisão - o modelo deve descobrir onde o nome é indicado na foto e onde o texto não está relacionado a ela. Chamamos essas informações extraídas de "texto estruturado". E isso não é apenas texto, mas texto combinado com seu significado semântico.

Usando vários dados de treinamento, podemos forçar nosso modelo, que lê o nome das ruas, a extrair os nomes de estabelecimentos comerciais das fachadas dos edifícios. Nesse caso, poderíamos extrair o nome e verificar se conhecemos essa instituição a partir de informações do Google Maps. Isso nos permite criar listas mais precisas e atualizadas de organizações comerciais.

imagem
O sistema reconheceu corretamente o nome da loja como 'Zelina Pneus', apesar da falta de informações sobre a localização da loja. Ela também ignorou corretamente os nomes das marcas de pneus vendidas na loja.

O uso desses modelos grandes para 80 bilhões de imagens do Street View requer um grande poder de processamento. Portanto, a equipe Ground Truth foi a primeira a obter acesso à Unidade de Processamento de Tensores , anunciada este ano, para reduzir drasticamente os custos de computação.

As pessoas confiam na precisão do Google Maps e em sua capacidade de ajudar as pessoas. Mantemos o Google Maps atualizado ao lidar com paisagens urbanas em constante mudança. Estradas e estabelecimentos comerciais apresentam dificuldades técnicas para nós que ainda não conseguimos superar 100%. A missão da Ground Truth é estar na vanguarda do aprendizado de máquina e criar um produto mais conveniente para mais de um bilhão de usuários do Google Maps.

Source: https://habr.com/ru/post/pt404031/


All Articles