O Google mostrou uma rede neural capaz de reconhecer um país a partir de uma fotografia (além de cidade e rua), mesmo que a fotografia tenha sido tirada em uma casa

É fácil descobrir onde a foto é tirada se a Torre Eiffel, o Taj Mahal, a Basílica de São Pedro, o Lincoln Memorial ou a Praça Vermelha estiverem em segundo plano. Os desenvolvedores do Google foram além e criaram uma rede neural capaz de reconhecer um local a partir de uma fotografia, mesmo que ela tenha sido tirada dentro de casa.

imagem

As pessoas podem usar não apenas as vistas para entender onde a foto é tirada. O local pode ser determinado pelo prato no restaurante, na direção do trânsito, pela vaca na rua, a arquitetura dos prédios e a combinação de todos esses fatores. E do que o carro é capaz? Os desenvolvedores de

tecnologia PlaNet dividiram a maior parte da terra em 26.000 zonas de vários tamanhos, dependendo do número de fotografias tiradas em uma área específica. As grandes cidades obtiveram mais "células", porque mais fotos foram tiradas nelas, enquanto nas áreas rurais as "células" eram maiores. Mares, oceanos e zonas polares já passaram.

imagem

Um banco de dados de 126 milhões de fotos da Internet foi usado junto com seus dados EXIF. 91 milhões de fotografias foram usadas para treinar a rede neural e os 34 milhões restantes foram usados ​​para avaliar seu trabalho.

Para verificar a eficácia da rede neural, foram utilizados 2,3 milhões de imagens geo-direcionadas do Flickr. 3,6% das imagens que o PlaNet reconheceu com precisão na rua, 10% - com precisão na cidade. O país identificou a rede neural em 28,4% dos casos e o continente - em 48%.

Esse resultado foi comparado com as capacidades de uma dúzia de viajantes usando o jogo GeoGuessr.com , no qual você adivinha o local no Google Street View. O PlaNet venceu as pessoas com um erro médio de 1.131,7 quilômetros. As pessoas estavam enganadas a uma média de 2.320,75 quilômetros.

Segundo um dos principais pesquisadores, Tobias Weyand, a vantagem da máquina é que a rede neural "via" muito mais do que qualquer pessoa viva que viajou pelo mundo toda a sua vida.

Os desenvolvedores foram além e começaram a trabalhar com fotografias tiradas nas instalações. Você pode reconhecê-los nos casos em que a foto faz parte de um álbum - a máquina escaneia os álbuns completamente e procura as imagens mais específicas tiradas no mesmo local.

A própria rede neural ocupa apenas 377 megabytes.

Source: https://habr.com/ru/post/pt390903/


All Articles