Setiap hari Google Maps membangun rute yang bermanfaat, memberikan informasi tentang kemacetan lalu lintas dan organisasi komersial untuk jutaan orang. Agar pengguna kami merasa lebih nyaman, informasi ini harus mencerminkan dunia yang selalu berubah secara real time. Mobil Street View mengumpulkan jutaan gambar setiap hari, dan mustahil untuk menganalisis secara manual lebih dari 80 miliar gambar beresolusi tinggi yang dikumpulkan hari ini untuk menemukan informasi baru atau yang diperbarui yang cocok untuk penempatan di Google Maps. Salah satu tujuan dari tim Kebenaran Tanah adalah untuk secara otomatis mengekstraksi informasi dari gambar yang direferensikan secara geografis untuk meningkatkan Google Maps.
Dalam makalah โ
Mengekstraksi informasi terstruktur dari basis data gambar Street View menggunakan algoritme perhatian โ, kami menggambarkan pendekatan kami terhadap pengenalan otomatis yang akurat atas nama jalan dalam foto Street View yang sangat kompleks dari berbagai negara menggunakan jaringan saraf yang dalam. Algoritma kami menunjukkan akurasi 84,2% pada dataset
French Street Name Signs (FSNS) yang kompleks, dan jauh di depan para pemimpin sebelumnya di bidang ini. Yang penting, sistem kami mudah berkembang untuk mengekstraksi jenis informasi lain dari foto Street View, dan sekarang ini membantu kami secara otomatis mengenali tanda-tanda perusahaan komersial. Dan kami senang mengumumkan bahwa model ini
ada dalam domain publik !
Contoh nama jalan yang berhasil dikenali oleh sistem. Satu dan tanda yang sama dapat diwakili oleh beberapa foto, hingga 4 buah.Mengenali teks dalam lingkungan alami adalah tugas yang sulit untuk visi komputer dan pembelajaran mesin.
Sistem pengenalan karakter tradisional (OCR) mengekstraksi teks dari dokumen yang dipindai, dan teks yang diperoleh dari foto jalanan lebih sulit dikenali karena artefak visual - distorsi, obstruksi, buram, latar belakang kompleks, atau sudut pandang yang berbeda. Upaya kami untuk menyelesaikan masalah penelitian ini dimulai pada 2008, ketika kami
menggunakan jaringan saraf untuk mengaburkan wajah dan plat nomor untuk melindungi privasi pengguna kami. Setelah penelitian ini, kami menyadari bahwa dengan sejumlah besar data yang ditandai, kami dapat menggunakan pembelajaran mesin tidak hanya untuk melindungi privasi pengguna, tetapi juga untuk menambahkan informasi baru ke Google Maps.
Pada tahun 2014, tim Ground Truth menerbitkan dataset
Street View House Numbers (SVHN),
metode pengenalan nomor rumah lanjutan yang dijalankan oleh seorang mahasiswa, yang sekarang adalah karyawan Google,
Jan Goodfellow . Karya ini tidak hanya untuk kepentingan akademis, tetapi juga penting untuk meningkatkan akurasi Google Maps. Saat ini, sekitar sepertiga dari lokasi di seluruh dunia diperbaiki berkat sistem ini. Di beberapa negara, seperti Brasil, algoritme ini menentukan lokasi lebih dari 90% alamat di Google Maps, yang sangat meningkatkan kegunaan peta kami.
Langkah logis berikutnya adalah mentransfer teknik-teknik ini ke nama jalan. Untuk mengatasi masalah ini, kami membuat dan merilis dataset
French Street Name Signs (FSNS), satu set besar dengan lebih dari satu juta nama jalan. Rangkaian FSNS adalah hasil dari kerja bertahun-tahun yang bertujuan memberi semua orang kesempatan untuk meningkatkan model OCR mereka pada set data yang kompleks dan nyata. FSNS jauh lebih besar dan lebih kompleks daripada SVHN, karena pengenalan nama jalan yang akurat membutuhkan penggabungan informasi dari beberapa gambar yang berbeda.
Contoh karakter yang sulit dikenali yang berhasil dikenali oleh sistem kami menggunakan kombinasi gambar yang berbeda. Kebisingan acak digunakan ketika tidak ada empat foto berbeda untuk satu karakter.Dipersenjatai dengan kit ini, intern Google Vozhna Zbigniew telah mengembangkan model pembelajaran yang mendalam untuk secara otomatis menandai gambar Street View sepanjang musim panas 2016. Salah satu fitur menarik dan berguna dari model baru adalah kemampuan untuk menormalkan teks sesuai dengan standar kami untuk judul, serta mengabaikan kelebihan teks yang diterima dari gambar.
Contoh normalisasi teks menurut data Brasil. "AV." Berubah menjadi "Avenida" dan "Pres." dalam "Presidente"
Dalam contoh ini, model tidak padam, setelah bertemu dua tanda sekaligus, benar mengubah "Av" menjadi "Avenue" dan dengan benar mengabaikan angka "1600".Sistem baru, dikombinasikan dengan ekstraksi nomor rumah, memungkinkan kita untuk membuat alamat baru langsung dari foto di tempat-tempat di mana tidak ada nama jalan atau alamat yang dikenal. Sekarang setiap kali mobil Street View melaju di sepanjang jalan baru, sistem kami dapat menganalisis puluhan ribu gambar yang diterima oleh mesin, mengekstrak nama jalan dan nomor rumah, dan memetakan alamat baru dengan benar.
Tetapi pembuatan alamat secara otomatis tidak cukup - kami masih ingin memberikan rute ke organisasi komersial dengan nama mereka. Pada 2015, kami menerbitkan karya โ
Pengakuan Skala Besar terhadap Organisasi Komersial dari Street View Photos, โ yang mengusulkan metode untuk mengenali signage komersial secara akurat. Namun, setelah showcase organisasi ditemukan, masih perlu untuk mengekstrak namanya secara akurat - model harus mencari tahu di mana nama ditunjukkan dalam foto dan di mana teks yang tidak terkait dengannya. Kami menyebut informasi yang diekstrak ini "teks terstruktur." Dan ini bukan hanya teks, tetapi teks dikombinasikan dengan makna semantiknya.
Dengan menggunakan berbagai data pelatihan, kita dapat memaksa model kita, yang bertuliskan nama jalan, untuk mengekstraksi nama perusahaan komersial dari fasad bangunan. Dalam hal ini, kami dapat mengekstrak namanya dan memeriksa apakah kami mengetahui lembaga ini dari informasi dari Google Maps. Ini memungkinkan kami untuk membuat daftar organisasi komersial yang lebih akurat dan terkini.
Sistem dengan benar mengenali nama toko sebagai 'Zelina Pneus', meskipun kurangnya informasi tentang lokasi toko. Dia juga dengan benar mengabaikan nama-nama merek ban yang dijual di toko.Penggunaan model besar ini untuk 80 miliar gambar Street View membutuhkan daya pemrosesan yang serius. Oleh karena itu, tim Ground Truth adalah yang pertama mendapatkan akses ke
Tensor Processing Unit , yang diumumkan tahun ini, untuk secara dramatis mengurangi biaya komputasi.
Orang-orang mengandalkan keakuratan Google Maps dan kemampuan mereka untuk membantu orang. Kami terus memperbarui Google Maps dalam menangani lanskap kota yang terus berubah. Jalan dan perusahaan komersial menghadirkan kesulitan teknis bagi kami yang belum dapat kami atasi 100%. Misi Ground Truth adalah menjadi yang terdepan dalam pembelajaran mesin dan menciptakan produk yang lebih nyaman bagi lebih dari satu miliar pengguna Google Maps.