
Upaya untuk mengajarkan berbagai sistem untuk melihat dan memahami dunia seperti yang dilakukan seseorang, dimulai beberapa dekade yang lalu, tetapi sekarang teknologi ini telah menjadi sangat sempurna sehingga mereka digunakan secara aktif di banyak bidang kehidupan kita. HabrΓ© sudah memiliki artikel terperinci tentang visi mesin, jaringan saraf, dan algoritme pengenalan, jadi kami tidak akan membahas lebih dalam dan menggambarkan teknologi kompleks ini, kami akan berbicara tentang penggunaan praktis sistem ini di dunia nyata.
Bagaimana cara kerjanya? Secara singkat
Apa itu fotografi bagi kami, untuk sistem pengenalan gambar, hanyalah sekumpulan piksel dengan parameter warna berbeda. Untuk mengajarkan sistem mengenali objek individual dalam suatu gambar, Anda harus memberinya set data - satu set ribuan gambar yang menunjukkan dengan tepat di mana objek yang diinginkan berada. Misalnya, jika kita ingin sistem belajar mengenali orang dalam gambar, kita perlu menunjukkannya banyak foto orang dari berbagai usia, dalam berbagai pose dan pakaian, dalam kondisi yang berbeda. Setelah pelatihan seperti itu, sistem akan dapat mengenali orang tersebut secara akurat dalam foto. Namun, pertanyaan lain muncul: jika untuk suatu sistem, foto hanyalah kumpulan piksel, lalu bagaimana jaringan saraf memahami apa yang sebenarnya digambarkan dalam foto?
Berbagai metode digunakan untuk mengenali objek dalam gambar, tetapi salah satu metode yang paling menjanjikan adalah metode histogram gradien berorientasi (HOG). Gambar dihitamkan, dan kemudian dalam blok 16x16 piksel sistem menemukan arah perubahan warna (vektor gradien), membangun peta vektor-vektor ini di atas seluruh gambar, dan dengan demikian "membidik" tanda-tanda objek, yang tidak berubah tergantung pada posisi / posisi dan pencahayaan. Versi yang ditingkatkan dari algoritma ini disebut CoHOG - memperhitungkan batas-batas objek, yaitu, mengenali bentuk, dan bukan hanya vektor gradien.
Toshiba telah meningkatkan metode CoHOG, secara signifikan meningkatkan pengenalan dalam cahaya rendah - CoHOG tradisional, misalnya, buruk dalam pengakuan cepat dalam gelap, ketika pejalan kaki sulit terlihat di lampu depan.
Metode ECoHOG (teknologi histogram gabungan keberadaan gradien berorientasi) menentukan seseorang melalui analisis tambahan tentang arah dan ukuran garis besarnya, menemukan kepala, kaki, lengan, bahu. Jika CoHOG hanya mengisolasi garis antropometrik pada gambar (analisis "batas objek - vektor batas"), maka untuk ECoHOG dimensi batas objek relatif satu sama lain adalah penting.
Lima bidang aplikasi utama
Pemasaran
Pengenalan pola adalah bidang yang menjanjikan dalam periklanan dan pemasaran. Jaringan saraf diizinkan untuk mempelajari hal-hal dalam hitungan jam, yang dalam kasus lain membutuhkan tim profesional yang besar dan berminggu-minggu, atau bahkan berbulan-bulan penelitian, untuk menemukannya. Misalnya, layanan Rusia YouScan, sistem pemantauan media sosial, melacak penyebutan merek di jejaring sosial. Selain itu, ia melakukan ini tidak hanya dalam teks posting, tetapi juga dalam foto, dan juga membantu menarik kesimpulan tertentu tentang produk. Dengan bantuan pengenalan pola, sebuah
pola menarik ditemukan di foto, pencarian yang tidak akan pernah terjadi pada siapa pun: di antara hewan, kucing lebih sering ditemukan dengan teknologi Apple, dan anjing dengan merek Adidas. Informasi yang tidak biasa ini dapat bermanfaat untuk penargetan iklan.
Saat mencari logo Adidas, layanan YouScan memfilter foto dengan smartphone di tangan pemilik. Hak Cipta: YouScanPengawasan video
Pengenalan pola pada kamera pengintai perkotaan mungkin merupakan prospek yang paling tidak terhindarkan dalam menggunakan visi mesin. Sejak 2017, sistem pengawasan video pintar telah diuji di Moskow untuk mengidentifikasi penjahat di tempat-tempat ramai. Teknologi dari perusahaan Rusia NTechLab, yang telah membantu menahan beberapa pelaku, terhubung ke jaringan kamera kota. Di Cina, sistem
pengawasan video semacam itu mampu mengenali tidak hanya wajah, tetapi juga merek mobil dan pakaian di depan umum, yang selanjutnya dapat digunakan oleh pemasar untuk penelitian mereka.
Video ini menunjukkan karya nyata dari pengenalan gambar dan wajah SenseTimeObat-obatan
Pengenalan pola telah menjadi terobosan nyata dalam dunia kedokteran - dalam banyak kasus, komputer memperhatikan hal-hal yang bahkan dokter paling berpengalaman pun lewatkan. Mereka bertindak sebagai asisten khusus, yang pendapat "teknis" -nya menegaskan hipotesis dokter atau memunculkan penelitian yang lebih mendalam.
Di Rusia, pengembangan sistem perangkat lunak untuk diagnosis kanker pada gambar CT, MRI dan PET sedang berlangsung. Untuk melakukan ini, ribuan gambar yang ditandai didorong melalui jaringan saraf, setelah itu akurasi pengenalan gambar baru meningkat menjadi 95-97%. Antara lain, pengembangan platform semacam itu dilakukan oleh Departemen Teknologi Informasi Moskow, menggunakan perpustakaan terbuka Google TensorFlow.
Jaringan saraf Inception yang dibuat Google menganalisis pemeriksaan mikroskopis biopsi kelenjar getah bening untuk mencari sel kanker di kelenjar susu. Bagi seseorang, ini adalah proses yang sangat panjang dan melelahkan, di mana mudah untuk membuat kesalahan atau kehilangan sesuatu yang penting, karena dalam beberapa kasus ukuran gambar adalah 100.000 x 100.000 piksel. Jaringan saraf Inception memberikan sensitivitas sekitar 92% berbanding 72% di dokter. Jaringan saraf tidak akan melupakan semua area gambar yang mencurigakan, meskipun alarm palsu diizinkan, yang kemudian akan disaring dokter.
Mobil
Pengenalan objek dalam mobil adalah bagian penting dari sistem keamanan ADAS (sistem bantuan pengemudi tingkat lanjut). ADAS dapat diimplementasikan dengan alat-alat canggih, seperti radar dan sensor inframerah, atau dengan kamera bermata satu. Dalam
artikel sebelumnya, kami sudah mengatakan bahwa satu kamera video cukup untuk sebuah mobil mengenali pejalan kaki, rambu-rambu dan lampu lalu lintas secara real time. Namun, pengakuan "on the fly" semacam itu adalah tugas yang sangat intensif sumber daya, yang membutuhkan prosesor khusus. Toshiba telah mengembangkan serangkaian prosesor selama beberapa tahun. Mereka membangun model tiga dimensi berdasarkan gambar bergerak dari satu kamera, dan dengan demikian melihat hambatan yang tidak diketahui di jalan. Memang, jika jaringan saraf dilatih untuk mengenali hanya orang, tanda dan tanda, maka ban atau sepotong pagar yang tergeletak di aspal tidak akan dikenali dan dianggap sebagai bahaya.
Prosesor Visconti mengidentifikasi zona dalam gambar, mengklasifikasikannya, dan membantu autopilot atau ADAS membuat keputusan. Sumber: ToshibaDrone
Dalam drone, pengenalan objek digunakan untuk tujuan hiburan dan ilmiah. Pada 2015, banyak suara dibuat oleh drone Lily dengan start mesin otomatis saat melempar dan melacak fungsi untuk pemiliknya. Lily mengarahkan lensa ke pemiliknya, terlepas dari lintasan dan kecepatan gerakannya. Benar, fungsi Lily ini tidak ada hubungannya dengan pengenalan pola, karena drone tidak hanya menonton gambar seseorang, tetapi panel kontrol, yang diletakkan di tangan pemilik.
Drone pengenalan gambar juga digunakan untuk hal-hal yang lebih serius. Misalnya, perusahaan Norwegia eSmart Systems telah mengembangkan solusi smart grid. Dalam salah satu proyek mereka, Connected Drone, drone digunakan untuk memecahkan masalah saluran listrik. Terlatih dalam pengakuan elemen-elemen jaringan listrik, mereka memverifikasi integritas kabel, isolator, dan bagian lain dari saluran listrik. Ini sangat penting untuk melokalisasi kerusakan dengan cepat ketika catu daya ke kota atau perusahaan bergantung pada saluran. Mengingat bahwa saluran listrik sering dibangun di tempat-tempat yang sulit dijangkau, mengirimkan awak pesawat tak berawak untuk menemukan kerusakan di suatu tempat di taiga atau di pegunungan jauh lebih efektif daripada mengirim tim orang.
ESmart drone menemukan elemen infrastruktur energi dan, jika terjadi kerusakan, tandai objek tersebut, meninggalkan peringatan bagi operator. Sumber: Sistem eSmart