Analitik video: pengenalan wajah, detektor antrian, mencari objek di video


Perusahaan Taiwan 42Ark dan produsen pengumpan CatFi Box "pintar" yang berbasis di AS menggunakan kamera CCTV untuk mengenali wajah kucing

Pada tahun 1941, insinyur listrik Jerman Walter Bruch memasang sistem CCTV (Closed Circuit Television - sistem televisi loop tertutup) di lokasi pengujian tempat roket V-2 diuji. Ini adalah kasus pertama dalam sejarah menggunakan pengawasan video dalam praktik. Operator harus duduk di depan monitor sepanjang waktu. Ini berlanjut hingga 1951, hingga perangkat VTR (VideoTape Recorder) pertama yang merekam gambar pada pita magnetik muncul.

Merekam ke media tidak menyelamatkan operator dari kebutuhan untuk berpartisipasi dalam proses. Pengenalan wajah, lokasi objek, bahkan deteksi gerakan - semua fungsi ini dilakukan oleh seseorang yang duduk di depan monitor secara real time atau mempelajari arsip video setelah fakta.

Roda kemajuan bergulir. Video surveillance menerima analitik video yang sepenuhnya mengubah proses bekerja dengan sistem. Ingat cerita tentang kucing dan jaringan saraf pembelajaran yang dalam? Ya, ini juga bagian dari analisis video, tetapi kecil. Hari ini kita akan berbicara tentang teknologi yang secara fundamental mengubah dunia sistem CCTV.

Deteksi Antrian dan Tes Beta

Kamera IP pertama di dunia Neteye 200, dibuat pada tahun 1996 oleh Axis

Pengawasan video dilahirkan sebagai sistem keamanan tertutup, yang dirancang hanya untuk mengatasi masalah keamanan. Keterbatasan pengawasan video analog tidak memungkinkan penggunaan peralatan dengan cara lain apa pun. Integrasi pengawasan video dengan sistem digital telah membuka kemungkinan untuk secara otomatis menerima berbagai data dengan menganalisis urutan gambar.

Pentingnya sulit untuk melebih-lebihkan: dalam kasus yang biasa, setelah 12 menit pengamatan terus menerus, operator mulai melewatkan hingga 45% kejadian. Dan hingga 95% dari peristiwa yang berpotensi mengganggu akan terlewatkan setelah 22 menit pemantauan terus menerus (menurut IMS Research, 2002).

Algoritma analisis video yang kompleks telah muncul: menghitung pengunjung, menghitung konversi, statistik transaksi tunai dan banyak lagi. Operator pengamatan menghilang dalam sistem ini - kami meninggalkan komputer kemampuan untuk "menonton" dan menarik kesimpulan.

Contoh paling sederhana dari pengawasan video pintar adalah deteksi gerakan. Tidak terlalu penting apakah ada detektor internal di dalam kamera itu sendiri - jika Anda menginstal, misalnya, perangkat lunak Ivideon Server di komputer, maka detektor gerak akan digunakan perangkat lunak. Satu detektor dapat menggantikan beberapa operator pengawasan video sekaligus. Dan sudah di tahun 2000-an, sistem analitik video pertama yang mampu mengenali objek dan peristiwa dalam bingkai mulai muncul.

Ivideon saat ini sedang mengembangkan beberapa modul analitik video - sejak kami merilis OpenAPI , segalanya berjalan lebih cepat melalui integrasi dengan mitra. Beberapa proyek masih dalam pengujian tertutup, tetapi ada sesuatu yang sudah siap. Ini, pertama, integrasi dengan register kas untuk mengendalikan transaksi tunai (sejauh ini didasarkan pada iiko dan Shtrikh-M). Kedua, detektor antrian telah dikembangkan.

Kami memiliki Penghitung Ivideon , yang menentukan jumlah pelanggan di ruangan itu. Analytics memungkinkan kami untuk beralih dari peralatan khusus ke komputasi awan. Sekarang kita tidak membutuhkan kamera khusus - kamera pengintai apa pun dengan resolusi 1080p + sesuai. Sekarang kami ingin tidak hanya menghitung orang, tetapi untuk menentukan antrian. Oleh karena itu, mereka siap ke toko, pusat perbelanjaan atau kantor mana pun orang pergi dan berdiri, membentuk antrian, untuk menyediakan kamera gratis untuk tes deteksi antrian. Email kami untuk ambil bagian dalam proyek ini.

Selain itu, Ivideon bekerja dengan teknologi pengenal wajah.

Siapa yang mengenali caranya

Teknologi DeepFace sedang diuji oleh Facebook pada contoh pengakuan wajah emosional Sylvester Stallone

Apple, Facebook, Google, Intel, Microsoft dan raksasa teknologi lainnya sedang mengerjakan solusi di bidang ini. Sistem pengawasan video dengan pengenalan wajah otomatis terhadap penumpang dipasang di 22 bandara AS. Di Australia, mereka sedang mengembangkan sistem pengenalan wajah dan sidik jari biometrik sebagai bagian dari program yang dirancang untuk mengotomatiskan paspor dan kontrol bea cukai.



Perusahaan Internet Cina terbesar Baidu melakukan percobaan yang berhasil pada pembatalan tiket menggunakan teknologi pengenalan wajah dengan akurasi 99,77%, dengan waktu pengambilan gambar dan pengenalan 0,6 detik. Di pintu masuk ke taman berdiri dengan tablet dan bingkai khusus dipasang yang melakukan pemotretan. Ketika seorang turis datang ke taman untuk pertama kalinya, sistem mengambil foto dirinya untuk menggunakan fungsi pengenalan wajah di foto di masa depan. Foto baru dibandingkan dengan foto dari basis data - dengan cara ini sistem menentukan apakah seseorang memiliki hak untuk mengunjungi.



Di China, teknologi umumnya sangat baik. Pada 2015, Alipay, operator platform pembayaran online yang merupakan bagian dari Alibaba Holding, meluncurkan sistem verifikasi pembayaran berdasarkan Face ++, platform pengenalan wajah cloud yang dibuat oleh startup Cina Megvii. Sistem ini disebut Smile to Pay - memungkinkan pengguna Alipay membayar pembelian online dengan mengambil selfie (Alipay menentukan pemiliknya dengan tersenyum). UBER di Cina telah mulai menggunakan sistem pengenalan pengemudi berbasis ++ untuk mengatasi penipuan, pencurian identitas dan memberikan keselamatan penumpang tambahan.

Tetapi lebih menarik untuk melihat bukan pada solusi asing, tetapi pada layanan yang dibuat di Rusia. Teknologi ini jauh lebih dekat dengan pengguna akhir (jika dia berasal dari negara kami), Anda dapat berkenalan dengan mereka, di masa depan bersatu untuk digunakan dalam produk Anda sendiri. Ada banyak perusahaan pengenal wajah di sekitar. Mari kita ingat beberapa yang masih tersisa.



Perusahaan Vokord, didirikan pada tahun 1999, menggunakan FaceControl 3D untuk bekerja dengan gambar sinkron dari kamera stereo, membangun model wajah 3D dalam bingkai, dan secara otomatis mencari model yang diperoleh dengan model-model dalam database yang ada. Pada 2016, Vokord mulai menggunakan algoritme pengenalan wajah matematisnya sendiri, yang didasarkan pada jaringan saraf convolutional, sehingga algoritme mereka sekarang bekerja dengan kamera pengawas video apa pun. Perusahaan mengklaim bahwa mereka dapat mengenali wajah (dalam ukuran 128x128 piksel) orang yang mengikuti aliran. Pada akhir 2016, algoritma Vocord DeepVo1 menunjukkan hasil terbaik dalam pengujian identifikasi global, dengan benar mengenali 75,127% individu.



Didirikan pada 2012, VisionLabs memenangkan kompetisi perusahaan teknologi terbesar GoTech di Rusia dan Eropa Timur, dan dimasukkan dalam daftar finalis program Eropa “ Challenge UP! ”, Dirancang untuk mempercepat peluncuran pasar solusi dan layanan berdasarkan konsep Internet of things, telah menarik investasi jutaan dan sudah memperkenalkan produk-produknya ke sektor komersial. Baru-baru ini, Otkritie Bank meluncurkan sistem pengenalan wajah VisionLabs untuk mengoptimalkan layanan pelanggan dan waktu tunggu sejalan. Yah, ada baiknya membaca cerita indah bagaimana spesialis CROC menangkap seekor kucing menggunakan VisionLabs.

VisionLabs, yang telah menunjukkan salah satu hasil terbaik dalam tingkat pengenalan dan kesalahan, juga bekerja dengan jaringan saraf yang mengungkapkan fitur spesifik dari setiap wajah, seperti bentuk mata, bentuk hidung, relief daun telinga, dll. Sistem Luna mereka memungkinkan Anda menemukan semua fitur wajah ini di foto di arsip. Keputusan lain dari perusahaan, Face Is, mengakui wajah pelanggan di toko, menemukan profilnya dalam sistem CRM, belajar darinya sejarah pembelian dan minat pembeli, dan mengirimkan pemberitahuan dengan penawaran pribadi mengenai diskon pada kategori barang favoritnya ke telepon.

Otomatisasi proses perekrutan untuk startup Skillaz dan VisionLabs berencana untuk memperkenalkan sistem pengenalan komputer pada akhir 2017 yang akan mengevaluasi perilaku pencari kerja. Setelah menganalisis data, sistem akan menarik kesimpulan tentang kualitas profesional seseorang dan kesesuaian untuk jabatan tersebut. Karakteristik penuh dari sistem "penyewaan mobil" tidak diungkapkan oleh perusahaan. Hanya diketahui bahwa kemampuan bersosialisasi kandidat akan dievaluasi berdasarkan jawabannya terhadap serangkaian pertanyaan spesifik yang diajukan oleh sistem wawancara online. Jaringan saraf akan mencari hubungan antara perilaku kandidat dalam gambar dari kamera pengintai dan tingkat manifestasi satu kompetensi atau yang lain.

Grid, yaitu Dr. Lightman dan Sherlock Holmes dalam satu orang, akan memperhitungkan ekspresi wajah kandidat, gerakannya, serta fisiognomi. Perlu dicatat bahwa metode untuk menentukan tipe kepribadian seseorang, kualitas rohaninya, berdasarkan analisis fitur eksternal dan ekspresinya, dalam ilmu psikologi modern dianggap sebagai contoh klasik pseudosain. Bagaimana cara mengatasi kontradiksi dalam produk baru ini masih belum jelas.


Slide presentasi NTechLab menekan Salman Radaev

NTechLab mulai dengan aplikasi yang menentukan jenis anjing dari foto. Kemudian mereka menulis algoritma FaceN, yang pada musim gugur 2015 mereka ambil bagian dalam kompetisi internasional The MegaFace Benchmark . NTechLab memenangkan dua dari empat nominasi, mengalahkan tim Google (dalam setahun, Vokord akan menang dalam kontes yang sama, dan NTechLab akan pindah ke posisi 4). Keberhasilan memungkinkan mereka untuk dengan cepat mengimplementasikan layanan FindFace , mencari orang-orang dari foto di VKontakte. Tapi ini bukan satu-satunya cara menerapkan teknologi. Di festival Alfa Future People, yang diselenggarakan oleh Alfa Bank, dengan FindFace, pengunjung dapat menemukan foto mereka di antara ratusan foto lainnya dengan mengirimkan selfie ke chatbot.

Selain itu, NTechLab menunjukkan sistem yang mampu mengenali secara real-time jenis kelamin, usia dan emosi menggunakan gambar dari kamera video. Sistem ini dapat mengevaluasi reaksi audiens secara langsung, sehingga Anda dapat menentukan emosi yang dialami pengunjung selama presentasi atau menyiarkan pesan iklan. Semua proyek NTechLab dibangun di atas jaringan saraf belajar mandiri.

Cara Ivideon untuk Video Analytics


Pengenalan wajah adalah salah satu tugas paling sulit di bidang analitik video. Di satu sisi, semuanya tampak jelas dan telah lama digunakan. Di sisi lain, solusi identifikasi dalam kerumunan orang masih sangat mahal dan tidak memberikan akurasi absolut.
Pada 2012, Ivideon mulai bekerja dengan algoritma analisis video. Tahun itu, kami merilis aplikasi untuk iOS dan Android, memasuki pasar luar negeri, meluncurkan jaringan CDN terdesentralisasi dengan server di AS, Belanda, Jerman, Korea, Rusia, Ukraina, Kazakhstan dan menjadi satu-satunya layanan pengawasan video internasional yang bekerja sama baiknya di seluruh dunia. Secara umum, membuat analisis Anda dengan blackjack dan pengenalan akan mudah dan cepat ... kami masih muda, rumputnya tampak lebih hijau, dan udaranya manis dan lesu.

[ Pada saat itu, kami mempertimbangkan algoritma klasik. Pertama, Anda perlu mendeteksi dan melokalisasi wajah pada gambar: gunakan kaskade Haar , cari daerah dengan tekstur yang mirip dengan kulit, dll. Misalkan kita perlu menemukan orang pertama yang menemukan dan menemani hanya di aliran video. Di sini Anda dapat menggunakan algoritma Lucas-Canada . Kami menemukan wajah dengan algoritma dan kemudian menentukan titik karakteristik di dalamnya. Kami menemani poin menggunakan algoritma Lucas-Canada; setelah menghilang, kami percaya bahwa wajah telah menghilang dari pandangan. Setelah menerima fitur karakteristik wajah, kita dapat membandingkannya dengan fitur yang tertanam dalam database.

Untuk memperlancar lintasan objek (wajah), serta memprediksi posisinya di bingkai berikutnya, kami menggunakan filter Kalman . Perlu dicatat di sini bahwa filter Kalman dirancang untuk model gerak linier. Untuk nonlinear, algoritma Filter Partikel digunakan (sebagai varian dari algoritma Partikel Filter + Mean Shift ).

Anda juga dapat menggunakan algoritme pengurangan latar belakang: perpustakaan dengan contoh penerapan algoritme untuk mengurangi latar belakang + artikel tentang implementasi algoritme ringan untuk mengurangi latar belakang ViBe. Selain itu, jangan lupa salah satu metode Viola-Jones yang paling umum diimplementasikan di perpustakaan visi komputer OpenCV. ]

Pengenalan wajah yang sederhana itu baik, tetapi tidak cukup. Hal ini juga diperlukan untuk memastikan pelacakan yang stabil dari beberapa objek dalam bingkai, bahkan dalam kasus persimpangan bersama mereka atau "penghilangan" sementara hambatan. Hitung sejumlah objek yang melintasi zona tertentu dan perhatikan arah persimpangan. Untuk mengetahui kapan suatu objek / objek dalam bingkai muncul dan menghilang - gerakkan mouse di atas cangkir kotor di atas meja dan temukan momen dalam arsip video saat muncul di sana dan siapa yang meninggalkannya. Dalam proses pelacakan, suatu objek dapat berubah cukup kuat (dalam hal transformasi). Tetapi dari bingkai ke bingkai, perubahan ini akan sedemikian rupa sehingga memungkinkan untuk mengidentifikasi objek.

Selain itu, kami ingin membuat solusi cloud universal tersedia untuk semua orang - dari pengguna yang paling banyak menuntut. Solusinya harus fleksibel dan dapat diskalakan, karena kami sendiri tidak dapat mengetahui apa yang ingin dipantau pengguna dan apa yang ingin dipertimbangkan pengguna. Sangat mungkin bahwa seseorang akan menyarankan untuk membuat siaran kecoa berdasarkan Ivideon dengan penentuan pemenang secara otomatis.

Hanya lima tahun kemudian, kami mulai menguji setiap komponen analitik video - kami akan berbicara lebih banyak tentang proyek ini dalam artikel baru.

PS Jadi, kami mencari sukarelawan untuk tes pendeteksi antrian. Serta pengguna sistem SHTRIH-M untuk menguji sistem manajemen kas baru. Tulis di pos atau di komentar.

Source: https://habr.com/ru/post/id401765/


All Articles