
Topik pelacakan peserta yang berbicara dalam konferensi video selama beberapa tahun terakhir telah mendapatkan momentum. Teknologi memungkinkan untuk menerapkan algoritma yang kompleks untuk memproses informasi audio / video secara real time, yang mendorong Polycom, hampir 10 tahun yang lalu, untuk memperkenalkan solusi massal pertama di dunia dengan pelacakan pengeras suara otomatis yang cerdas. Selama beberapa tahun mereka berhasil tetap menjadi pemilik tunggal dari solusi semacam itu, tetapi Cisco tidak butuh waktu lama untuk menunggu, dan membawa ke pasar versi mereka dari sistem dua kamar cerdas, yang bersaing secara adil dengan solusi Polycom. Selama bertahun-tahun, segmen konferensi video ini telah dibatasi oleh kemampuan beberapa produk
eksklusif , tetapi artikel ini didedikasikan untuk solusi panduan suara
universal pertama yang kompatibel dengan infrastruktur perangkat keras dan perangkat lunak konferensi video.
Sebelum beralih ke menggambarkan solusi dan menunjukkan kemungkinan, saya ingin mencatat peristiwa penting:
Saya merasa terhormat untuk memperkenalkan hub baru ke komunitas Habr yang didedikasikan untuk solusi konferensi video (VKS). Sekarang, berkat upaya bersama (tambang dan UFO), Videoconferencing memiliki rumah sendiri di Habré, dan saya mengundang semua orang yang terlibat dalam topik yang luas dan relevan ini untuk berlangganan ke hub baru .Dua skenario mengarahkan kamera ke pengeras suara
Saat ini, integrator solusi VKS memilih sendiri dua cara berbeda untuk mewujudkan tugas menunjuk ke pembicara:
- Otomatis - Cerdas
- Semi-otomatis - dapat diprogram
Opsi pertama hanyalah solusi dari Cisco, Polycom dan produsen lain, kami akan mempertimbangkannya di bawah ini. Di sini kita berhadapan dengan otomatisasi lengkap mengarahkan kamera ke peserta yang berbicara dalam konferensi video. Algoritma unik untuk memproses sinyal audio / video memungkinkan kamera untuk memilih posisi yang diinginkan sendiri.
Pilihan kedua adalah sistem otomasi berdasarkan berbagai pengontrol eksternal, kami tidak akan mempertimbangkannya secara rinci, karena Artikel ini berfokus pada pelacakan otomatis speaker.
Tidak ada sedikit pendukung skenario kedua untuk menerapkan panduan kamera, dan ada alasan untuk ini. Integrator berpengalaman memahami bahwa solusi cerdas dari Polycom dan Cisco memerlukan kondisi operasi yang ideal untuk otomatisasi penuh waktu. Tetapi kondisi seperti itu tidak selalu memungkinkan, jadi solusi berikut untuk tugas penunjuk kamera terkadang menjadi jaminan sistem:
1. Dalam memori kamera (atau kadang-kadang dalam pengontrol kontrol), semua prasetel yang diperlukan (posisi perangkat putar dan rasio zoom optik) dimasukkan secara manual terlebih dahulu. Sebagai aturan, ini adalah rencana umum ruang pertemuan, dan tampilan setiap peserta konferensi dalam mode potret.
2. Selanjutnya, pemrakarsa panggilan preset yang diperlukan dipasang di tempat-tempat yang ditentukan - ini adalah konsol mikrofon atau tombol radio, secara umum, perangkat apa pun yang dapat memberi sinyal kepada pengontrol kontrol sinyal yang dimengerti.
3. Pengontrol kontrol diprogram sehingga setiap inisiator memiliki preset sendiri. Rencana umum ruangan - semua inisiator dimatikan.
Akibatnya, ketika menggunakan sistem kongres, misalnya, dan pengontrol kontrol, pembicara mengaktifkan konsol mikrofon pribadinya sebelum memulai pidatonya. Sistem kontrol secara instan memenuhi posisi kamera yang disimpan.
Skenario ini berfungsi dengan sempurna - sistem tidak perlu melakukan triangulasi suara dan analitik video. Tekan tombol - preset berhasil, tidak ada penundaan atau positif palsu.
Sistem kontrol dan otomasi digunakan di ruangan besar dan kompleks, di mana kadang-kadang bukan satu, tetapi beberapa kamera dipasang. Nah, untuk ruang pertemuan kecil dan menengah, sistem otomatis (jika Anda memiliki anggaran) cukup cocok.
Mari kita mulai dengan para pendiri.
Direktur Polycom EagleEye

Begitu keputusan ini dibuat sensasi di bidang konferensi video. Direktur Polycom EagleEye adalah solusi membidik kamera pintar pertama. Solusinya terdiri dari unit dasar Direktur EagleEye dan dua kamera. Fitur dari implementasi pertama adalah bahwa satu kamera hanya ditugaskan untuk tampilan besar dari pembicara, dan yang kedua untuk rencana umum ruang pertemuan. Pada saat yang sama, kamera rencana umum dapat ditempatkan secara umum terpisah dari pangkalan di tempat lain di ruang pertemuan - kamera tidak berpartisipasi langsung dalam proses panduan otomatis.
Sistem bekerja sebagai berikut:
- Kamera rencana umum ruangan aktif - semua orang diam
- Pembicara mulai berkata - larik mikrofon mengambil suara, kamera bergerak ke arah suara menggunakan teknologi yang dipatenkan yang mencakup triangulasi suara. Kamera master masih aktif
- Kamera utama baru mulai mencari sumber suara, melakukan analisis video. Sistem menentukan speaker menggunakan koneksi mata-hidung-mulut, membingkai gambar dengan speaker dan menampilkan aliran dari kamera utama
- Pembicara berubah. Array mikrofon memahami bahwa suara sedang terdengar dari tempat lain. Sekali lagi rencana umum dimasukkan.
- Dan selanjutnya, mulai dari titik 2
- Jika speaker baru berada dalam bingkai dengan yang sebelumnya, sistem mengubah posisi ke "panas" tanpa mengubah aliran aktif ke rencana umum.
Kelemahannya, menurut saya, adalah keberadaan hanya satu kamera utama. Ini menyebabkan penundaan yang signifikan saat mengganti speaker. Dan setiap kali pada saat panduan, sistem mencakup rencana umum ruangan - dengan percakapan yang hidup, layar ini mulai mengganggu.
Direktur Polycom EagleEye II

Ini adalah versi kedua dari solusi dari Polycom, yang dirilis relatif baru-baru ini. Prinsip operasi telah mengalami perubahan, dan telah menjadi lebih seperti solusi dari Cisco. Sekarang kedua kamera PTZ adalah yang utama dan berfungsi untuk perpindahan saluran yang mulus dari satu speaker ke speaker lainnya. Untuk rencana umum ruang pertemuan, kamera terpisah sekarang bertanggung jawab, diintegrasikan ke pangkalan unit dasar Direktur II EagleEye. Aliran dari kamera sudut lebar ini karena alasan tertentu ditampilkan di jendela tambahan di sudut layar, menempati 1/9 arus utama. Prinsip penentuan posisi adalah sama - triangulasi suara dan analisis aliran video. Dan hambatannya sama: jika sistem tidak melihat mulut yang berbicara, kamera tidak akan dibawa masuk. Tetapi situasi seperti itu dapat terjadi cukup sering - pembicara berpaling, pembicara berbalik, pembicara - pembicara perut, pembicara menutup mulutnya dengan tangan atau dokumen.
Kedua video promosi direkam dengan benar - 2 orang berbicara secara bergantian, dan mereka membuka mulut seperti pada janji terapis wicara. Tetapi bahkan dalam kondisi seperti itu pun ada penundaan yang sangat signifikan. Tetapi, di sisi lain, pembingkaian sempurna - rencana potret yang nyaman.
Cisco TelePresence SpeakerTrack 60

Saya akan menggunakan teks dalam brosur resmi untuk menjelaskan solusi ini.
SpeakerTrack 60 mengambil pendekatan dua kamera yang unik untuk beralih secara cepat antara peserta. Satu kamera dengan cepat menemukan close-up dari presenter aktif, dan yang lainnya mencari dan menampilkan presenter berikutnya. Fungsi MultiSpeaker mencegah pergantian yang tidak perlu jika presenter berikutnya sudah ada dalam bingkai saat ini.Sayangnya, saya tidak memiliki kesempatan untuk menguji SpeakerTrack 60 sendiri. Oleh karena itu, perlu untuk menarik kesimpulan dalam pendapat "dari lapangan" dan sesuai dengan hasil analisis video demo di bawah ini. Saya menghitung keterlambatan maksimum hampir 8 detik ketika membawa speaker baru. Penundaan rata-rata adalah 2-3 detik, dilihat dari video.
HUAWEI Intelligent Tracking Video Camera VPT300

Saya menemukan solusi dari Huawei ini secara tidak sengaja. Biaya sistem adalah sekitar $ 9K. Hanya bekerja dengan terminal Huawei. Para pengembang menambahkan "trik" mereka - tata letak pada satu layar video dari dua speaker, jika tidak ada orang lain di ruangan itu. Menurut karakteristik dan fungsionalitas yang dideklarasikan - ini adalah versi yang sangat menarik dari sistem panduan otomatis. Tapi, sayangnya, saya tidak menemukan materi demo sama sekali. Satu-satunya video yang jatuh pada topik ini adalah tinjauan video yang dipasang dari solusi, tanpa suara asli, ke musik. Dengan demikian, tidak mungkin untuk mengevaluasi kualitas sistem. Untuk alasan ini, saya tidak akan mempertimbangkan opsi ini.
Saya melihat bahwa Huawei memiliki blog aktif di Habré - mungkin kolega dapat mempublikasikan informasi bermanfaat tentang produk ini.
SmartCam A12VT adalah bar permen, yang mencakup dua kamera PTZ untuk speaker lacak, dua kamera built-in untuk menganalisis rencana umum ruangan, serta susunan mikrofon yang dibangun di dasar kasing - seperti yang Anda lihat, tidak ada struktur besar dan rapuh seperti lawan.
Sebelum mulai menggambarkan produk baru, saya akan menggabungkan karakteristik dan fitur solusi dari Cisco dan Polycom, sehingga Anda dapat membandingkan
SmartCam A12VT dengan penawaran yang ada.
Direktur Polycom EagleEye- Biaya eceran sistem tanpa terminal - $ 13K
- Biaya minimum dari solusi EagleEye Director + RealPresence Group 500 adalah $ 19K
- Rata-rata penundaan 3 detik
- Panduan suara + analitik video
- Persyaratan tinggi untuk wajah pembicara - Anda tidak dapat menyembunyikan mulut Anda
- Ketidakcocokan dengan peralatan pihak ketiga
Cisco TelePresence SpeakerTrack 60- Biaya eceran sistem tanpa terminal - $ 15,9 ribu
- TelePresence SpeakerTrack 60 + SX80 Codec Biaya Minimum - $ 30K
- Rata-rata penundaan 3 detik
- Panduan suara + analitik video
- Persyaratan untuk wajah pembicara - tidak memeriksa, tidak menemukan informasi
- Ketidakcocokan dengan peralatan pihak ketiga
Pelacakan Suara SmartCam A12Sebagai dua keunggulan utama dan tak terbantahkan dari solusi
Pelacakan Suara SmartCam A12 , saya menemukan:
- Universalitas koneksi - melalui HDMI, sistem terintegrasi dengan sistem terminal perangkat keras dan perangkat lunak VKS
- Biaya rendah - dengan fungsionalitas yang serupa, A12VT beberapa kali lebih terjangkau pada anggaran daripada proposal di atas.
Untuk menunjukkan operasi sistem, kami merekam ulasan video. Tugas itu tidak begitu banyak iklan sebagai fungsional. Oleh karena itu, video ini kehilangan pathos dari video promo Polikomovsky. Sebagai tempat presentasi, kami tidak memilih perwakilan, tetapi ruang pertemuan laboratorium mitra kami, IPMatika.
Tujuan saya bukan untuk menyembunyikan kelemahan sistem, tetapi untuk mengekspos kemacetan fungsional, untuk membuat sistem melakukan kesalahan.
Menurut pendapat saya, sistem telah diuji dengan sukses. Saya menyatakan ini dengan percaya diri, karena pada saat penulisan ini, solusi
Pelacakan Suara SmartCam A12 telah mengunjungi puluhan ruang rapat di dunia nyata bagi para pelanggan kami. Pelanggaran operasi otomasi diamati secara eksklusif melanggar aturan operasi yang direkomendasikan. Secara khusus - jarak minimum ke peserta terdekat. Jika Anda duduk sangat dekat dengan kamera, kurang dari satu meter - array mikrofon tidak akan dapat mengenali Anda, dan lensa dapat dilacak.

Selain jarak, ada persyaratan lain - ketinggian kamera.

Jika kamera diset terlalu rendah, mungkin ada masalah dengan pemosisian suara. Opsi di bawah TV, sayangnya, tidak berfungsi.
Tetapi pemasangan sistem di atas layar berarti cara yang ideal perangkat bekerja. Rak untuk kamera disertakan, hanya dudukan dinding yang didukung.
Cara Kerja Pelacakan Suara SmartCam A12
Lensa PTZ utama memiliki peran yang sama - tugas mereka adalah melacak speaker secara bergantian dan menampilkan keseluruhan rencana. Menganalisis keseluruhan gambar di dalam ruangan dan menentukan jarak ke objek dilakukan menggunakan aliran video yang diterima dari dua kamera yang terintegrasi ke dalam dasar sistem. Fitur ini memungkinkan Anda mengurangi waktu reaksi lensa, saat mengganti speaker, hingga 1-2 detik. Kamera mengatur untuk mengganti peserta dalam ritme yang nyaman, bahkan jika mereka bertukar kalimat pendek.
Peragaan video dari sistem sepenuhnya mencerminkan fungsi
SmartCam A12VT . Tetapi, bagi mereka yang tidak menonton video, saya akan menjelaskan dalam kata-kata prinsip otomatisasi:
- Ruangan itu kosong: salah satu lensa menunjukkan rencana umum, yang kedua siap - menunggu orang
- Orang-orang memasuki ruangan dan duduk: sebuah lensa bebas menemukan dua peserta ekstrim dan membingkai gambar pada mereka, memotong bagian kosong dari ruangan
- Saat orang bergerak, lensa bergiliran melacak semua orang di ruangan, menjaganya di tengah bingkai
- Pembicara mulai berkata: lensa aktif yang disesuaikan dengan rencana umum aktif. Yang kedua ditujukan pada pembicara, dan hanya kemudian masuk ke mode siaran
- Speaker berubah: lensa aktif yang disetel ke speaker pertama aktif, dan lensa kedua melempar rencana umum dan menyesuaikan ke speaker baru
- Pada saat mengganti gambar dari speaker pertama ke speaker kedua, lensa bebas langsung disesuaikan dengan rencana umum ruangan
- Jika semuanya diam, lensa gratis akan menunjukkan rencana umum yang sudah jadi tanpa penundaan.
- Jika speaker berubah lagi - lensa gratis akan mencari dia
Kesimpulan
Menurut pendapat saya, solusi ini, dipresentasikan di ISE dan ISR tahun lalu, membuat teknologi tinggi lebih dekat - jika tidak kepada orang-orang, maka untuk bisnis pasti. Jelas bahwa untuk 400 ribu rubel, beberapa orang akan membeli rumah "mainan" seperti itu, tetapi untuk bisnis, untuk konferensi video perusahaan, ini adalah solusi yang sangat terjangkau dan nyaman untuk tugas pemandu otomatis kamera.
Mengingat fleksibilitas dari
Pelacakan Suara SmartCam A12 , sistem dapat digunakan sebagai solusi dari awal, atau sebagai perpanjangan dari fungsionalitas infrastruktur VKS yang ada. Menghubungkan melalui HDMI adalah langkah besar menuju pengguna, tidak seperti sistem eksklusif dari produsen yang dijelaskan di atas.
Saya ingin mengucapkan terima kasih kepada para mitra yang membantu dalam pengujian.
IPMatika untuk terminal Yealink VC880, ruang pertemuan, dan Yakushin Yura.
Perusahaan
Smart-AV - untuk hak peninjauan pertama dan eksklusif dari solusi dan penyediaan
sistem Pelacakan Suara SmartCam A12 untuk pengujian.
Dalam artikel sebelumnya,
Perancang Ruang Rapat Online - memilih solusi VKS yang optimal , sebagai promosi situs web
vc4u.ru dan
Perancang VKS, kami mengumumkan diskon
10% pada harga
katalog menggunakan kata
sandi HABR hingga akhir musim panas 2019.
Diskon berlaku untuk produk di bagian:
Untuk
Pelacakan Suara SmartCam A12, saya menawarkan diskon tambahan 5% untuk 10% yang ada -
total 15% hingga akhir musim panas 2019.Menunggu komentar dan jawaban Anda dalam survei!
Terima kasih atas perhatian anda
Salam
Kirill Usikov (
Usikoff )
Kepala Arah
CCTV dan sistem konferensi video
1@stss.ru
stss.ruvc4u.ru