أصبح الوصول إلى التوجيه الصوتي للكاميرا أكثر سهولة - حل تعقب الصوت SmartCam A12 العالمي

اكتسب موضوع تعقب مشارك حديث في مؤتمر عبر الفيديو على مدار السنوات القليلة الماضية زخماً. مكّنت التقنيات من تنفيذ خوارزميات معقدة لمعالجة معلومات الصوت / الفيديو في الوقت الفعلي ، الأمر الذي دفع Polycom ، منذ ما يقرب من 10 سنوات ، إلى تقديم أول حل جماعي في العالم من خلال تتبع مكبرات الصوت التلقائي الذكي. لقد استطاعوا لعدة سنوات أن يظلوا المالكين وحدهم لمثل هذا الحل ، لكن Cisco لم تستغرق وقتًا طويلاً للانتظار ، وطرحوا نسخة السوق الخاصة بهم من نظام غرفتين ذكي ، والذي تنافس بشكل عادل مع حل Polycom. لسنوات عديدة ، كان هذا الجزء من مؤتمرات الفيديو مقيدًا بقدرات العديد من المنتجات الاحتكارية ، ولكن هذه المقالة مخصصة للحل العالمي الأول لتوجيه الكاميرا عن طريق الصوت ، ومتوافق مع كل من البنية التحتية للأجهزة والبرامج في مؤتمرات الفيديو.
قبل الانتقال إلى وصف الحلول وإظهار الإمكانيات ، أريد أن أشير إلى حدث مهم:
يشرفني أن أعرض المحور الجديد لمجتمع Habr المخصص لحلول مؤتمرات الفيديو (VKS). الآن ، وبفضل الجهود المشتركة (المنجم والأجسام الغريبة) ، أصبحت مؤتمرات الفيديو لها منزلها الخاص على Habré ، وأدعو جميع المشاركين في هذا الموضوع الواسع النطاق ذي الصلة حتى الآن للاشتراك في مركز جديد .

سيناريوهان لتوجيه الكاميرا على السماعة


في الوقت الحالي ، يختار مختصو حلول VKS لأنفسهم طريقتين مختلفتين لتحقيق مهمة الإشارة إلى السماعة:

  1. التلقائي الذكي
  2. شبه التلقائي - برمجة

الخيار الأول هو مجرد حلول من Cisco و Polycom وغيرها من الشركات المصنعة ، وسوف ننظر فيها أدناه. نحن هنا نتعامل مع الأتمتة الكاملة لتوجيه الكاميرا إلى مشارك يتحدث في مؤتمر فيديو. تسمح الخوارزميات الفريدة لمعالجة إشارات الصوت / الفيديو للكاميرا بتحديد الموضع المطلوب بمفردها.

الخيار الثاني هو أنظمة التشغيل الآلي القائمة على وحدات تحكم خارجية مختلفة ، ونحن لن ننظر فيها بالتفصيل ، لأنه تركز هذه المقالة على التتبع التلقائي للمتحدثين.
لا يوجد عدد قليل من مؤيدي السيناريو الثاني لتطبيق إرشادات الكاميرا ، وهناك أسباب لذلك. يدرك الدمجون المتمرسون أن الحلول الذكية من Polycom و Cisco تتطلب ظروف تشغيل مثالية للأتمتة بدوام كامل. ولكن مثل هذه الشروط ليست ممكنة دائمًا ، وبالتالي يصبح الحل التالي لمهمة تأشير الكاميرا أحيانًا ضمانًا للنظام:

1. في ذاكرة الكاميرا (أو في بعض الأحيان في وحدة التحكم) ، يتم إدخال جميع الإعدادات المسبقة اللازمة (موضع الجهاز الدوار ونسبة التكبير البصري) يدويًا. كقاعدة عامة ، هذه هي الخطة العامة لغرفة الاجتماعات ، وطريقة العرض لكل مشارك في المؤتمر في وضع عمودي.

2. بعد ذلك ، يتم تثبيت المبادرين لنداء الإعداد المسبق المطلوب في الأماكن المحددة - فهذه إما أجهزة التحكم بالميكروفون أو أزرار الاختيار ، بشكل عام ، أي جهاز يمكنه إعطاء وحدة التحكم في التحكم إشارة يفهمها.

3. وحدة التحكم في التحكم مبرمجة بحيث يكون لكل بادئ الإعداد المسبق الخاص به. الخطة العامة للغرفة - يتم إيقاف تشغيل جميع المبادرين.
نتيجة لذلك ، عند استخدام نظام الكونغرس ، على سبيل المثال ، وحدة تحكم ، يقوم المتكلم بتنشيط وحدة التحكم بالميكروفون الشخصي الخاصة به قبل بدء حديثه. يلبي نظام التحكم على الفور الموضع المحفوظ للكاميرا.

هذا السيناريو لا تشوبه شائبة - لا يحتاج النظام إلى أداء التثليث الصوتي وتحليلات الفيديو. الضغط على زر - عملت مسبقا ، أي تأخير أو ايجابيات كاذبة.
تُستخدم أنظمة التحكم والأتمتة في غرف كبيرة ومعقدة ، حيث لا يتم تركيبها في بعض الأحيان ، ولكن يتم تثبيت العديد من الكاميرات. حسنًا ، بالنسبة لقاعات الاجتماعات الصغيرة والمتوسطة ، فإن الأنظمة الآلية (إذا كانت لديك ميزانية) مناسبة تمامًا.
لنبدأ مع الآباء المؤسسين.

بوليكوم EagleEye مدير


بمجرد اتخاذ هذا القرار ضجة كبيرة في مجال الفيديو كونفرنس. Polycom EagleEye Director هو أول كاميرا ذكية تهدف الحل. يتكون الحل من وحدة قاعدة EagleEye Director وكامرين. من ميزات هذا التطبيق الأول أنه يتم تخصيص كاميرا واحدة فقط لعرض كبير للمتكلم ، والثانية للخطة العامة لغرفة الاجتماعات. في الوقت نفسه ، يمكن وضع كاميرا الخطة العامة بشكل منفصل بشكل عام عن القاعدة في مكان آخر في غرفة الاجتماعات - فهي لا تشارك مباشرة في عملية التوجيه التلقائي.
يعمل النظام على النحو التالي:

  1. كاميرا الخطة العامة للغرفة نشطة - الكل صامت
  2. يبدأ مكبر الصوت في القول - تلتقط مجموعة الميكروفون الصوت ، وتتحرك الكاميرا نحو الصوت باستخدام تقنية حاصلة على براءة اختراع تتضمن تثليث الصوت. لا تزال الكاميرا الرئيسية النشطة
  3. الكاميرا الرئيسية بدأت للتو في البحث عن مصدر صوت ، وإجراء تحليلات الفيديو. يحدد النظام السماعة باستخدام اتصال أنف العين ، ويضع الصورة مع السماعة ويعرض الدفق من الكاميرا الرئيسية
  4. المتكلم يتغير. تتفهم مجموعة الميكروفون أنه يتم سماع صوت من مكان آخر. مرة أخرى يتم تضمين الخطة العامة.
  5. وما حولها ، بدءًا من النقطة 2
  6. إذا كان مكبر الصوت الجديد في إطار بالإطار السابق ، فإن النظام يغير وضعه إلى "ساخن" دون تغيير التدفق النشط إلى الخطة العامة.

الجانب السلبي ، في رأيي ، هو وجود كاميرا رئيسية واحدة فقط. هذا يؤدي إلى تأخير كبير عند تغيير السماعة. وفي كل مرة في لحظة التوجيه ، يشتمل النظام على خطة عامة للغرفة - مع محادثة حية ، يبدأ هذا وميض مزعج.



بوليكوم EagleEye مدير II


هذه هي النسخة الثانية من الحل من Polycom ، الذي صدر مؤخرا نسبيا. لقد خضع مبدأ التشغيل لتغييرات ، وأصبح أكثر حلاً من Cisco. الآن تعد كلتا كاميرات PTZ هي الرئيسية وتخدم في التبديل السلس للقنوات من مكبر صوت إلى آخر. بالنسبة للخطة العامة لقاعة الاجتماعات ، أصبحت الكاميرا المنفصلة مسؤولة الآن ، وتم دمجها في قاعدة الوحدة الأساسية لـ EagleEye Director II. يتم عرض الدفق من هذه الكاميرا ذات الزاوية الواسعة لسبب ما في نافذة إضافية في زاوية الشاشة ، تشغل 1/9 من الدفق الرئيسي. مبدأ تحديد المواقع هو نفسه - تثليث الصوت وتحليل دفق الفيديو. والاختناقات هي نفسها: إذا لم ير النظام فم التحدث ، فلن يتم إحضار الكاميرا. ولكن يمكن أن يحدث مثل هذا الموقف في كثير من الأحيان - تم إيقاف السماعة ، وتحويل السماعة الجانبية ، أو السماعة - صوت التنفيس ، أو سد السماعة فمه بيد أو مستند.
تم تصوير كل من مقاطع الفيديو الترويجية بشكل صحيح - يتحدث شخصان بدورهما ، ويفتحان أفواههما في موعد مع معالج النطق. ولكن حتى في مثل هذه الظروف المكررة هناك تأخير كبير للغاية. ولكن ، من ناحية أخرى ، فإن الإطارات لا تشوبها شائبة - خطة صورة مريحة.



Cisco TelePresence SpeakerTrack 60


سأستخدم النص في الكتيب الرسمي لوصف هذا الحل.
يتخذ مكبر الصوت TrackTrack 60 نهجا فريدا من كاميرتين للتبديل السريع مباشرة بين المشاركين. تعثر إحدى الكاميرات بسرعة على قرب مقدم العرض النشط ، بينما تبحث الأخرى وتعرض مقدم العرض التالي. تمنع وظيفة MultiSpeaker التبديل غير الضروري إذا كان مقدم العرض التالي موجودًا بالفعل في الإطار الحالي.
لسوء الحظ ، لم تتح لي الفرصة لاختبار مكبر الصوت 60 بنفسي. لذلك ، من الضروري استخلاص استنتاجات في الرأي "من الحقل" ووفقًا لنتائج تحليل الفيديو التوضيحي أدناه. حسبت التأخير الأقصى لمدة 8 ثوانٍ تقريبًا عند المرور فوق مكبر صوت جديد. كان متوسط ​​التأخير 2-3 ثوان ، إذا حكمنا من خلال الفيديو.



هواوي الذكي تتبع كاميرا فيديو VPT300


لقد تعثرت على هذا الحل من Huawei عن طريق الصدفة. تكلفة النظام حوالي 9 آلاف دولار. يعمل فقط مع محطات Huawei. أضاف المطورون "خدعتهم" - التصميم الموجود على شاشة واحدة من الفيديو من متكلمين ، إذا لم يكن هناك أحد في الغرفة. وفقًا للخصائص والوظائف المعلنة - هذا إصدار مثير جدًا للاهتمام لنظام التوجيه التلقائي. لكن لسوء الحظ ، لم أجد أي مادة تجريبية على الإطلاق. الفيديو الوحيد الذي وقع حول هذا الموضوع هو مراجعة فيديو محمّلة للحل ، بدون الصوت الأصلي ، للموسيقى. وبالتالي ، لم يكن من الممكن تقييم جودة النظام. لهذا السبب ، لن أفكر في هذا الخيار.
أرى أن لدى Huawei مدونة نشطة على Habré - ربما يمكن للزملاء نشر أي معلومات مفيدة حول هذا المنتج.

جديد - حل تعقب الصوت SmartCam A12 العالمي


SmartCam A12VT عبارة عن شريط الحلوى ، والذي يتضمن كاميرتي PTZ لتتبع السماعات ، وكاميرات مدمجة لتحليل الخطة العامة للغرفة ، بالإضافة إلى مجموعة ميكروفون مدمجة في قاعدة العلبة - كما ترون ، لا توجد هياكل ضخمة وهشة مثل تلك الخاصة بالخصوم.
قبل البدء في وصف المنتج الجديد ، سأجمع خصائص وميزات الحلول من Cisco و Polycom ، بحيث يمكنك مقارنة SmartCam A12VT بالعروض الحالية.

بوليكوم EagleEye مدير

  • تكلفة التجزئة للنظام دون محطة - 13K دولار
  • أقل تكلفة لحل EagleEye Director + RealPresence Group 500 هي 19 ألف دولار
  • 3 ثوان متوسط ​​تأخير التبديل
  • التوجيه الصوتي + تحليلات الفيديو
  • متطلبات عالية لوجه المتحدث - لا يمكنك إخفاء فمك
  • عدم التوافق مع معدات الطرف الثالث


Cisco TelePresence SpeakerTrack 60

  • تكلفة التجزئة للنظام دون محطة - 15.9K دولار
  • التكلفة الدنيا لبرنامج TelePresence SpeakerTrack 60 + SX80 - 30 ألف دولار
  • 3 ثوان متوسط ​​تأخير التبديل
  • التوجيه الصوتي + تحليلات الفيديو
  • متطلبات وجه المتحدث - لم تحقق ، لم تجد المعلومات
  • عدم التوافق مع معدات الطرف الثالث


SmartCam A12 تتبع الصوت

  • تكلفة التجزئة للنظام دون محطة - 6.2K دولار
  • الحد الأدنى لتكلفة حل SmartCam A12VT + Yealink VC880 هو 10.8 ألف دولار
  • أقل تكلفة لمحطة برنامج SmartCam A12VT + هي 7.7 ألف دولار
  • 3 ثوان متوسط ​​تأخير التبديل
  • التوجيه الصوتي + تحليلات الفيديو
  • متطلبات المتحدث - لا توجد متطلبات
  • توافق الأجهزة لجهة خارجية - HDMI


كميزتين أساسيتين لا جدال فيهما في حل تتبع الصوت SmartCam A12 ، أجد:

  1. عالمية الاتصال - من خلال HDMI ، يتكامل النظام مع كل من الأجهزة الطرفية وأنظمة الأجهزة الطرفية من VKS
  2. منخفضة التكلفة - مع وظائف مماثلة ، A12VT هو عدة مرات أكثر بأسعار معقولة على الميزانية من المقترحات المذكورة أعلاه.


لإظهار تشغيل النظام ، سجلنا مراجعة فيديو. لم تكن المهمة الإعلانية بقدر ما كانت وظيفية. لذلك ، الفيديو محروم من شفرات الفيديو الترويجي Polikomovsky. كمكان للعرض التقديمي ، لم نختار الممثل ، ولكن غرفة اجتماعات المختبر لشريكنا ، IPMatika.
لم يكن هدفي هو إخفاء عيوب النظام ، بل فضح اختناقات الوظيفة ، لجعل النظام يخطئ.



في رأيي ، تم اختبار النظام بنجاح. أعلن ذلك بثقة ، لأنه في وقت كتابة هذا التقرير ، زار حل SmartCam A12 Voice Tracking عشرات من غرف الاجتماعات الواقعية لعملائنا. وقد لوحظ انتهاك عملية التشغيل الآلي حصريًا في انتهاك لقواعد التشغيل الموصى بها. على وجه الخصوص - الحد الأدنى للمسافة إلى أقرب المشاركين. إذا كنت جالسًا بالقرب من الكاميرا ، على بعد أقل من متر - لن تتمكن مجموعة الميكروفون من التعرف عليك ، ويمكن تتبع العدسة.



بالإضافة إلى المسافة ، هناك شرط آخر - ارتفاع الكاميرا.



إذا كانت الكاميرا منخفضة جدًا ، فقد تكون هناك مشكلات في تحديد الموقع الصوتي. الخيار تحت التلفزيون ، لسوء الحظ ، لم تنجح.
ولكن تثبيت النظام على الشاشة يعني الطريقة المثالية التي يعمل بها الجهاز. يتم تضمين رف للكاميرا ، لا يتم دعم سوى حامل حائط.

كيف يعمل تتبع الصوت SmartCam A12


عدسات PTZ الرئيسية لها أدوار متساوية - مهمتها هي تتبع السماعات بالتناوب وعرض الخطة الشاملة. يتم تحليل الصورة العامة في الغرفة وتحديد المسافة إلى الأشياء باستخدام تدفقات الفيديو المستلمة من كاميرتين مدمجتين في قاعدة النظام. تتيح لك هذه الميزة تقليل وقت رد فعل العدسة ، عند تغيير السماعة ، حتى 1-2 ثواني. تمكنت الكاميرا من تبديل المشاركين بإيقاع مريح ، حتى لو تبادلوا جمل قصيرة.
يعكس عرض الفيديو الخاص بالنظام بشكل كامل وظائف SmartCam A12VT . لكن بالنسبة لأولئك الذين لم يشاهدوا الفيديو ، سأصف بالكلمات مبدأ الأتمتة:

  1. الغرفة فارغة: إحدى العدسات تُظهر الخطة العامة والثانية جاهزة - تنتظر الأشخاص
  2. يدخل الناس الغرفة ويجلسون: عدسة مجانية تعثر على اثنين من المشاركين المتطرفين وتضع الصورة عليها ، وتقطيع الجزء الفارغ من الغرفة
  3. أثناء تحرك الناس ، تتناوب العدسات على تتبع الجميع في الغرفة ، مع إبقائهم في وسط الإطار
  4. يبدأ مكبر الصوت في القول: العدسة النشطة التي تم ضبطها وفقًا للخطة العامة نشطة. الثانية موجهة إلى مكبر الصوت ، وعندها فقط يذهب إلى وضع البث
  5. السماعة تتغير: العدسة النشطة المضبوطة على السماعة الأولى نشطة ، والعدسة الثانية ترمي خطة عامة وتتكيف مع السماعة الجديدة
  6. في لحظة تحويل الصورة من السماعة الأولى إلى الثانية ، يتم ضبط العدسة المجانية على الفور وفقًا للخطة العامة للغرفة
  7. إذا كان كل شيء صامتًا ، ستظهر العدسة المجانية خطة عامة جاهزة دون أي تأخير.
  8. إذا تغير السماعة مرة أخرى - ستقوم عدسة مجانية بالبحث عنه


استنتاج


في رأيي ، فإن هذا الحل ، الذي تم تقديمه في ISE و ISR في العام الماضي ، يجعل التكنولوجيا المتقدمة أقرب - إن لم يكن للناس ، ثم إلى العمل بالتأكيد. من الواضح أنه مقابل 400 ألف روبل ، فإن قلة من الناس سوف يشترون مثل هذا المنزل "لعبة" ، ولكن بالنسبة للأعمال التجارية لعقد مؤتمرات فيديو للشركات ، فإن هذا يعد حلًا مناسبًا ومناسبًا جدًا لمهمة التوجيه التلقائي للكاميرا.
نظرًا لتعدد استخدامات التتبع الصوتي SmartCam A12 ، يمكن استخدام النظام كحل من البداية ، أو امتداداً لوظيفة البنية التحتية الحالية لـ VKS. يُعد الاتصال عبر HDMI خطوة كبيرة نحو المستخدم ، على عكس أنظمة الملكية الخاصة بالشركات المصنعة الموضحة أعلاه.

أود أن أشكر الشركاء الذين ساعدوا في الاختبار.
IPMatika لمحطة Yealink VC880 وقاعة اجتماعات و Yakushin Yura.
شركة Smart-AV - للحصول على حق المراجعة الأولى والحصرية للحل وتوفير نظام SmartCam A12 Voice Tracking للاختبار.

في مقال سابق ، مصمم غرفة الاجتماعات عبر الإنترنت - اختيار الحل الأمثل لـ VKS ، كترويج لموقع vc4u.ru ومصمم VKS ، أعلنا عن خصم بنسبة 10٪ في سعر الكتالوج باستخدام كلمة HABR المشفرة حتى نهاية صيف 2019.

ينطبق الخصم على المنتجات في الأقسام:



بالنسبة للتتبع الصوتي SmartCam A12 ، أقدم خصمًا إضافيًا بنسبة 5٪ على النسبة الحالية البالغة 10٪ - أي ما مجموعه 15٪ حتى نهاية صيف عام 2019.

في انتظار تعليقاتك وإجاباتك في الاستطلاع!

شكرا لاهتمامكم
مع خالص التقدير،
كيريل أوسيكوف ( أوسيكوف )
رئيس الاتجاه
الدوائر التلفزيونية المغلقة وأنظمة الفيديو كونفرنس
1@stss.ru
stss.ru
vc4u.ru

Source: https://habr.com/ru/post/ar459038/


All Articles