Le guidage vocal de la caméra est devenu plus accessible - la solution universelle de suivi vocal SmartCam A12

Le sujet du suivi d'un participant parlant à une vidéoconférence au cours des dernières années a pris de l'ampleur. Les technologies ont permis de mettre en œuvre des algorithmes complexes pour le traitement des informations audio / vidéo en temps réel, ce qui a incité Polycom, il y a près de 10 ans, à introduire la première solution de masse au monde avec un suivi automatique intelligent des haut-parleurs. Pendant plusieurs années, ils ont réussi à rester les seuls propriétaires d'une telle solution, mais Cisco n'a pas tardé à attendre et a mis sur le marché leur version du système intelligent à deux chambres, qui concurrençait équitablement la solution Polycom. Depuis de nombreuses années, ce segment de la visioconférence est limité par les capacités de plusieurs produits propriétaires , mais cet article est consacré à la première solution universelle de guidage de la caméra par la voix, compatible avec l'infrastructure matérielle et logicielle de la visioconférence.
Avant de passer à la description des solutions et à la démonstration des possibilités, je voudrais noter un événement important:
Je suis honoré de présenter le nouveau hub à la communauté Habr dédiée aux solutions de visioconférence (VKS). Maintenant, grâce à des efforts conjoints (le mien et les OVNIS), la vidéoconférence a sa propre maison sur Habré, et j'invite toutes les personnes impliquées dans ce sujet vaste et pertinent à ce jour à s'abonner à un nouveau hub .

Deux scénarios de pointage de la caméra vers le haut-parleur


À l'heure actuelle, les intégrateurs de solutions VKS choisissent eux-mêmes deux façons différentes de réaliser la tâche de pointer vers le haut-parleur:

  1. Automatique - Intelligent
  2. Semi-automatique - programmable

La première option n'est que les solutions de Cisco, Polycom et d'autres fabricants, nous les considérerons ci-dessous. Il s'agit ici de l'automatisation complète du pointage de la caméra vers un participant parlant à une vidéoconférence. Des algorithmes uniques de traitement des signaux audio / vidéo permettent à la caméra de sélectionner seule la position souhaitée.

La deuxième option est les systèmes d'automatisation basés sur divers contrôleurs externes, nous ne les examinerons pas en détail, car Cet article se concentre sur le suivi automatique des haut-parleurs.
Il n'y a pas peu de partisans du deuxième scénario pour la mise en œuvre du guidage par caméra, et il y a des raisons à cela. Les intégrateurs expérimentés comprennent que les solutions intelligentes de Polycom et Cisco nécessitent des conditions de fonctionnement idéales pour une automatisation à plein temps. Mais de telles conditions ne sont pas toujours possibles, de sorte que la solution suivante à la tâche de pointage de la caméra devient parfois une garantie du système:

1. Dans la mémoire de l'appareil photo (ou parfois dans le contrôleur de contrôle), tous les préréglages nécessaires (la position du dispositif rotatif et le taux de zoom optique) sont entrés manuellement à l'avance. En règle générale, il s'agit du plan général de la salle de réunion et de la vue de chaque participant à la conférence en mode portrait.

2. De plus, les initiateurs de l'appel du préréglage requis sont installés aux endroits spécifiés - ce sont soit des consoles de microphone ou des boutons radio, en général, tout appareil qui peut donner au contrôleur de contrôle un signal qu'il comprend.

3. Le contrôleur de contrôle est programmé pour que chaque initiateur ait son propre préréglage. Plan général de la salle - tous les initiateurs sont désactivés.
Par conséquent, lorsque vous utilisez un système de congrès, par exemple, et un contrôleur de contrôle, le haut-parleur active sa console de microphone personnelle avant de commencer son discours. Le système de contrôle remplit instantanément la position enregistrée de la caméra.

Ce scénario fonctionne parfaitement - le système n'a pas besoin d'effectuer de triangulation vocale et d'analyse vidéo. Appuyez sur le bouton - le préréglage a fonctionné, pas de retards ou de faux positifs.
Les systèmes de contrôle et d'automatisation sont utilisés dans de grandes pièces complexes, où parfois pas une, mais plusieurs caméras sont installées. Eh bien, pour les salles de réunion petites et moyennes, les systèmes automatiques (si vous avez un budget) sont tout à fait adaptés.
Commençons par les pères fondateurs.

Directeur Polycom EagleEye


Une fois cette décision a fait sensation dans le domaine de la visioconférence. Polycom EagleEye Director est la première solution de visée de caméra intelligente. La solution consiste en une unité de base EagleEye Director et deux caméras. Une caractéristique de cette première implémentation est qu'une caméra n'est affectée qu'à une vue large de l'orateur, et la seconde au plan général de la salle de réunion. Dans le même temps, la caméra du plan général peut être placée généralement séparément de la base dans un autre endroit de la salle de réunion - elle ne participe pas directement au processus de guidage automatique.
Le système fonctionne comme suit:

  1. La caméra du plan général de la pièce est active - tout le monde se tait
  2. Le haut-parleur commence à dire - le réseau de microphones capte la voix, la caméra se déplace vers le son en utilisant une technologie brevetée qui inclut la triangulation de la voix. Caméra maître toujours active
  3. La caméra principale commence tout juste à rechercher une source sonore, effectuant des analyses vidéo. Le système détermine le haut-parleur à l'aide de la connexion œil-nez-bouche, encadre l'image avec le haut-parleur et affiche le flux de la caméra principale
  4. Le haut-parleur change. Le réseau de microphones comprend qu'une voix est entendue d'un autre endroit. Encore une fois, le plan général est inclus.
  5. Et plus loin, à partir du point 2
  6. Si le nouveau haut-parleur est dans un cadre avec le précédent, le système change le positionnement en «chaud» sans changer le flux actif au plan général.

L'inconvénient, à mon avis, est la présence d'un seul appareil photo principal. Cela entraîne un retard important lors du changement d'enceinte. Et à chaque fois au moment de l'orientation, le système comprend un plan général de la pièce - avec une conversation animée, ce scintillement commence à ennuyer.



Polycom EagleEye Director II


Il s'agit de la deuxième version de la solution de Polycom, qui a été publiée relativement récemment. Le principe de fonctionnement a subi des modifications et est devenu plus comme une solution de Cisco. Maintenant, les deux caméras PTZ sont les principales et servent à la commutation transparente des canaux d'un haut-parleur à l'autre. Pour le plan général de la salle de réunion, une caméra distincte est désormais responsable, intégrée dans la base de l'unité de base EagleEye Director II. Le flux de cette caméra grand angle est affiché pour une raison quelconque dans une fenêtre supplémentaire dans le coin de l'écran, occupant 1/9 du flux principal. Le principe de positionnement est le même: triangulation de la voix et analyse du flux vidéo. Et les goulots d'étranglement sont les mêmes: si le système ne voit pas la bouche parlante, la caméra ne sera pas amenée. Mais une telle situation peut se produire assez souvent - l'orateur s'est détourné, l'orateur a tourné sur le côté, l'orateur - ventriloque, l'orateur s'est bouché la bouche avec une main ou un document.
Les deux vidéos promotionnelles ont été tournées correctement - 2 personnes parlent à leur tour et ouvrent la bouche comme lors d'un rendez-vous avec un orthophoniste. Mais même dans des conditions aussi raffinées, il y a un retard très important. Mais, d'autre part, le cadrage est impeccable - un plan de portrait confortable.



Cisco TelePresence SpeakerTrack 60


J'utiliserai le texte de la brochure officielle pour décrire cette solution.
SpeakerTrack 60 adopte une approche unique à deux caméras pour basculer rapidement entre les participants. Une caméra trouve rapidement un gros plan du présentateur actif, et l'autre recherche et affiche le présentateur suivant. La fonction MultiSpeaker empêche la commutation inutile si le présentateur suivant est déjà présent dans la trame actuelle.
Malheureusement, je n'ai pas eu l'occasion de tester SpeakerTrack 60 moi-même. Par conséquent, il est nécessaire de tirer des conclusions dans l'avis «sur le terrain» et selon les résultats de l'analyse de la vidéo de démonstration ci-dessous. J'ai calculé le délai maximum de près de 8 secondes lorsque je survole un nouveau haut-parleur. Le retard moyen était de 2-3 secondes, à en juger par la vidéo.



Caméra vidéo de suivi intelligente HUAWEI VPT300


Je suis tombé sur cette solution de Huawei par accident. Le coût du système est d'environ 9 000 $. Fonctionne uniquement avec les terminaux Huawei. Les développeurs ont ajouté leur «astuce» - la mise en page sur un écran de la vidéo à partir de deux haut-parleurs, s'il n'y a personne d'autre dans la pièce. Selon les caractéristiques et la fonctionnalité déclarée - il s'agit d'une version très intéressante du système de guidage automatique. Mais, malheureusement, je n'ai trouvé absolument aucun matériel de démonstration. La seule vidéo qui est tombée sur ce sujet est une revue vidéo montée de la solution, sans le son d'origine, à la musique. Ainsi, il n'a pas été possible d'évaluer la qualité du système. Pour cette raison, je ne considérerai pas cette option.
Je vois que Huawei a un blog actif sur Habré - peut-être que ses collègues peuvent publier des informations utiles sur ce produit.

Nouveau - Solution universelle de suivi vocal SmartCam A12


La SmartCam A12VT est un monobloc qui comprend deux caméras PTZ pour le suivi des haut-parleurs, deux caméras intégrées pour analyser le plan général de la pièce, ainsi qu'un réseau de microphones intégré à la base du boîtier - comme vous pouvez le voir, il n'y a pas de structures volumineuses et fragiles comme celles des adversaires.
Avant de commencer à décrire le nouveau produit, je vais rassembler les caractéristiques et les fonctionnalités des solutions de Cisco et Polycom, afin que vous puissiez comparer la SmartCam A12VT avec les offres existantes.

Directeur Polycom EagleEye

  • Coût de détail du système sans terminal - 13 000 $
  • Le coût minimum de la solution EagleEye Director + RealPresence Group 500 est de 19 000 $
  • Délai de commutation moyen de 3 secondes
  • Guidage vocal + analyse vidéo
  • Exigences élevées pour le visage de l'orateur - vous ne pouvez pas cacher votre bouche
  • Incompatibilité avec des équipements tiers


Cisco TelePresence SpeakerTrack 60

  • Coût de détail du système sans terminal - 15,9 K $
  • TelePresence SpeakerTrack 60 + SX80 Codec Coût minimum - 30 000 $
  • Délai de commutation moyen de 3 secondes
  • Guidage vocal + analyse vidéo
  • Exigences pour le visage de l'orateur - n'a pas vérifié, n'a pas trouvé d'informations
  • Incompatibilité avec des équipements tiers


Suivi vocal SmartCam A12



En tant que deux avantages principaux et incontestables de la solution de suivi vocal SmartCam A12 , je trouve:

  1. Universalité de connexion - via HDMI, le système s'intègre aux systèmes de terminaux matériels et logiciels du VKS
  2. Faible coût - avec des fonctionnalités similaires, A12VT est plusieurs fois plus abordable sur le budget que les propositions ci-dessus.


Pour démontrer le fonctionnement du système, nous avons enregistré une revue vidéo. La tâche n'était pas tant publicitaire que fonctionnelle. Par conséquent, la vidéo est dépourvue du pathétique de la vidéo promo Polikomovsky. Comme lieu de présentation, nous n'avons pas choisi le représentant, mais la salle de réunion de laboratoire de notre partenaire IPMatika.
Mon objectif n'était pas de masquer les failles du système, mais plutôt d'exposer les goulots d'étranglement du fonctionnel, de faire faire une erreur au système.



À mon avis, le système a été testé avec succès. Je le déclare avec confiance, car au moment d'écrire ces lignes , la solution de suivi vocal SmartCam A12 a visité des dizaines de salles de réunion réelles pour nos clients. Une violation du fonctionnement de l'automatisation a été observée exclusivement en violation des règles de fonctionnement recommandées. En particulier - la distance minimale aux participants les plus proches. Si vous êtes assis très près de la caméra, à moins d'un mètre - le réseau de microphones ne pourra pas vous reconnaître et l'objectif pourra être suivi.



En plus de la distance, il y a une autre exigence - la hauteur de la caméra.



Si l'appareil photo est réglé trop bas, il peut y avoir des problèmes de positionnement vocal. L'option sous le téléviseur, malheureusement, n'a pas fonctionné.
Mais le montage du système sur les moyens d'affichage est le moyen idéal de fonctionnement de l'appareil. Une étagère pour la caméra est incluse, seul un support mural est pris en charge.

Fonctionnement du suivi vocal SmartCam A12


Les objectifs PTZ principaux ont des rôles égaux - leur tâche consiste à suivre alternativement les haut-parleurs et à afficher le plan global. L'analyse de l'image globale dans la pièce et la détermination de la distance aux objets sont effectuées à l'aide de flux vidéo reçus de deux caméras intégrées dans la base du système. Cette fonction vous permet de réduire le temps de réaction de l'objectif, lors du changement d'enceinte, jusqu'à 1-2 secondes. La caméra parvient à alterner les participants à un rythme confortable, même s'ils échangent de courtes phrases.
Une démonstration vidéo du système reflète pleinement les fonctionnalités de la SmartCam A12VT . Mais, pour ceux qui n'ont pas regardé la vidéo, je vais décrire en mots le principe de l'automatisation:

  1. La salle est vide: une des lentilles montre le plan général, la seconde est prête - en attendant les gens
  2. Les gens entrent dans la pièce et s'assoient: une lentille libre trouve les deux participants extrêmes et encadre l'image sur eux, recadrant la partie vide de la pièce
  3. Pendant que les gens bougent, les lentilles suivent à tour de rôle tout le monde dans la pièce, en les maintenant au centre de la monture
  4. L'orateur commence à dire: un objectif actif réglé sur le plan général est actif. Le second est destiné au haut-parleur et passe ensuite en mode de diffusion
  5. Le haut-parleur change: un objectif actif réglé sur le premier haut-parleur est actif, et le deuxième objectif jette un plan général et s'adapte à un nouveau haut-parleur
  6. Au moment de basculer l'image du premier haut-parleur vers le second, l'objectif libre est instantanément ajusté au plan général de la pièce
  7. Si tout est silencieux, un objectif gratuit affichera un plan général prêt à l'emploi sans aucun retard.
  8. Si l'orateur change à nouveau - un objectif gratuit ira à sa recherche


Conclusion


À mon avis, cette solution, présentée à ISE et ISR l'année dernière, rapproche la haute technologie - sinon aux gens, puis aux entreprises à coup sûr. Il est clair que pour 400 000 roubles, peu de gens achèteront un tel «jouet» à la maison, mais pour les entreprises, pour la visioconférence d'entreprise, il s'agit d'une solution très abordable et pratique pour la tâche d'autoguidage de la caméra.
Compte tenu de la polyvalence du suivi vocal SmartCam A12 , le système peut être utilisé comme une solution à partir de zéro, ou comme une extension des fonctionnalités d'une infrastructure VKS existante. La connexion via HDMI est un grand pas vers l'utilisateur, contrairement aux systèmes propriétaires des fabricants décrits ci-dessus.

Je tiens à remercier les partenaires qui ont participé aux tests.
IPMatika pour terminal Yealink VC880, salle de réunion et Yakushin Yura.
Société Smart-AV - pour le droit de la première et exclusive révision de la solution et la fourniture du système de suivi vocal SmartCam A12 pour les tests.

Dans un article précédent, le concepteur de salle de réunion en ligne - sélection de la solution VKS optimale , comme promotion du site Web vc4u.ru et du concepteur VKS, nous avons annoncé une remise de 10% sur le prix du catalogue en utilisant le mot de code HABR jusqu'à la fin de l'été 2019.

La remise s'applique aux produits des sections:



Pour SmartCam A12 Voice Tracking, j'offre un rabais supplémentaire de 5% sur les 10% existants - un total de 15% jusqu'à la fin de l'été 2019.

En attente de vos commentaires et réponses dans l'enquête!

Merci de votre attention.
Cordialement
Kirill Usikov ( Usikoff )
Chef de direction
CCTV et systèmes de visioconférence
1@stss.ru
stss.ru
vc4u.ru

Source: https://habr.com/ru/post/fr459038/


All Articles