♍️ 🛁 👼🏽 Die Sprachführung der Kamera ist zugänglicher geworden - die universelle SmartCam A12 Voice Tracking-Lösung 🌞 🌼 😜

Das Thema, einen sprechenden Teilnehmer einer Videokonferenz in den letzten Jahren zu verfolgen, hat an Dynamik gewonnen. Die Technologien ermöglichten die Implementierung komplexer Algorithmen zur Verarbeitung von Audio- / Videoinformationen in Echtzeit, was Polycom vor fast 10 Jahren dazu veranlasste, die weltweit erste Massenlösung mit intelligenter automatischer Lautsprecherverfolgung einzuführen. Es gelang ihnen mehrere Jahre, die alleinigen Eigentümer einer solchen Lösung zu bleiben, aber Cisco brauchte nicht lange, um zu warten, und brachte ihre Version des intelligenten Zweikammersystems auf den Markt, das mit der Polycom-Lösung fair konkurrierte. Seit vielen Jahren ist dieses Segment der Videokonferenzen durch die Funktionen mehrerer proprietärer Produkte eingeschränkt. Dieser Artikel widmet sich jedoch der ersten universellen Sprachführungslösung, die sowohl mit der Hardware- als auch der Software-Infrastruktur der Videokonferenzen kompatibel ist.
Bevor ich mit der Beschreibung der Lösungen und der Demonstration der Möglichkeiten fortfahre, möchte ich ein wichtiges Ereignis erwähnen:
Es ist mir eine Ehre, der Habr-Community den neuen Hub für Videokonferenzlösungen (VKS) vorzustellen. Dank gemeinsamer Bemühungen (meine und UFOs) hat Videokonferenzen jetzt ein eigenes Zuhause auf Habré, und ich lade alle, die bisher an diesem umfangreichen und relevanten Thema beteiligt waren, ein, den neuen Hub zu abonnieren.

Zwei Szenarien, in denen die Kamera auf den Lautsprecher gerichtet ist

Derzeit wählen die VKS-Lösungsintegratoren zwei verschiedene Möglichkeiten, um die Aufgabe des Zeigens auf den Sprecher zu realisieren:

Automatisch - Intelligent
Halbautomatisch - programmierbar

Die erste Option sind nur die Lösungen von Cisco, Polycom und anderen Herstellern. Wir werden sie im Folgenden betrachten. Hier geht es um die vollständige Automatisierung des Richtens der Kamera auf einen sprechenden Teilnehmer einer Videokonferenz. Einzigartige Algorithmen zur Verarbeitung von Audio- / Videosignalen ermöglichen es der Kamera, die gewünschte Position selbst auszuwählen.

Die zweite Option sind Automatisierungssysteme, die auf verschiedenen externen Steuerungen basieren. Wir werden sie nicht im Detail betrachten, da Dieser Artikel konzentriert sich auf die automatische Verfolgung von Lautsprechern.
Es gibt nicht wenige Befürworter des zweiten Szenarios für die Implementierung der Kameraleitung, und es gibt Gründe dafür. Erfahrene Integratoren wissen, dass intelligente Lösungen von Polycom und Cisco ideale Betriebsbedingungen für eine Vollzeitautomatisierung erfordern. Solche Bedingungen sind jedoch nicht immer möglich, sodass die folgende Lösung für die Kameraausrichtungsaufgabe manchmal eine Garantie für das System darstellt:

1. Im Speicher der Kamera (oder manchmal im Steuerungscontroller) werden alle erforderlichen Voreinstellungen (die Position des Drehgeräts und das optische Zoomverhältnis) vorab manuell eingegeben. Dies ist in der Regel der allgemeine Plan des Besprechungsraums und die Ansicht jedes Konferenzteilnehmers im Hochformat.

2. Als nächstes werden die Initiatoren des Anrufs der erforderlichen Voreinstellung an den angegebenen Stellen installiert - dies sind entweder Mikrofonkonsolen oder Optionsfelder, im Allgemeinen jedes Gerät, das dem Steuercontroller ein Signal geben kann, das er versteht.

3. Die Steuerung ist so programmiert, dass jeder Initiator seine eigene Voreinstellung hat. Allgemeiner Raumplan - Alle Initiatoren sind ausgeschaltet.
Wenn Sie beispielsweise ein Kongresssystem und einen Steuerungscontroller verwenden, aktiviert der Sprecher seine persönliche Mikrofonkonsole, bevor er mit seiner Rede beginnt. Das Steuerungssystem erfüllt sofort die gespeicherte Position der Kamera.

Dieses Szenario funktioniert einwandfrei - das System muss keine Sprachtriangulation und Videoanalyse durchführen. Drücken Sie die Taste - die Voreinstellung funktionierte, keine Verzögerungen oder Fehlalarme.
Steuerungs- und Automatisierungssysteme werden in großen, komplexen Räumen eingesetzt, in denen manchmal nicht eine, sondern mehrere Kameras installiert sind. Für kleine und mittlere Besprechungsräume sind automatische Systeme (wenn Sie ein Budget haben) gut geeignet.
Beginnen wir mit den Gründervätern.

Polycom EagleEye Direktor

Einmal machte diese Entscheidung im Bereich der Videokonferenzen Aufsehen. Polycom EagleEye Director ist die erste intelligente Kamera-Ziellösung. Die Lösung besteht aus einer EagleEye Director-Basiseinheit und zwei Kameras. Ein Merkmal dieser ersten Implementierung ist, dass eine Kamera nur einer großen Ansicht des Sprechers und die zweite dem allgemeinen Plan des Besprechungsraums zugeordnet ist. Gleichzeitig kann die Generalplan-Kamera in der Regel getrennt von der Basis an einer anderen Stelle im Besprechungsraum platziert werden - sie nimmt nicht direkt am automatischen Führungsprozess teil.
Das System funktioniert wie folgt:

Die Kamera des allgemeinen Raumplans ist aktiv - alle schweigen
Der Lautsprecher beginnt zu sagen: Das Mikrofonarray nimmt die Stimme auf, die Kamera bewegt sich mithilfe einer patentierten Technologie, die eine Sprachtriangulation umfasst, in Richtung Ton. Noch aktive Masterkamera
Die Hauptkamera beginnt gerade mit der Suche nach einer Tonquelle und führt Videoanalysen durch. Das System ermittelt den Lautsprecher über die Auge-Nase-Mund-Verbindung, rahmt das Bild mit dem Lautsprecher ein und zeigt den Stream von der Hauptkamera an
Der Lautsprecher wechselt. Das Mikrofonarray versteht, dass eine Stimme von einem anderen Ort gehört wird. Auch hier ist der allgemeine Plan enthalten.
Und weiter ab Punkt 2
Befindet sich der neue Lautsprecher in einem Rahmen mit dem vorherigen, ändert das System die Positionierung in „heiß“, ohne den aktiven Fluss in den allgemeinen Plan zu ändern.

Der Nachteil ist meiner Meinung nach das Vorhandensein nur einer Hauptkamera. Dies führt zu einer erheblichen Verzögerung beim Lautsprecherwechsel. Und jedes Mal im Moment der Führung enthält das System einen allgemeinen Raumplan - bei einem lebhaften Gespräch beginnt dieses Flackern zu nerven.

Polycom EagleEye Director II

Dies ist die zweite Version der Lösung von Polycom, die vor relativ kurzer Zeit veröffentlicht wurde. Das Funktionsprinzip wurde geändert und ähnelt eher einer Lösung von Cisco. Jetzt sind beide PTZ-Kameras die Hauptkameras und dienen zum nahtlosen Umschalten von Kanälen von einem Lautsprecher zum anderen. Für den allgemeinen Plan des Besprechungsraums ist jetzt eine separate Kamera verantwortlich, die in die Basis der EagleEye Director II-Basiseinheit integriert ist. Der Stream dieser Weitwinkelkamera wird aus irgendeinem Grund in einem zusätzlichen Fenster in der Ecke des Bildschirms angezeigt, das 1/9 des Hauptstroms einnimmt. Das Prinzip der Positionierung ist dasselbe - Sprachtriangulation und Videostream-Analyse. Und die Engpässe sind dieselben: Wenn das System den sprechenden Mund nicht sieht, wird die Kamera nicht eingeschaltet. Aber eine solche Situation kann ziemlich oft vorkommen - der Sprecher wandte sich ab, der Sprecher drehte sich zur Seite, der Sprecher - Bauchredner, der Sprecher blockierte seinen Mund mit einer Hand oder einem Dokument.
Beide Werbevideos wurden korrekt aufgenommen - 2 Personen sprechen nacheinander und öffnen den Mund wie beim Termin eines Logopäden. Aber selbst unter solch raffinierten Bedingungen gibt es eine sehr signifikante Verzögerung. Auf der anderen Seite ist die Rahmung einwandfrei - ein komfortabler Porträtplan.

Cisco TelePresence SpeakerTrack 60

Ich werde den Text in der offiziellen Broschüre verwenden, um diese Lösung zu beschreiben.
SpeakerTrack 60 verwendet einen einzigartigen Zwei-Kamera-Ansatz, um schnell direkt zwischen den Teilnehmern zu wechseln. Eine Kamera findet schnell eine Nahaufnahme des aktiven Präsentators und die andere sucht und zeigt den nächsten Präsentator an. Die MultiSpeaker-Funktion verhindert unnötiges Umschalten, wenn der nächste Präsentator bereits im aktuellen Frame vorhanden ist.
Leider hatte ich nicht die Möglichkeit, SpeakerTrack 60 selbst zu testen. Daher ist es notwendig, Schlussfolgerungen in der Stellungnahme „aus dem Feld“ und gemäß den Ergebnissen der Analyse des folgenden Demo-Videos zu ziehen. Ich habe die maximale Verzögerung von fast 8 Sekunden berechnet, wenn ich über einem neuen Lautsprecher schwebe. Die durchschnittliche Verzögerung betrug 2-3 Sekunden, gemessen am Video.

HUAWEI Intelligent Tracking Videokamera VPT300

Ich bin zufällig auf diese Lösung von Huawei gestoßen. Die Kosten des Systems betragen ca. 9.000 US-Dollar. Funktioniert nur mit Huawei-Terminals. Die Entwickler haben ihren „Trick“ hinzugefügt - das Layout auf einem Bildschirm des Videos aus zwei Lautsprechern, wenn sich sonst niemand im Raum befindet. Entsprechend den Merkmalen und der deklarierten Funktionalität ist dies eine sehr interessante Version des automatischen Leitsystems. Leider habe ich absolut kein Demomaterial gefunden. Das einzige Video, das zu diesem Thema fiel, ist eine gemountete Videoüberprüfung der Lösung ohne Originalton zur Musik. Daher war es nicht möglich, die Qualität des Systems zu bewerten. Aus diesem Grund werde ich diese Option nicht in Betracht ziehen.
Ich sehe, dass Huawei einen aktiven Blog über Habré hat - vielleicht können Kollegen nützliche Informationen zu diesem Produkt veröffentlichen.

Neu - Universal SmartCam A12 Voice Tracking- Lösung

Die SmartCam A12VT ist ein Schokoriegel, der zwei PTZ-Kameras zur Verfolgung von Lautsprechern, zwei eingebaute Kameras zur Analyse des allgemeinen Raumplans sowie ein in die Basis des Gehäuses eingebautes Mikrofonarray enthält - wie Sie sehen können, gibt es keine sperrigen und zerbrechlichen Strukturen wie die der Gegner.
Bevor ich mit der Beschreibung des neuen Produkts beginne , werde ich die Merkmale und Funktionen der Lösungen von Cisco und Polycom zusammenstellen, damit Sie die SmartCam A12VT mit vorhandenen Angeboten vergleichen können.

Polycom EagleEye Direktor

Einzelhandelskosten des Systems ohne Terminal - 13.000 USD
Die Mindestkosten für die EagleEye Director + RealPresence Group 500-Lösung betragen 19.000 USD
3 Sekunden durchschnittliche Schaltverzögerung
Sprachführung + Videoanalyse
Hohe Anforderungen an das Gesicht des Sprechers - Sie können Ihren Mund nicht verbergen
Inkompatibilität mit Geräten von Drittanbietern

Cisco TelePresence SpeakerTrack 60

Einzelhandelskosten des Systems ohne Terminal - 15,9.000 USD
TelePresence SpeakerTrack 60 + SX80 Codec Mindestkosten - 30.000 USD
3 Sekunden durchschnittliche Schaltverzögerung
Sprachführung + Videoanalyse
Anforderungen an das Gesicht des Sprechers - nicht überprüft, keine Informationen gefunden
Inkompatibilität mit Geräten von Drittanbietern

SmartCam A12 Voice Tracking

Einzelhandelskosten des Systems ohne Terminal - 6,2.000 USD
Die Mindestkosten für die SmartCam A12VT + Yealink VC880-Lösung betragen 10,8.000 USD
Die Mindestkosten für das SmartCam A12VT + Software-Terminal betragen 7,7.000 USD
3 Sekunden durchschnittliche Schaltverzögerung
Sprachführung + Videoanalyse
Lautsprecheranforderungen - keine Anforderungen
Hardwarekompatibilität von Drittanbietern - HDMI

Als die beiden wichtigsten und unbestreitbaren Vorteile der SmartCam A12 Voice Tracking- Lösung finde ich:

Universelle Verbindung - Über HDMI lässt sich das System in Hardware- und Software-Terminalsysteme des VKS integrieren
Niedrige Kosten - Mit ähnlichen Funktionen ist A12VT im Budget um ein Vielfaches günstiger als die oben genannten Vorschläge.

Um die Funktionsweise des Systems zu demonstrieren, haben wir eine Videoüberprüfung aufgezeichnet. Die Aufgabe war weniger Werbung als vielmehr funktional. Daher wird dem Video das Pathos des Polikomovsky-Promo-Videos entzogen. Als Veranstaltungsort für die Präsentation haben wir nicht den Vertreter ausgewählt, sondern den Labor-Besprechungsraum unseres Partners IPMatika.
Mein Ziel war es nicht, die Fehler des Systems zu verbergen, sondern die Engpässe der Funktion aufzudecken, damit das System einen Fehler macht.

Meiner Meinung nach wurde das System erfolgreich getestet. Ich erkläre dies mit Zuversicht, da die SmartCam A12 Voice Tracking- Lösung zum Zeitpunkt dieses Schreibens Dutzende realer Besprechungsräume für unsere Kunden besucht hat. Verstöße gegen den Automatisierungsbetrieb wurden ausschließlich unter Verstoß gegen die empfohlenen Betriebsregeln festgestellt. Insbesondere - der Mindestabstand zu den nächstgelegenen Teilnehmern. Wenn Sie weniger als einen Meter in der Nähe der Kamera sitzen, kann das Mikrofonarray Sie nicht erkennen und das Objektiv kann verfolgt werden.

Neben der Entfernung gibt es noch eine weitere Anforderung - die Höhe der Kamera.

Wenn die Kamera zu niedrig eingestellt ist, kann es zu Problemen bei der Sprachpositionierung kommen. Die Option unter dem Fernseher hat leider nicht funktioniert.
Die Montage des Systems über dem Display ist jedoch die ideale Funktionsweise des Geräts. Ein Regal für die Kamera ist im Lieferumfang enthalten, nur eine Wandhalterung wird unterstützt.

Funktionsweise von SmartCam A12 Voice Tracking

Die Haupt-PTZ-Objektive haben die gleiche Rolle - ihre Aufgabe besteht darin, die Lautsprecher abwechselnd zu verfolgen und den Gesamtplan anzuzeigen. Die Analyse des Gesamtbildes im Raum und die Bestimmung der Entfernung zu Objekten erfolgt mithilfe von Videostreams, die von zwei in die Basis des Systems integrierten Kameras empfangen werden. Mit dieser Funktion können Sie die Reaktionszeit des Objektivs beim Wechseln des Lautsprechers auf bis zu 1-2 Sekunden reduzieren. Die Kamera schafft es, die Teilnehmer in einem angenehmen Rhythmus abzuwechseln, auch wenn sie kurze Sätze austauschen.
Eine Videodemonstration des Systems spiegelt die Funktionalität der SmartCam A12VT vollständig wider. Aber für diejenigen, die das Video nicht gesehen haben, werde ich das Prinzip der Automatisierung in Worten beschreiben:

Der Raum ist leer: Eine der Linsen zeigt den allgemeinen Plan, die zweite ist fertig - wartet auf Menschen
Menschen betreten den Raum und setzen sich: Eine freie Linse findet die beiden extremen Teilnehmer und rahmt das Bild auf ihnen ein, wobei der leere Teil des Raums beschnitten wird
Während sich Menschen bewegen, verfolgen die Linsen abwechselnd alle Personen im Raum und halten sie in der Mitte des Rahmens
Der Sprecher beginnt zu sagen: Ein auf den allgemeinen Plan abgestimmtes aktives Objektiv ist aktiv. Die zweite richtet sich an den Sprecher und wechselt erst dann in den Broadcast-Modus
Der Lautsprecher ändert sich: Ein auf den ersten Lautsprecher abgestimmtes aktives Objektiv ist aktiv, und das zweite Objektiv wirft einen allgemeinen Plan und passt sich an einen neuen Lautsprecher an
Beim Umschalten des Bildes vom ersten auf den zweiten Lautsprecher wird das freie Objektiv sofort an den allgemeinen Raumplan angepasst
Wenn alles still ist, zeigt ein freies Objektiv ohne Verzögerungen einen vorgefertigten allgemeinen Plan an.
Wenn sich der Lautsprecher erneut ändert, sucht ein freies Objektiv nach ihm

Fazit

Meiner Meinung nach bringt diese Lösung, die letztes Jahr auf der ISE und dem ISR vorgestellt wurde, die Hochtechnologie näher - wenn nicht den Menschen, dann mit Sicherheit dem Unternehmen. Es ist klar, dass für 400.000 Rubel nur wenige Menschen ein solches „Spielzeug“ kaufen werden, aber für Unternehmen, für Unternehmensvideokonferenzen, ist dies eine sehr kostengünstige und bequeme Lösung für die automatische Führungsaufgabe der Kamera.
Aufgrund der Vielseitigkeit von SmartCam A12 Voice Tracking kann das System als Lösung von Grund auf oder als Erweiterung der Funktionalität einer vorhandenen VKS-Infrastruktur verwendet werden. Das Anschließen über HDMI ist im Gegensatz zu den oben beschriebenen proprietären Systemen der Hersteller ein großer Schritt für den Benutzer.

Ich möchte den Partnern danken, die bei den Tests mitgewirkt haben.
IPMatika für Yealink VC880 Terminal, Tagungsraum und Yakushin Yura.
Smart-AV Company - für das Recht auf die erste und exklusive Überprüfung der Lösung und die Bereitstellung des SmartCam A12 Voice Tracking-Systems zum Testen.

In einem früheren Artikel, dem Online Meeting Room Designer - Auswahl der optimalen VKS-Lösung als Werbung für die Website vc4u.ru und den VKS Designer - haben wir bis Ende Sommer 2019 mit dem HABR-Codewort einen Rabatt von 10% auf den Katalogpreis angekündigt.

Der Rabatt gilt für Produkte in den Abschnitten:

Für SmartCam A12 Voice Tracking biete ich einen zusätzlichen Rabatt von 5% auf die bestehenden 10% - insgesamt 15% bis zum Ende des Sommers 2019.

Warten auf Ihre Kommentare und Antworten in der Umfrage!

Vielen Dank für Ihre Aufmerksamkeit.
Mit freundlichen Grüßen,
Kirill Usikov ( Usikoff )
Leiter der Richtung
CCTV- und Videokonferenzsysteme
1@stss.ru
stss.ru
vc4u.ru

Die Sprachführung der Kamera ist zugänglicher geworden - die universelle SmartCam A12 Voice Tracking-Lösung