La guía de voz de la cámara se ha vuelto más accesible: la solución universal de seguimiento de voz SmartCam A12

El tema del seguimiento de un participante que habla en una videoconferencia en los últimos años ha cobrado impulso. Las tecnologías permitieron implementar algoritmos complejos para procesar información de audio / video en tiempo real, lo que llevó a Polycom, hace casi 10 años, a presentar la primera solución masiva del mundo con seguimiento inteligente de altavoces automáticos. Durante varios años se las arreglaron para seguir siendo los únicos propietarios de dicha solución, pero Cisco no tardó mucho en esperar y lanzó al mercado su versión del sistema inteligente de dos cámaras, que compitió de manera justa con la solución de Polycom. Durante muchos años, este segmento de la videoconferencia ha estado limitado por las capacidades de varios productos patentados , pero este artículo está dedicado a la primera solución de guía de voz universal que es compatible con la infraestructura de hardware y software de la videoconferencia.
Antes de pasar a describir las soluciones y demostrar las posibilidades, quiero señalar un evento importante:
Me siento honrado de presentar el nuevo centro a la comunidad Habr dedicada a las soluciones de videoconferencia (VKS). Ahora, gracias a los esfuerzos conjuntos (minas y ovnis), la videoconferencia tiene su propio hogar en Habré, e invito a todos los involucrados en este tema extenso y relevante hasta la fecha a suscribirse al nuevo centro .

Dos escenarios de apuntar la cámara al orador


Por el momento, los integradores de soluciones VKS eligen por sí mismos dos formas diferentes de realizar la tarea de señalar al hablante:

  1. Automático - Inteligente
  2. Semiautomático - programable

La primera opción son solo las soluciones de Cisco, Polycom y otros fabricantes, las consideraremos a continuación. Aquí nos ocupamos de la automatización completa de apuntar la cámara a un participante que habla en una videoconferencia. Algoritmos únicos para procesar señales de audio / video permiten a la cámara seleccionar la posición deseada por sí misma.

La segunda opción son los sistemas de automatización basados ​​en varios controladores externos, no los consideraremos en detalle, porque Este artículo se centra en el seguimiento automático de altavoces.
No hay pocos partidarios del segundo escenario para implementar la guía de la cámara, y hay razones para esto. Los integradores experimentados entienden que las soluciones inteligentes de Polycom y Cisco requieren condiciones de operación ideales para la automatización a tiempo completo. Pero tales condiciones no siempre son posibles, por lo que la siguiente solución para la tarea de apuntar con la cámara a veces se convierte en una garantía del sistema:

1. En la memoria de la cámara (o, a veces, en el controlador de control), todos los ajustes preestablecidos necesarios (la posición del dispositivo giratorio y la relación del zoom óptico) se ingresan manualmente por adelantado. Como regla general, este es el plan general de la sala de reuniones y la vista de cada participante de la conferencia en modo vertical.

2. Además, los iniciadores de la llamada del preajuste requerido se instalan en los lugares especificados: estas son consolas de micrófono o botones de radio, en general, cualquier dispositivo que pueda dar al controlador de control una señal que entienda.

3. El controlador de control está programado para que cada iniciador tenga su propio preajuste. Plano general de la sala: todos los iniciadores están apagados.
Como resultado, cuando se utiliza un sistema de congreso, por ejemplo, y un controlador de control, el hablante activa su consola de micrófono personal antes de comenzar su discurso. El sistema de control cumple instantáneamente la posición guardada de la cámara.

Este escenario funciona a la perfección: el sistema no necesita realizar triangulación de voz y análisis de video. Presioné el botón: el valor predeterminado funcionó, sin demoras ni falsos positivos.
Los sistemas de control y automatización se utilizan en salas grandes y complejas, donde a veces no se instalan una, sino varias cámaras. Bueno, para salas de reuniones pequeñas y medianas, los sistemas automáticos (si tiene un presupuesto) son bastante adecuados.
Comencemos con los padres fundadores.

Director de Polycom EagleEye


Una vez que esta decisión causó sensación en el campo de la videoconferencia. Polycom EagleEye Director es la primera solución de puntería de cámara inteligente. La solución consiste en una unidad base EagleEye Director y dos cámaras. Una característica de esa primera implementación es que una cámara se asigna solo a una vista grande del orador y la segunda al plan general de la sala de reuniones. Al mismo tiempo, la cámara de plano general se puede colocar generalmente por separado de la base en otro lugar de la sala de reuniones; no participa directamente en el proceso de orientación automática.
El sistema funciona de la siguiente manera:

  1. La cámara del plano general de la sala está activa: todos están en silencio
  2. El orador comienza a decir: el conjunto de micrófonos capta la voz, la cámara se mueve hacia el sonido utilizando una tecnología patentada que incluye triangulación de voz. Cámara maestra todavía activa
  3. La cámara principal está comenzando a buscar una fuente de sonido, realizando análisis de video. El sistema determina el altavoz utilizando la conexión ojo-nariz-boca, enmarca la imagen con el altavoz y muestra la transmisión desde la cámara principal
  4. El orador está cambiando. El conjunto de micrófonos comprende que se escucha una voz desde otro lugar. Nuevamente se incluye el plan general.
  5. Y más allá, comenzando desde el punto 2
  6. Si el nuevo altavoz está en un marco con el anterior, el sistema cambia el posicionamiento a "activo" sin cambiar el flujo activo al plan general.

La desventaja, en mi opinión, es la presencia de una sola cámara principal. Esto lleva a un retraso significativo al cambiar el altavoz. Y cada vez que, en el momento de la orientación, el sistema incluye un plan general de la sala; con una conversación animada, este parpadeo comienza a molestar.



Polycom EagleEye Director II


Esta es la segunda versión de la solución de Polycom, que se lanzó hace relativamente poco. El principio operativo ha sufrido cambios y se ha convertido más en una solución de Cisco. Ahora ambas cámaras PTZ son las principales y sirven para cambiar sin problemas los canales de un altavoz a otro. Para el plan general de la sala de reuniones, ahora es responsable una cámara separada, integrada en la base de la unidad base EagleEye Director II. El flujo de esta cámara gran angular se muestra por alguna razón en una ventana adicional en la esquina de la pantalla, ocupando 1/9 del flujo principal. El principio de posicionamiento es el mismo: triangulación de voz y análisis de flujo de video. Y los cuellos de botella son los mismos: si el sistema no ve la boca que habla, la cámara no entrará. Pero tal situación puede ocurrir con bastante frecuencia: el hablante se volvió, el parlante se volvió hacia un lado, el parlante - ventrílocuo, el parlante le bloqueó la boca con una mano o un documento.
Ambos videos promocionales se grabaron correctamente: 2 personas hablan por turno y abren la boca como en una cita con un terapeuta del habla. Pero incluso en condiciones tan refinadas hay un retraso muy significativo. Pero, por otro lado, el encuadre es impecable: un plan de retrato cómodo.



Cisco TelePresence SpeakerTrack 60


Usaré el texto en el folleto oficial para describir esta solución.
SpeakerTrack 60 adopta un enfoque único de dos cámaras para cambiar rápidamente directamente entre los participantes. Una cámara encuentra rápidamente un primer plano del presentador activo, y la otra busca y muestra el siguiente presentador. La función MultiSpeaker evita cambios innecesarios si el próximo presentador ya está presente en el cuadro actual.
Desafortunadamente, no tuve la oportunidad de probar SpeakerTrack 60 yo mismo. Por lo tanto, es necesario sacar conclusiones en la opinión "desde el campo" y de acuerdo con los resultados del análisis del video de demostración a continuación. Calculé el retraso máximo de casi 8 segundos al pasar el mouse sobre un nuevo altavoz. El retraso promedio fue de 2-3 segundos, a juzgar por el video.



Cámara de video de seguimiento inteligente HUAWEI VPT300


Me topé con esta solución de Huawei por accidente. El costo del sistema es de aproximadamente $ 9K. Solo funciona con terminales Huawei. Los desarrolladores agregaron su "truco": el diseño en una pantalla del video desde dos altavoces, si no hay nadie más en la sala. Según las características y la funcionalidad declarada, esta es una versión muy interesante del sistema de guía automático. Pero, desafortunadamente, no encontré absolutamente ningún material de demostración. El único video que se trató sobre este tema es una revisión de video montada de la solución, sin el sonido original, a la música. Por lo tanto, no fue posible evaluar la calidad del sistema. Por esta razón, no consideraré esta opción.
Veo que Huawei tiene un blog activo sobre Habré, tal vez los colegas puedan publicar cualquier información útil sobre este producto.

Nuevo: solución universal de seguimiento de voz SmartCam A12


SmartCam A12VT es una barra de chocolate, que incluye dos cámaras PTZ para rastrear altavoces, dos cámaras incorporadas para analizar el plan general de la sala, así como una matriz de micrófonos integrada en la base del estuche, como puede ver, no hay estructuras voluminosas y frágiles como las de los oponentes.
Antes de comenzar a describir el nuevo producto, reuniré las características y características de las soluciones de Cisco y Polycom, para que pueda comparar la SmartCam A12VT con las ofertas existentes.

Director de Polycom EagleEye

  • Costo minorista del sistema sin terminal: $ 13K
  • El costo mínimo de la solución EagleEye Director + RealPresence Group 500 es de $ 19K
  • 3 segundos de retraso promedio del interruptor
  • Guía de voz + análisis de video
  • Altos requisitos para la cara del hablante: no puede ocultar su boca
  • Incompatibilidad con equipos de terceros.


Cisco TelePresence SpeakerTrack 60

  • Costo minorista del sistema sin terminal: $ 15.9K
  • TelePresence SpeakerTrack 60 + SX80 Codec Costo mínimo - $ 30K
  • 3 segundos de retraso promedio del interruptor
  • Guía de voz + análisis de video
  • Requisitos para la cara del orador: no se verificó, no se encontró información
  • Incompatibilidad con equipos de terceros.


Seguimiento de voz SmartCam A12



Como las dos ventajas principales e indiscutibles de la solución SmartCam A12 Voice Tracking , encuentro:

  1. Universalidad de la conexión : a través de HDMI, el sistema se integra con los sistemas de terminales de hardware y software del VKS
  2. Bajo costo : con una funcionalidad similar, A12VT es varias veces más asequible en el presupuesto que las propuestas anteriores.


Para demostrar el funcionamiento del sistema, grabamos una revisión de video. La tarea no era tanto publicitaria como funcional. Por lo tanto, el video se ve privado del pathos del video promocional Polikomovsky. Como sede de la presentación, no elegimos al representante, sino a la sala de reuniones de laboratorio de nuestro socio, IPMatika.
Mi objetivo no era ocultar las fallas del sistema, sino más bien exponer los cuellos de botella de lo funcional, hacer que el sistema cometa un error.



En mi opinión, el sistema fue probado con éxito. Declaro esto con confianza, porque al momento de escribir este artículo, la solución de seguimiento de voz SmartCam A12 ha visitado docenas de salas de reuniones de la vida real para nuestros clientes. La violación de la operación de automatización se observó exclusivamente en violación de las reglas de operación recomendadas. En particular, la distancia mínima a los participantes más cercanos. Si te sientas muy cerca de la cámara, a menos de un metro, la matriz de micrófonos no podrá reconocerte y el objetivo puede rastrearse.



Además de la distancia, hay otro requisito: la altura de la cámara.



Si la cámara está configurada demasiado baja, puede haber problemas con el posicionamiento de la voz. La opción debajo del televisor, desafortunadamente, no funcionó.
Pero montar el sistema sobre los medios de visualización es la forma ideal de funcionamiento del dispositivo. Se incluye un estante para la cámara, solo se admite un soporte de pared.

Cómo funciona el seguimiento de voz SmartCam A12


Las lentes PTZ principales tienen roles iguales: su tarea es rastrear alternativamente los altavoces y mostrar el plan general. El análisis de la imagen general en la sala y la determinación de la distancia a los objetos se lleva a cabo utilizando transmisiones de video recibidas de dos cámaras integradas en la base del sistema. Esta característica le permite reducir el tiempo de reacción de la lente, al cambiar el altavoz, hasta 1-2 segundos. La cámara logra alternar participantes en un ritmo cómodo, incluso si intercambian oraciones cortas.
Una demostración en video del sistema refleja completamente la funcionalidad de la SmartCam A12VT . Pero, para aquellos que no vieron el video, describiré en palabras el principio de automatización:

  1. La habitación está vacía: una de las lentes muestra el plan general, la segunda está lista, esperando a las personas
  2. Las personas entran a la sala y se sientan: una lente libre encuentra a los dos participantes extremos y enmarca la imagen en ellos, recortando la parte vacía de la sala
  3. Mientras las personas se mueven, los lentes se turnan para rastrear a todos en la habitación, manteniéndolos en el centro del marco.
  4. El orador comienza a decir: una lente activa ajustada al plan general está activa. El segundo está dirigido al orador, y solo entonces pasa al modo de transmisión
  5. El altavoz está cambiando: una lente activa sintonizada con el primer altavoz está activa, y la segunda lente presenta un plan general y se ajusta a un nuevo altavoz
  6. En el momento de cambiar la imagen del primer altavoz al segundo, la lente libre se ajusta instantáneamente al plano general de la sala
  7. Si todo está en silencio, una lente gratuita mostrará un plan general listo sin demoras.
  8. Si el hablante cambia de nuevo, un lente libre irá a buscarlo


Conclusión


En mi opinión, esta solución, presentada en ISE e ISR el año pasado, acerca la alta tecnología, si no a las personas, a la empresa con seguridad. Está claro que por 400 mil rublos, pocas personas comprarán una casa como "juguete", pero para negocios, para videoconferencias corporativas, esta es una solución muy asequible y conveniente para la tarea de auto-guía de la cámara.
Dada la versatilidad de SmartCam A12 Voice Tracking , el sistema se puede utilizar como una solución desde cero o como una extensión de la funcionalidad de una infraestructura VKS existente. La conexión a través de HDMI es un gran paso hacia el usuario, a diferencia de los sistemas patentados de los fabricantes descritos anteriormente.

Quiero agradecer a los socios que ayudaron en las pruebas.
IPMatika para la terminal Yealink VC880, sala de reuniones y Yakushin Yura.
Smart-AV Company: por el derecho de la primera y exclusiva revisión de la solución y la provisión del sistema SmartCam A12 Voice Tracking para pruebas.

En un artículo anterior, el Diseñador de salas de reuniones en línea: seleccionando la solución VKS óptima , como la promoción del sitio web vc4u.ru y el Diseñador VKS, anunciamos un descuento del 10% en el precio del catálogo utilizando la palabra clave HABR hasta el final del verano de 2019.

El descuento se aplica a los productos en las secciones:



Para el seguimiento de voz SmartCam A12, ofrezco un descuento adicional del 5% al ​​10% existente, un total del 15% hasta el final del verano de 2019.

¡Esperando sus comentarios y respuestas en la encuesta!

Gracias por su atencion
Saludos
Kirill Usikov ( Usikoff )
Jefe de direccion
CCTV y sistemas de videoconferencia
1@stss.ru
stss.ru
vc4u.ru

Source: https://habr.com/ru/post/459038/


All Articles