A orientação por voz da câmera tornou-se mais acessível - a solução universal SmartCam A12 Voice Tracking

O tópico de rastrear um participante falante em uma videoconferência nos últimos anos ganhou impulso. As tecnologias tornaram possível implementar algoritmos complexos para o processamento de informações de áudio / vídeo em tempo real, o que levou a Polycom, há quase 10 anos, a apresentar a primeira solução em massa do mundo com rastreamento automático inteligente de alto-falantes. Por vários anos, eles conseguiram permanecer como proprietários únicos de uma solução desse tipo, mas a Cisco não demorou muito a esperar e trouxe ao mercado sua versão do sistema inteligente de duas câmaras, que competia bastante com a solução Polycom. Por muitos anos, esse segmento da videoconferência foi limitado pelas capacidades de vários produtos proprietários , mas este artigo é dedicado à primeira solução universal para guiar a câmera por voz, compatível com a infraestrutura de hardware e software da videoconferência.
Antes de passar a descrever as soluções e demonstrar as possibilidades, quero observar um evento importante:
É uma honra apresentar o novo hub à comunidade Habr, dedicada a soluções de videoconferência (VKS). Agora, graças aos esforços conjuntos (mina e OVNIs), a videoconferência tem sua própria casa em Habré, e convido todos os envolvidos neste tópico extenso e relevante até o momento a se inscrever em um novo hub .

Dois cenários de apontar a câmera para o alto-falante


No momento, os integradores de soluções VKS escolhem por si mesmos duas maneiras diferentes de realizar a tarefa de apontar para o falante:

  1. Automático - Inteligente
  2. Semi-automático - programável

A primeira opção são apenas as soluções da Cisco, Polycom e outros fabricantes, as consideraremos abaixo. Aqui estamos lidando com a automação completa de apontar a câmera para um participante que fala em uma videoconferência. Algoritmos exclusivos para o processamento de sinais de áudio / vídeo permitem que a câmera selecione a posição desejada por conta própria.

A segunda opção são sistemas de automação baseados em vários controladores externos, não os consideraremos em detalhes, porque Este artigo se concentra no rastreamento automático de alto-falantes.
Não há poucos apoiadores do segundo cenário de orientação de câmera, e há razões para isso. Os integradores experientes entendem que as soluções inteligentes da Polycom e Cisco exigem condições operacionais ideais para automação em tempo integral. Como nem sempre essas condições são possíveis, a solução a seguir para a tarefa de apontar a câmera às vezes se torna uma garantia do sistema:

1. Na memória da câmera (ou algumas vezes no controlador de controle), todas as predefinições necessárias (a posição do dispositivo rotativo e a taxa de zoom óptico) são inseridas manualmente com antecedência. Como regra, este é o plano geral da sala de reuniões e a visão de cada participante da conferência no modo retrato.

2. Além disso, os iniciadores da chamada da predefinição requerida são instalados nos locais especificados - esses são consoles de microfone ou botões de opção; em geral, qualquer dispositivo que possa dar ao controlador de controle um sinal que ele entende.

3. O controlador de controle é programado para que cada iniciador tenha sua própria predefinição. Plano geral da sala - todos os iniciadores estão desligados.
Como resultado, ao usar um sistema de congresso, por exemplo, e um controlador de controle, o orador ativa seu console de microfone pessoal antes de iniciar seu discurso. O sistema de controle cumpre instantaneamente a posição salva da câmera.

Esse cenário funciona perfeitamente - o sistema não precisa executar triangulação de voz e análise de vídeo. Pressionou o botão - a predefinição funcionou, sem atrasos ou falsos positivos.
Os sistemas de controle e automação são usados ​​em salas grandes e complexas, onde às vezes não uma, mas várias câmeras são instaladas. Bem, para salas de reunião pequenas e médias, os sistemas automáticos (se você tiver um orçamento) são bastante adequados.
Vamos começar com os pais fundadores.

Diretor Polycom EagleEye


Uma vez que essa decisão fez uma sensação no campo da videoconferência. O Polycom EagleEye Director é a primeira solução de mira para câmera inteligente. A solução consiste em uma unidade base EagleEye Director e duas câmeras. Uma característica dessa primeira implementação é que uma câmera é atribuída apenas a uma visão ampliada do orador e a segunda ao plano geral da sala de reuniões. Ao mesmo tempo, a câmera de plano geral pode ser colocada geralmente separadamente da base em outro local na sala de reuniões - ela não participa diretamente do processo de orientação automática.
O sistema funciona da seguinte maneira:

  1. A câmera do plano geral da sala está ativa - todos ficam em silêncio
  2. O alto-falante começa a dizer - o conjunto de microfones capta a voz, a câmera se move em direção ao som usando uma tecnologia patenteada que inclui triangulação de voz. Câmera principal ainda ativa
  3. A câmera principal está apenas começando a procurar uma fonte de som, realizando análises de vídeo. O sistema determina o alto-falante usando a conexão olho-nariz-boca, enquadra a imagem com o alto-falante e exibe o fluxo da câmera principal
  4. O alto-falante está mudando. O conjunto de microfones entende que uma voz está sendo ouvida de outro lugar. Novamente, o plano geral está incluído.
  5. E mais adiante, a partir do ponto 2
  6. Se o novo alto-falante estiver em um quadro com o anterior, o sistema altera o posicionamento para "quente" sem alterar o fluxo ativo para o plano geral.

A desvantagem, na minha opinião, é a presença de apenas uma câmera principal. Isso leva a um atraso significativo ao trocar o alto-falante. E sempre que no momento da orientação, o sistema inclui um plano geral da sala - com uma conversa animada, esse tremor começa a incomodar.



Polycom EagleEye Director II


Esta é a segunda versão da solução da Polycom, lançada relativamente recentemente. O princípio operacional sofreu mudanças e se tornou mais uma solução da Cisco. Agora, as duas câmeras PTZ são as principais e servem para alternar perfeitamente os canais de um alto-falante para outro. Para o plano geral da sala de reuniões, agora é responsável uma câmera separada, integrada na base da unidade base EagleEye Director II. O fluxo desta câmera grande angular é, por algum motivo, exibido em uma janela adicional no canto da tela, ocupando 1/9 do fluxo principal. O princípio do posicionamento é o mesmo - triangulação de voz e análise de fluxo de vídeo. E os gargalos são os mesmos: se o sistema não vir a boca falante, a câmera não será trazida. Mas essa situação pode acontecer com bastante frequência - o orador se virou, o orador virou de lado, o orador - ventríloquo, o orador bloqueou a boca com uma mão ou um documento.
Ambos os vídeos promocionais foram gravados corretamente - duas pessoas falam por sua vez e abrem a boca como na consulta de um fonoaudiólogo. Mas, mesmo em condições tão refinadas, há um atraso muito significativo. Mas, por outro lado, o enquadramento é impecável - um plano de retrato confortável.



Cisco TelePresence SpeakerTrack 60


Usarei o texto da brochura oficial para descrever esta solução.
O SpeakerTrack 60 adota uma abordagem exclusiva de duas câmeras para alternar rapidamente diretamente entre os participantes. Uma câmera encontra rapidamente um close do apresentador ativo e a outra pesquisa e exibe o próximo apresentador. A função MultiSpeaker impede a troca desnecessária se o próximo apresentador já estiver presente no quadro atual.
Infelizmente, não tive a oportunidade de testar o SpeakerTrack 60 sozinho. Portanto, é necessário tirar conclusões na opinião “do campo” e de acordo com os resultados da análise do vídeo demo abaixo. Calculei o atraso máximo de quase 8 segundos ao passar o mouse sobre um novo alto-falante. O atraso médio foi de 2 a 3 segundos, a julgar pelo vídeo.



Câmera de vídeo de rastreamento inteligente HUAWEI VPT300


Encontrei esta solução da Huawei por acidente. O custo do sistema é de cerca de US $ 9.000. Funciona apenas com terminais Huawei. Os desenvolvedores adicionaram seu "truque" - o layout em uma tela do vídeo de dois alto-falantes, se não houver mais ninguém na sala. De acordo com as características e a funcionalidade declarada - esta é uma versão muito interessante do sistema de orientação automática. Infelizmente, não encontrei absolutamente nenhum material de demonstração. O único vídeo abordado neste tópico é uma revisão de vídeo montada da solução, sem o som original, da música. Assim, não foi possível avaliar a qualidade do sistema. Por esse motivo, não considerarei essa opção.
Vejo que a Huawei tem um blog ativo sobre Habré - talvez colegas possam publicar qualquer informação útil sobre este produto.

Novo - Solução Universal de Rastreamento de Voz SmartCam A12


A SmartCam A12VT é uma barra de chocolate, que inclui duas câmeras PTZ para rastreamento de alto-falantes, duas câmeras embutidas para analisar o plano geral da sala, além de um conjunto de microfones embutido na base do gabinete - como você pode ver, não há estruturas volumosas e frágeis como as dos oponentes.
Antes de começar a descrever o novo produto, reunirei as características e os recursos das soluções da Cisco e da Polycom, para que você possa comparar a SmartCam A12VT com as ofertas existentes.

Diretor Polycom EagleEye

  • Custo de varejo do sistema sem terminal - US $ 13 mil
  • O custo mínimo da solução EagleEye Director + RealPresence Group 500 é de US $ 19.000
  • Atraso médio de comutação de 3 segundos
  • Orientação por voz + análise de vídeo
  • Altos requisitos para o rosto do falante - você não pode esconder sua boca
  • Incompatibilidade com equipamento de terceiros


Cisco TelePresence SpeakerTrack 60

  • Custo de varejo do sistema sem terminal - US $ 15,9 mil
  • TelePresence SpeakerTrack 60 + SX80 Codec Custo mínimo - US $ 30 mil
  • Atraso médio de comutação de 3 segundos
  • Orientação por voz + análise de vídeo
  • Requisitos para o rosto do orador - não verificou, não encontrou informações
  • Incompatibilidade com equipamento de terceiros


Rastreamento de voz SmartCam A12



Como as duas principais e indiscutíveis vantagens da solução SmartCam A12 Voice Tracking , eu encontro:

  1. Universalidade de conexão - através de HDMI, o sistema se integra aos sistemas terminais de hardware e software do VKS
  2. Baixo custo - com funcionalidade semelhante, o A12VT é várias vezes mais acessível no orçamento do que as propostas acima.


Para demonstrar a operação do sistema, gravamos uma revisão em vídeo. A tarefa não era tanto publicidade, mas funcional. Portanto, o vídeo é privado do pathos do vídeo promocional de Polikomovsky. Como local da apresentação, não escolhemos o representante, mas a sala de reuniões do laboratório de nosso parceiro, IPMatika.
Meu objetivo não era esconder as falhas do sistema, mas expor os gargalos do funcional, cometer o erro do sistema.



Na minha opinião, o sistema foi testado com sucesso. Declaro isso com confiança, porque, no momento em que este artigo foi escrito, a solução SmartCam A12 Voice Tracking visitou dezenas de salas de reuniões da vida real para nossos clientes. A violação da operação de automação foi observada exclusivamente em violação das regras operacionais recomendadas. Em particular - a distância mínima para os participantes mais próximos. Se você se sentar muito perto da câmera, menos de um metro - o conjunto de microfones não poderá reconhecê-lo e a lente poderá ser rastreada.



Além da distância, há outro requisito - a altura da câmera.



Se a câmera estiver muito baixa, pode haver problemas com o posicionamento da voz. A opção sob a TV, infelizmente, não funcionou.
Mas montar o sistema sobre os meios de exibição é a maneira ideal de funcionamento do dispositivo. Uma prateleira para a câmera está incluída, apenas um suporte de parede é suportado.

Como funciona o rastreamento de voz SmartCam A12


As principais lentes PTZ têm papéis iguais - sua tarefa é rastrear alternadamente os alto-falantes e exibir o plano geral. A análise da imagem geral na sala e a determinação da distância dos objetos são realizadas usando fluxos de vídeo recebidos de duas câmeras integradas na base do sistema. Esse recurso permite reduzir o tempo de reação da lente, ao trocar o alto-falante, em até 1-2 segundos. A câmera consegue alternar os participantes em um ritmo confortável, mesmo que eles troquem frases curtas.
Uma demonstração em vídeo do sistema reflete totalmente a funcionalidade da SmartCam A12VT . Mas, para quem não assistiu ao vídeo, descreverei em palavras o princípio da automação:

  1. A sala está vazia: uma das lentes mostra o plano geral, a segunda está pronta - esperando as pessoas
  2. As pessoas entram na sala e sentam-se: uma lente livre encontra os dois participantes extremos e enquadra a imagem neles, cortando a parte vazia da sala
  3. Enquanto as pessoas estão em movimento, as lentes se revezam rastreando todos na sala, mantendo-os no centro do quadro
  4. O orador começa a dizer: uma lente ativa ajustada ao plano geral está ativa. O segundo é voltado para o alto-falante e só então entra no modo de transmissão
  5. O alto-falante está mudando: uma lente ativa ajustada para o primeiro alto-falante está ativa, e a segunda lente apresenta um plano geral e ajusta-se a um novo alto-falante
  6. No momento de alternar a imagem do primeiro alto-falante para o segundo, a lente livre é instantaneamente ajustada ao plano geral da sala
  7. Se tudo estiver silencioso, uma lente livre mostrará um plano geral pronto, sem atrasos.
  8. Se o alto-falante mudar novamente - uma lente livre irá procurá-lo


Conclusão


Na minha opinião, essa solução, apresentada no ISE e ISR no ano passado, aproxima a alta tecnologia - se não for para as pessoas, e para os negócios, com certeza. É claro que, por 400 mil rublos, poucas pessoas compram um "brinquedo" em casa, mas, para empresas, para videoconferência corporativa, essa é uma solução muito acessível e conveniente para a tarefa de orientação automática da câmera.
Dada a versatilidade do SmartCam A12 Voice Tracking , o sistema pode ser usado como uma solução a partir do zero ou como uma extensão da funcionalidade de uma infraestrutura VKS existente. A conexão via HDMI é um grande passo para o usuário, diferentemente dos sistemas proprietários dos fabricantes descritos acima.

Quero agradecer aos parceiros que ajudaram nos testes.
IPMatika para o terminal Yealink VC880, sala de reuniões e Yakushin Yura.
Empresa Smart-AV - pelo direito da primeira e exclusiva análise da solução e pelo fornecimento do sistema SmartCam A12 Voice Tracking para testes.

Em um artigo anterior, o Online Meeting Room Designer - selecionando a solução VKS ideal , como promoção do site vc4u.ru e VKS Designer, anunciamos um desconto de 10% no preço do catálogo usando a palavra de código HABR até o final do verão de 2019.

O desconto se aplica aos produtos nas seções:



Para o SmartCam A12 Voice Tracking, ofereço um desconto adicional de 5% aos 10% existentes - um total de 15% até o final do verão de 2019.

Aguardando seus comentários e respostas na pesquisa!

Obrigado pela atenção.
Atenciosamente
Kirill Usikov ( Usikoff )
Chefe de Direção
Sistemas de CFTV e videoconferência
1@stss.ru
stss.ru
vc4u.ru

Source: https://habr.com/ru/post/pt459038/


All Articles