Entenda-me se puder



Na semana passada, recebemos uma carta de um candidato que não passou na entrevista em inglês. Aconteceu que nossos colegas se tornaram participantes de um experimento técnico que ocorreu paralelamente à entrevista. Fornecemos uma carta com alterações mínimas e agradecemos ao autor por uma idéia interessante e coragem em sua implementação.

“Suponho que não sou adequado para você, porque eu falhei no teste de inglês, infelizmente. Sim, eu não tenho uma boa prática de inglês falado, mas isso não me incomoda de ler folhas de dados e me comunicar com suporte estrangeiro por correio. Na verdade, agora não é sobre isso, sabendo antecipadamente que não passarei no teste de proficiência em idiomas, não pude deixar de aproveitar a oportunidade de adotar uma abordagem técnica para esse problema. Embora não tenha tido a oportunidade de testar meu método com antecedência, principalmente ao lidar com uma pessoa fluente em inglês e que conhece os recursos de pronúncia, decidi tentar.

Preciso me desculpar pelo experimento com o funcionário que conduziu o teste e pela qualidade do som não tão boa associada às características técnicas do complexo "my".

Em compensação pela participação no experimento, contarei sua ideia. Embora não seja novo, acho que será interessante para seus especialistas técnicos e, com o nível adequado de treinamento e abordagem de equipe, pode ser usado para obter um resultado interessante e até mesmo um produto comercial.

Descreverei a essência: usei dois computadores conectados à Internet e o Google Translate com reconhecimento de fala e um sintetizador. Para fazer isso, conectei o caminho analógico do meu celular às placas de áudio de duas unidades do sistema.

Uma unidade do sistema está configurada para traduzir do inglês para o russo, respectivamente, a saída de áudio do telefone foi conectada à entrada de linha da placa de áudio. Nas configurações da placa de som, foi definido o modo de duplicação de sinal da entrada de linha para a saída de fone de ouvido do meu fone de ouvido. Ouvi o discurso original e vi a correção do reconhecimento de voz do Google Tradutor.

A segunda unidade do sistema está configurada para traduzir do russo para o inglês, a entrada do microfone foi conectada ao microfone do fone de ouvido que estava em mim. Conectei a saída de áudio da unidade de sistema ao caminho analógico do telefone.

Assim, vi o texto em inglês e ouvi o original, a tradução e, quando disse a resposta para o segundo computador, sintetizei-o em fala. Como o Google fala com uma voz feminina, usei os filtros digitais Fruity Loops para dar um tom baixo masculino e enviei o som já processado para o caminho analógico do telefone.

Embora eu tenha falhado no teste de inglês, o motivo não estava no reconhecimento errado. Fiquei decepcionado com o estreito pescoço do sistema, a saber, a conexão à Internet 3G - infelizmente, não tenho outra linha de velocidade. De manhã, pelo que entendi, a estação base estava menos carregada e eu tinha largura de banda suficiente. Mas depois do almoço, a rede afundou no momento mais inoportuno.

O resultado do experimento foi que eu consegui aguentar as primeiras frases, então a velocidade da síntese da fala deixou de ser suficiente, mudei para respostas independentes e falhei. Embora tenha visto a tradução correta, não consigo criar frases rapidamente. É engraçado que o interlocutor não tenha notado a troca do robô para uma pessoa, destacando apenas o desligamento do gerador de ruído de conforto, pelo qual, em pausa, meu interlocutor achou que a conexão estava perdida.

O sistema precisa ser aprimorado - para pré-processar o sinal do microfone, cortando o ruído que não dava o efeito de silêncio, importante para o Google. Então ele poderá interromper o processamento e alocar um componente de voz, o que reduzirá o tráfego de saída, aumentará a velocidade da conexão e não perderá pacotes UDP. Nesse caso, o sistema é bastante combatente. Transferimos isso para dois Raspberry PI e obtemos um tradutor em tempo real.

Eu mesmo não consigo entender essa idéia - preciso do DSP para pré-processamento, preciso fazer circuitos, criar a topologia da placa de circuito, escrever um algoritmo de processamento para o DSP (embora eles sejam de domínio público) e depois escrever um programa para o Raspberry PI com funcionalidade conveniente e interação adequada com a API Google Esta tarefa está ao meu alcance, mas é mais adequada para a equipe de desenvolvimento. Ainda assim, possui muitas subtarefas.

Eu acho que a ideia é interessante e vai encontrar um comprador, a empresa será fácil de perceber e não vou acumular poeira nas prateleiras de seu próprio entusiasmo.

Obrigado por considerar minha candidatura!

Source: https://habr.com/ru/post/pt398561/


All Articles