🈺 😑 😬 Micrófono Far Fields (matriz de micrófonos): héroe discreto en una columna inteligente 🤽🏼 👈🏾 🌮

En este artículo, quiero hablar sobre mi larga pasión: estudiar y trabajar con campos lejanos de micrófonos (arreglos de micrófonos).

El artículo será interesante para aquellos que gustan de construir sus asistentes de voz, responderá algunas preguntas a las personas que perciben la ingeniería como un arte, y también que quieren probarse en el papel de Q ( esto es de Bond ). Mi humilde historia, espero que pueda ayudarlo a comprender por qué una columna de asistente inteligente hecha estrictamente de acuerdo con el tutorial funciona bien solo si no hay ruido en absoluto. Y tan mal dónde están, por ejemplo en la cocina.

Hace muchos años, me interesé en la programación, comencé a escribir código simplemente porque los maestros sabios me permitían jugar solo juegos escritos independientemente. Fue un año tan 87 y era un Yamaha MSX. Sobre este tema, también hubo una primera puesta en marcha. Todo está estrictamente de acuerdo con la sabiduría: "Elija un trabajo a su gusto, y no tendrá que trabajar un solo día en su vida" (Confucio).

Y así han pasado los años, y todavía estoy escribiendo código. Incluso un pasatiempo con un código, bueno, a excepción del patinaje sobre ruedas, para calentar el cerebro y "No olvidaré al matan", esto funciona con el micrófono Far Fields (matriz de micrófonos). En vano los maestros pasaron tiempo conmigo.

Qué es y dónde se aplica

El asistente de voz que lo escucha generalmente tiene una variedad de micrófonos. Los encontramos en sistemas de videoconferencia. En la comunicación colectiva, la mayor parte de la atención se presta al habla, por supuesto, no miramos constantemente al hablante cuando nos comunicamos, pero hablar directamente al micrófono o al auricular es restrictivo e inconveniente.

Casi todos, un cliente respetado, un fabricante de teléfonos móviles utiliza de 2 o más micrófonos en sus creaciones (sí, sí, detrás de estos agujeros hay micrófonos detrás, arriba, abajo, detrás). Por ejemplo, en iPhone 3G / 3GS era el único, en la cuarta generación de iPhones había dos y en la quinta ya había tres micrófonos. En general, esto también es una variedad de micrófonos. Y todo esto para una mejor audibilidad del sonido.

Pero volvamos a nuestros asistentes de voz

¿Cómo aumentar el rango de audición?

"necesita orejas grandes"

Una idea simple: si para escuchar el que está cerca, solo un micrófono es suficiente, entonces para escuchar desde lejos, debe usar un micrófono más costoso con un reflector, similar a los oídos de los zorros fenech:

(Wikipedia)

De hecho, esto no es parte de la suite furry, sino un dispositivo serio para cazadores y exploradores.

Lo mismo, solo en tubos resonadores

En el habitat.

(Tomado de https://forum.guns.ru )

Diámetro del espejo de 200 mm a 1,5 m.

(más de esto ver http://elektronicspy.narod.ru/next.html )

"Necesito más micrófonos"

¿O tal vez si pones muchos micrófonos baratos, entonces la cantidad entrará en calidad y todo saldrá bien? Zerghrash solo con micrófonos.

Extraño, pero funciona en la vida real. Es cierto con muchos matan, pero funciona. Y hablaremos de esto en la siguiente sección.

¿Y cómo aprender a escuchar más sin hermosos cuernos?

Uno de los problemas con los sistemas de bocina es que puede escuchar claramente lo que está enfocado. Pero si necesita escuchar algo desde una dirección diferente, debe hacer una "finta con los oídos" y redirigir físicamente el sistema en otra dirección.

Y sobre la relación señal / ruido en sistemas con matrices de micrófonos, de alguna manera es mejor en comparación con un micrófono convencional.

En las matrices de micrófonos, así como en sus parientes más cercanos, PAR (antenas de matriz en fase), no necesita encender nada. Lea más en la sección de Beamforming. Fácil de ver:

Un micrófono desenfocado (imagen izquierda) graba todos los sonidos desde todas las direcciones, no solo el que necesita.

¿De dónde viene la gran variedad? En la imagen de la derecha, el micrófono escucha atentamente solo una fuente. Como si estuviera enfocando, recibe una señal de solo una fuente seleccionada, y no un desastre de posibles fuentes de ruido, y una señal pura simplemente se amplifica (se hace más fuerte) sin el uso de técnicas sofisticadas de reducción de ruido. Un poco como una boquilla, pero con una tracción mate.

¿Qué hay de malo con la reducción de ruido?

Cuando se aplica una reducción de ruido compleja, muchos defectos significan que parte de la señal desaparecerá, junto con parte de la señal, el sonido cambiará y, para el oído, parece una coloración característica del sonido con reducción de ruido y como resultado de la ilegibilidad. Esta ilegibilidad es visible para los hablantes de ruso que desean escuchar estos silbidos del interlocutor. Bueno, y además, como resultado de la reducción de ruido, el oyente no escucha ninguna señal de identificación que lo conecte con el interlocutor (respiración, olfateo y otros ruidos que acompañan al habla en vivo). Esto crea algunos problemas, porque en el discurso coloquial todo esto se escucha, y solo ayuda a evaluar el estado y la actitud del interlocutor hacia usted. La ausencia de ellos (ruido) mientras escuchamos la voz provoca sensaciones desagradables y reduce el nivel de percepción, comprensión e identificación. Bueno, si un asistente de voz lo escucha, la reducción de ruido hace que sea difícil reconocer tanto la frase clave como el discurso posterior. Es cierto, hay un truco de la vida: debe entrenar el reconocedor en una muestra grabada teniendo en cuenta las distorsiones de la reducción de ruido utilizada.

Aquellos que están familiarizados con el problema de las palabras cóctel aún pueden ir a tomar un café o un cóctel, y realizar un experimento de campo, aquellos con ganas de leer, continúan.

Brevemente sobre el matan en el que trabaja:

Estimación de DOA (determinación de la dirección de la fuente de sonido) y formación de haz

DOA (determinación de dirección y, si es posible, localización a la fuente):
Seré breve, porque el tema es muy extenso, esto se hace con la ayuda de magia blanca, gris u oscura (dependiendo del tema preferido en el IDE) y matan. ~~el principal~~ Una forma frecuente de jugar DOA es analizar correlaciones y otras cosas entre pares de micrófonos (generalmente de diámetro opuesto).
Life hack: para la investigación, es mejor elegir una matriz con una disposición circular de micrófonos. El beneficio es que es fácil recopilar estadísticas de pares con diferentes distancias entre micrófonos, de diámetro máximo y mínimo entre micrófonos, si lleva pares en acordes y con diferentes acimutes (direcciones) a la fuente.

Formación de haces: la forma más sencilla y fácil de entender es -delay & sum (DAS y FDAS) - forma de haz basada en delay y sum.

Para efectos visuales:

(Tomado de http://www.labbookpages.co.uk/audio/beamforming/delaySum.html )

Life hack: no te olvides de las diferentes longitudes de onda y para cada frecuencia calculamos nuestra diferencia de fase tn

Un patrón de radiación aproximado se verá así

Detalles y con fórmulas

Aquellos que no han olvidado cómo fumar un matan pueden participar en JIO-RLS (mínimos cuadrados de rango reducido adaptativos iterativos conjuntos). Muy similar al sabor del descenso en gradiente, ya sabes.

Así que resumimos: usando métodos convencionales, lograr una calidad comparable a la de un micrófono matricial es difícil. Después de aplicar la definición de la dirección a la fuente, y como resultado de esto, solo escuchamos la fuente que se necesita, nos deshacemos del ruido y la reverberación del medio, incluso uno que es poco audible (efecto Haas).

Asistente de voz: cómo se ve dentro

Entonces, ¿cómo es el esquema de procesamiento de sonido de un asistente de voz experimentado:

La señal del conjunto de micrófonos se alimenta a un dispositivo en el que formamos un haz a una fuente de sonido (formación de haz), eliminando así la interferencia. Luego comenzamos a reconocer el sonido de este rayo, por lo general, no es suficiente para el reconocimiento de alta calidad de los recursos del dispositivo, y la mayoría de las veces la señal se envía a la nube para su reconocimiento (Microsoft, Google, Amazon eligen).

El lector atento se dará cuenta: Y en la imagen con la descripción hay una especie de cuadrado de la palabra No, y ¿por qué no reconocimiento inmediato, como se prometió?

¿Por qué se dibuja probablemente este cuadrado extra en el diagrama?

Y porque constantemente transmites una señal de todas las fuentes de ruido a Internet para ~~escuchando~~ El reconocimiento de cualquier recurso no es suficiente. Por lo tanto, comenzamos a reconocer solo cuando se dieron cuenta de que definitivamente lo querían de nosotros, y para esto dijeron un hechizo especial: ok Google, Siri o Alex, o me llamaron cortan. Y el clasificador de palabras Notifier suele ser una neurona y funciona directamente en el dispositivo. En la construcción del clasificador también hay muchas cosas interesantes, pero hoy no se trata de eso.

Y de hecho, el diagrama se ve así:

(mis garabatos)

Se pueden formar varios rayos en diferentes fuentes de señal, y estamos buscando una palabra especial en cada uno de ellos. Pero más adelante procesaremos al que dijo la palabra correcta.

El siguiente paso es el reconocimiento en la nube, cubierto repetidamente en Internet, hay muchos tutoriales en él.

¿Cómo puedes unirte a esta matana de vacaciones?

La forma más fácil de comprar un tablero de desarrollo. Descripción general de los paneles de control existentes: uno de los más completos, por referencia .

El más amigable para principiantes:

https://www.seeedstudio.com/ReSpeaker-4-Mic-Array-for-Raspberry-Pi-p-2941.html

https://www.seeedstudio.com/ReSpeaker-Mic-Array-v2-0-p-3053.html

basado en XMOS XVF-3000.

Lo aplico yo mismo

Hecho como me gusta: FPGA con una interfaz abierta controla los micrófonos de la matriz y se comunica con ella a través de SDA.

Mis hazañas para cruzar Android Things y Mic Array:

Ciertamente, hay muchos ejemplos de este tablero (Voz), pero es conveniente para mí usarlo en Cosas.

Argumentos por las cosas:

Puedes construir una herramienta flexible y poderosa:

conveniente que puede usar la pantalla como un dispositivo separado
se puede usar como un dispositivo sin cabeza, es decir, hacer una transferencia a través de la red (crear una API para transferir a otro dispositivo)
depuración conveniente
muchas bibliotecas, incluso para transmisión a través de la red;
herramientas de análisis - mucho.
y si parecía un poco, entonces es posible conectar bibliotecas Sishnoy

Por ejemplo, yo uso:

análisis de archivos de sonido
HRTF,
Formación \ construcción de clasificadores.

Y luego, si tiene que portar / reescribir el código en algún tipo de incrustación, de alguna manera es más fácil hacerlo con el código Java.

Desafortunadamente, el ejemplo de los autores de la junta de Things fue un poco inoperante, así que hice mi proyecto de demostración (naturalmente, puedo).

En resumen, lo que hay allí: toda la magia negra de sondear rápidamente los micrófonos, hacemos FFT en C ++ y visualización, análisis e interacción de red, en Java.

Planes de desarrollo futuro.

Fuente de planes e inspiración al mismo tiempo: ODAS .

Así que quiero hacer lo mismo, solo en Cosas y sin fallas.

Porque ODAS es un poco incómodo de usar.
Necesito una herramienta normal para trabajar
Porque puedo y me gusta este tema
Las herramientas de hardware usadas satisfacen la complejidad de la tarea.

Mis planes se basan en este (mi propio) repositorio .

Y recordar

"Si tiene algo para complementar o criticar, no dude en escribir sobre eso en los comentarios, porque una cabeza es peor que dos, dos son peor que tres y n-1 es peor que n" nikitasius

Micrófono Far Fields (matriz de micrófonos): héroe discreto en una columna inteligente