Entiéndeme si puedes
La semana pasada, recibimos una carta de un candidato que no aprobó una entrevista en inglés. Resultó que nuestros colegas se convirtieron en participantes de un experimento técnico que tuvo lugar en paralelo con la entrevista. Proporcionamos una carta con cambios mínimos y agradecemos al autor por una idea interesante y valor en su implementación.“Supongo que no soy adecuado para ti, porque desafortunadamente reprobé el examen de inglés. Sí, no tengo una buena práctica del inglés hablado, pero esto no me molesta en leer hojas de datos y comunicarme con el soporte extranjero por correo. En realidad, ahora no se trata de eso, sabiendo de antemano que no pasaré la prueba de dominio del idioma, no pude evitar aprovechar la oportunidad de adoptar un enfoque técnico para este problema. Aunque no tuve la oportunidad de probar mi método en vivo por adelantado, especialmente al tratar con una persona que habla inglés con fluidez y que conoce las características de pronunciación, decidí probarlo.Tengo que disculparme por el experimento con el empleado que realizó la prueba y por la calidad de sonido no tan buena asociada con las características técnicas de "mi" complejo.En compensación por participar en el experimento, contaré su idea. Aunque no es nuevo, creo que será interesante para sus especialistas técnicos, y con el nivel adecuado de capacitación y enfoque de equipo, puede usarse para obtener un resultado interesante e incluso un producto comercial.Describiré la esencia: utilicé dos computadoras conectadas a Internet y Google Translate con reconocimiento de voz y un sintetizador. Para hacer esto, conecté la ruta analógica de mi teléfono móvil a las tarjetas de audio de dos unidades del sistema.Una unidad del sistema está configurada para traducir del inglés al ruso, respectivamente, la salida de audio del teléfono se conectó a la entrada de línea de la tarjeta de audio. En la configuración de la tarjeta de sonido, se configuró el modo de duplicación de señal desde la entrada de línea hasta la salida de auriculares de mis auriculares, por lo que escuché el discurso original y vi la corrección del reconocimiento de voz del Traductor de Google.La segunda unidad del sistema está configurada para traducir del ruso al inglés, su entrada de micrófono estaba conectada al micrófono del auricular que estaba en mí. Conecté la salida de audio de la unidad del sistema a la ruta analógica del teléfono.Entonces, vi el texto en inglés y escuché el original, vi la traducción, y cuando dije la respuesta a la segunda computadora, la sinteticé en el habla. Como Google habla con voz femenina, utilicé filtros digitales Fruity Loops para darle un tono masculino bajo y envié el sonido ya procesado a la ruta analógica del teléfono.Aunque reprobé el examen de inglés, la razón no estaba en el reconocimiento incorrecto. Me decepcionó el cuello estrecho del sistema, a saber, la conexión a Internet 3G; desafortunadamente, no tengo otra línea de velocidad. Por la mañana, según tengo entendido, la estación base estaba menos cargada y tenía suficiente ancho de banda. Pero después del almuerzo, la red se hundió en el momento más inoportuno.El resultado del experimento fue que pude aguantar las primeras oraciones, luego la velocidad de la síntesis del habla dejó de ser suficiente, cambié a respuestas independientes y fallé. Aunque vi la traducción correcta, no puedo construir oraciones rápidamente. Es curioso que el interlocutor no haya notado el cambio del robot a una persona, destacando solo el apagado del generador de ruido de confort, por lo que, en pausas, mi interlocutor pensó que la conexión se había perdido con fuerza.El sistema necesita ser mejorado: para preprocesar la señal del micrófono, cortando el ruido que no dio el efecto de silencio, importante para Google. Luego podrá interrumpir el procesamiento y asignar un componente de voz, lo que reducirá el tráfico saliente, aumentará la velocidad de conexión y no perderá los paquetes UDP. En este caso, el sistema es bastante de combate. Transferimos esto a dos Raspberry PI y obtenemos un traductor en tiempo real.Yo mismo no puedo darme cuenta de esta idea: necesito DSP para el preprocesamiento, necesito hacer circuitos, generar la topología de la placa de circuito, escribir un algoritmo de procesamiento para DSP (aunque están en el dominio público), luego escribir un programa para Raspberry PI con funcionalidad conveniente e interacción adecuada con la API Google Esta tarea está dentro de mi poder, pero es más adecuada para el equipo de desarrollo. Aún así, tiene demasiadas subtareas.Creo que la idea es interesante y encontrará un comprador, la compañía será fácil de realizar y no acumularé polvo en los estantes de su propio entusiasmo.¡Gracias por considerar mi candidatura! ”Source: https://habr.com/ru/post/es398561/
All Articles