imagen

A principios de este año, por varias razones, tuvimos la idea de crear el mayor conjunto de datos abiertos en ruso. Más sobre nuestra motivación y cómo comenzó todo
se puede leer en este artículo: un enorme conjunto de datos abiertos de habla rusa . Desde entonces, nuestro proyecto ha pasado por una serie de cambios a gran escala, hemos triplicado la cantidad de datos, mejorado su calidad, agregado etiquetas para los oradores y ahora finalmente estamos listos para presentar su versión 1.0.

Tampoco estamos listos para descansar en nuestros laureles y planeamos continuar haciendo un trabajo intensivo sobre errores en futuras versiones y mejorar la calidad de los datos ya publicados. Estamos planeando dedicar la versión 1.1 al trabajo a gran escala sobre errores.

Brevemente sobre Open STT v1.0

Más de 20,000 horas (inicialmente establecimos la barra en 10,000 horas) de audio de habla rusa, 2.3 Tb de datos (en formato wav , en formato .mp3 , por supuesto, menos);
Una amplia variedad de dominios: comenzando con audio grabado en un micrófono profesional, terminando con llamadas telefónicas:

Dominio	Anotación	Frases	Reloj	GB
Radio	Alineación	8.3M	11,996	1367
Hablar en público	Alineación	1,7 millones	2,709	301
Youtube	Subtítulos	2.6 millones	2,117	346
Libros	Alineamiento / ASR	1.3M	1,632	180
Llamadas	ASR	695K	819	91 91
Otros conjuntos de datos	TTS, recitación	1,9 millones	835	95

Se pueden encontrar estadísticas más detalladas en el repositorio del proyecto.

Ahora los datos se pueden descargar a alta velocidad tanto en .wav (mono, 16KHz, int16) a través de torrent o a través de un enlace directo en .mp3 ;
Se agregó un pequeño conjunto de datos de validación etiquetado manualmente (18 horas) para 3 dominios principales;

Hicimos todo lo posible para mejorar la calidad del marcado:

Modelo mejorado para alias de nuevos dominios;
Se utilizaron modelos STT mejores y más afinados para la alimentación;
Se mejoró el algoritmo para normalizar números y letras latinas;
Vuelva a particionar / eliminar gradualmente los datos "sucios" de las versiones anteriores;
Curado un conjunto de datos de problemas de niños como:
- Colgando letras sueltas al principio y al final de las oraciones;
- Bajo rendimiento de alineación debido a modelos de baja calidad;
- Trabajo "correcto" con signos de puntuación durante la alimentación;
(¡Pronto!) Aparecerán etiquetas reales para los altavoces;

¿Para qué tareas puede ser útil nuestro conjunto de datos?

Reconocimiento de voz
Síntesis de voz;
Eliminación de ruido, eliminando el ruido en el audio;
Identificación de voz;
Separación de altavoces;

¿Cómo planea desarrollar el conjunto de datos en el futuro?

Mejorar / recargar conjuntos de datos existentes, limpiar marcado;
Publicar modelos para reconocimiento de voz y postprocesamiento;
Agregue marcado con la identificación del altavoz. Para algunos de los nuevos dominios, hay un diseño listo para usar, pero también existe la idea de agregar altavoces a los conjuntos de datos antiguos;
Es posible cambiar a otros idiomas;
Es posible agregar varios dominios nuevos;

Puede obtener más información sobre nuevos dominios en el repositorio.

Enorme conjunto de datos abierto del discurso ruso versión 1.0

Brevemente sobre Open STT v1.0

¿Para qué tareas puede ser útil nuestro conjunto de datos?

¿Cómo planea desarrollar el conjunto de datos en el futuro?

More articles: