
A principios de este año, por varias razones, tuvimos la idea de crear el mayor conjunto de datos abiertos en ruso. Más sobre nuestra motivación y cómo comenzó todo
se puede leer en este artículo: un enorme conjunto de datos abiertos de habla rusa . Desde entonces, nuestro proyecto ha pasado por una serie de cambios a gran escala, hemos triplicado la cantidad de datos, mejorado su calidad, agregado etiquetas para los oradores y ahora finalmente estamos listos para presentar su versión 1.0.
Tampoco estamos listos para descansar en nuestros laureles y planeamos continuar haciendo un trabajo intensivo sobre errores en futuras versiones y mejorar la calidad de los datos ya publicados. Estamos planeando dedicar la versión 1.1 al trabajo a gran escala sobre errores.
Brevemente sobre Open STT v1.0
- Más de 20,000 horas (inicialmente establecimos la barra en 10,000 horas) de audio de habla rusa, 2.3 Tb de datos (en formato
wav
, en formato .mp3
, por supuesto, menos); - Una amplia variedad de dominios: comenzando con audio grabado en un micrófono profesional, terminando con llamadas telefónicas:
Se pueden encontrar estadísticas más detalladas en el repositorio del proyecto.
- Ahora los datos se pueden descargar a alta velocidad tanto en
.wav
(mono, 16KHz, int16) a través de torrent o a través de un enlace directo en .mp3
; - Se agregó un pequeño conjunto de datos de validación etiquetado manualmente (18 horas) para 3 dominios principales;
Hicimos todo lo posible para mejorar la calidad del marcado:
- Modelo mejorado para alias de nuevos dominios;
- Se utilizaron modelos STT mejores y más afinados para la alimentación;
- Se mejoró el algoritmo para normalizar números y letras latinas;
- Vuelva a particionar / eliminar gradualmente los datos "sucios" de las versiones anteriores;
- Curado un conjunto de datos de problemas de niños como:
- Colgando letras sueltas al principio y al final de las oraciones;
- Bajo rendimiento de alineación debido a modelos de baja calidad;
- Trabajo "correcto" con signos de puntuación durante la alimentación;
- (¡Pronto!) Aparecerán etiquetas reales para los altavoces;
¿Para qué tareas puede ser útil nuestro conjunto de datos?
- Reconocimiento de voz
- Síntesis de voz;
- Eliminación de ruido, eliminando el ruido en el audio;
- Identificación de voz;
- Separación de altavoces;
¿Cómo planea desarrollar el conjunto de datos en el futuro?
- Mejorar / recargar conjuntos de datos existentes, limpiar marcado;
- Publicar modelos para reconocimiento de voz y postprocesamiento;
- Agregue marcado con la identificación del altavoz. Para algunos de los nuevos dominios, hay un diseño listo para usar, pero también existe la idea de agregar altavoces a los conjuntos de datos antiguos;
- Es posible cambiar a otros idiomas;
- Es posible agregar varios dominios nuevos;
Puede obtener más información sobre nuevos dominios en el repositorio.