Enorme conjunto de datos abierto del discurso ruso versión 1.0

imagen


A principios de este año, por varias razones, tuvimos la idea de crear el mayor conjunto de datos abiertos en ruso. Más sobre nuestra motivación y cómo comenzó todo
se puede leer en este artículo: un enorme conjunto de datos abiertos de habla rusa . Desde entonces, nuestro proyecto ha pasado por una serie de cambios a gran escala, hemos triplicado la cantidad de datos, mejorado su calidad, agregado etiquetas para los oradores y ahora finalmente estamos listos para presentar su versión 1.0.


Tampoco estamos listos para descansar en nuestros laureles y planeamos continuar haciendo un trabajo intensivo sobre errores en futuras versiones y mejorar la calidad de los datos ya publicados. Estamos planeando dedicar la versión 1.1 al trabajo a gran escala sobre errores.


Brevemente sobre Open STT v1.0


  • Más de 20,000 horas (inicialmente establecimos la barra en 10,000 horas) de audio de habla rusa, 2.3 Tb de datos (en formato wav , en formato .mp3 , por supuesto, menos);
  • Una amplia variedad de dominios: comenzando con audio grabado en un micrófono profesional, terminando con llamadas telefónicas:

DominioAnotaciónFrasesRelojGB
RadioAlineación8.3M11,9961367
Hablar en públicoAlineación1,7 millones2,709301
YoutubeSubtítulos2.6 millones2,117346
LibrosAlineamiento / ASR1.3M1,632180
LlamadasASR695K81991 91
Otros conjuntos de datosTTS, recitación1,9 millones83595

Se pueden encontrar estadísticas más detalladas en el repositorio del proyecto.


  • Ahora los datos se pueden descargar a alta velocidad tanto en .wav (mono, 16KHz, int16) a través de torrent o a través de un enlace directo en .mp3 ;
  • Se agregó un pequeño conjunto de datos de validación etiquetado manualmente (18 horas) para 3 dominios principales;

Hicimos todo lo posible para mejorar la calidad del marcado:


  • Modelo mejorado para alias de nuevos dominios;
  • Se utilizaron modelos STT mejores y más afinados para la alimentación;
  • Se mejoró el algoritmo para normalizar números y letras latinas;
  • Vuelva a particionar / eliminar gradualmente los datos "sucios" de las versiones anteriores;
  • Curado un conjunto de datos de problemas de niños como:
    • Colgando letras sueltas al principio y al final de las oraciones;
    • Bajo rendimiento de alineación debido a modelos de baja calidad;
    • Trabajo "correcto" con signos de puntuación durante la alimentación;
  • (¡Pronto!) Aparecerán etiquetas reales para los altavoces;

¿Para qué tareas puede ser útil nuestro conjunto de datos?


  • Reconocimiento de voz
  • Síntesis de voz;
  • Eliminación de ruido, eliminando el ruido en el audio;
  • Identificación de voz;
  • Separación de altavoces;

¿Cómo planea desarrollar el conjunto de datos en el futuro?


  • Mejorar / recargar conjuntos de datos existentes, limpiar marcado;
  • Publicar modelos para reconocimiento de voz y postprocesamiento;
  • Agregue marcado con la identificación del altavoz. Para algunos de los nuevos dominios, hay un diseño listo para usar, pero también existe la idea de agregar altavoces a los conjuntos de datos antiguos;
  • Es posible cambiar a otros idiomas;
  • Es posible agregar varios dominios nuevos;

Puede obtener más información sobre nuevos dominios en el repositorio.

Source: https://habr.com/ru/post/474462/


All Articles