Enorme conjunto de dados aberto da versão 1.0 do discurso russo

imagem


No início deste ano, por várias razões, tivemos a ideia de criar o maior conjunto de dados aberto no discurso russo. Mais sobre a nossa motivação e como tudo começou
pode ser lido neste artigo - Um enorme conjunto de dados aberto do discurso russo . Desde então, nosso projeto passou por uma série de mudanças em larga escala, triplicamos a quantidade de dados, melhoramos sua qualidade, adicionamos etiquetas para os alto-falantes e agora estamos finalmente prontos para apresentar a versão 1.0.


Também não estamos prontos para descansar sobre os louros e planejamos continuar a fazer um trabalho intensivo sobre erros em versões futuras e melhorar a qualidade dos dados já publicados. Estamos planejando dedicar a versão 1.1 ao trabalho em larga escala de bugs.


Brevemente sobre o Open STT v1.0


  • Mais de 20.000 horas (inicialmente, definimos o limite para 10.000 horas) de áudio da fala russa, 2,3 TB de dados (no formato wav , no formato .mp3 , é claro, menos);
  • Uma grande variedade de domínios: começando com o áudio gravado em um microfone profissional e terminando com as chamadas telefônicas:

DomínioAnotaçãoFrasesRelógioGB
RádioAlinhamento8.3M11.9961367
Falar em públicoAlinhamento1.7M2.709301
YoutubeLegendas2.6M2.117346
LivrosAlinhamento / ASR1.3M1.632180
ChamadasASR695K81991
Outros conjuntos de dadosTTS, recitação1,9 milhões83595

Estatísticas mais detalhadas podem ser encontradas no repositório do projeto.


  • Agora, os dados podem ser baixados em alta velocidade, tanto no formato .wav (mono, 16KHz, int16) via torrent ou através de um link direto em .mp3 ;
  • Adicionado um pequeno conjunto de dados de validação rotulado manualmente (18 horas) para três domínios principais;

Fizemos todos os esforços para melhorar a qualidade da marcação:


  • Modelo aprimorado para aliasing de novos domínios;
  • Usou modelos STT melhores e mais refinados para alimentação;
  • Melhorado o algoritmo para normalizar números e letras latinas;
  • Repartir / remover gradualmente os dados "sujos" das versões anteriores;
  • Curou um conjunto de dados de problemas das crianças, como:
    • Oscilar letras únicas no início e no final das frases;
    • Baixo rendimento de alinhamento devido a modelos de baixa qualidade;
    • Trabalho "correto" com sinais de pontuação durante a alimentação;
  • (Em breve!) Etiquetas reais para alto-falantes serão exibidas;

Para quais tarefas nosso conjunto de dados pode ser útil?


  • Reconhecimento de fala
  • Síntese de fala;
  • Denoising, eliminando ruídos no áudio;
  • Identificação de voz;
  • Separação de alto-falantes;

Como você planeja desenvolver o conjunto de dados no futuro?


  • Melhore / recarregue os conjuntos de dados existentes, limpe a marcação;
  • Publicar modelos para reconhecimento de voz e pós-processamento;
  • Adicione marcação com o ID do alto-falante. Para alguns dos novos domínios, há um layout pronto, mas também há a ideia de adicionar alto-falantes aos conjuntos de dados antigos;
  • É possível mudar para outros idiomas;
  • É possível adicionar vários novos domínios;

Você pode aprender mais sobre novos domínios no repositório.

Source: https://habr.com/ru/post/pt474462/


All Articles