imagem

No início deste ano, por várias razões, tivemos a ideia de criar o maior conjunto de dados aberto no discurso russo. Mais sobre a nossa motivação e como tudo começou
pode ser lido neste artigo - Um enorme conjunto de dados aberto do discurso russo . Desde então, nosso projeto passou por uma série de mudanças em larga escala, triplicamos a quantidade de dados, melhoramos sua qualidade, adicionamos etiquetas para os alto-falantes e agora estamos finalmente prontos para apresentar a versão 1.0.

Também não estamos prontos para descansar sobre os louros e planejamos continuar a fazer um trabalho intensivo sobre erros em versões futuras e melhorar a qualidade dos dados já publicados. Estamos planejando dedicar a versão 1.1 ao trabalho em larga escala de bugs.

Brevemente sobre o Open STT v1.0

Mais de 20.000 horas (inicialmente, definimos o limite para 10.000 horas) de áudio da fala russa, 2,3 TB de dados (no formato wav , no formato .mp3 , é claro, menos);
Uma grande variedade de domínios: começando com o áudio gravado em um microfone profissional e terminando com as chamadas telefônicas:

Domínio	Anotação	Frases	Relógio	GB
Rádio	Alinhamento	8.3M	11.996	1367
Falar em público	Alinhamento	1.7M	2.709	301
Youtube	Legendas	2.6M	2.117	346
Livros	Alinhamento / ASR	1.3M	1.632	180
Chamadas	ASR	695K	819	91
Outros conjuntos de dados	TTS, recitação	1,9 milhões	835	95

Estatísticas mais detalhadas podem ser encontradas no repositório do projeto.

Agora, os dados podem ser baixados em alta velocidade, tanto no formato .wav (mono, 16KHz, int16) via torrent ou através de um link direto em .mp3 ;
Adicionado um pequeno conjunto de dados de validação rotulado manualmente (18 horas) para três domínios principais;

Fizemos todos os esforços para melhorar a qualidade da marcação:

Modelo aprimorado para aliasing de novos domínios;
Usou modelos STT melhores e mais refinados para alimentação;
Melhorado o algoritmo para normalizar números e letras latinas;
Repartir / remover gradualmente os dados "sujos" das versões anteriores;
Curou um conjunto de dados de problemas das crianças, como:
- Oscilar letras únicas no início e no final das frases;
- Baixo rendimento de alinhamento devido a modelos de baixa qualidade;
- Trabalho "correto" com sinais de pontuação durante a alimentação;
(Em breve!) Etiquetas reais para alto-falantes serão exibidas;

Para quais tarefas nosso conjunto de dados pode ser útil?

Reconhecimento de fala
Síntese de fala;
Denoising, eliminando ruídos no áudio;
Identificação de voz;
Separação de alto-falantes;

Como você planeja desenvolver o conjunto de dados no futuro?

Melhore / recarregue os conjuntos de dados existentes, limpe a marcação;
Publicar modelos para reconhecimento de voz e pós-processamento;
Adicione marcação com o ID do alto-falante. Para alguns dos novos domínios, há um layout pronto, mas também há a ideia de adicionar alto-falantes aos conjuntos de dados antigos;
É possível mudar para outros idiomas;
É possível adicionar vários novos domínios;

Você pode aprender mais sobre novos domínios no repositório.

Enorme conjunto de dados aberto da versão 1.0 do discurso russo

Brevemente sobre o Open STT v1.0

Para quais tarefas nosso conjunto de dados pode ser útil?

Como você planeja desenvolver o conjunto de dados no futuro?

More articles: