
No início deste ano, por várias razões, tivemos a ideia de criar o maior conjunto de dados aberto no discurso russo. Mais sobre a nossa motivação e como tudo começou
pode ser lido neste artigo - Um enorme conjunto de dados aberto do discurso russo . Desde então, nosso projeto passou por uma série de mudanças em larga escala, triplicamos a quantidade de dados, melhoramos sua qualidade, adicionamos etiquetas para os alto-falantes e agora estamos finalmente prontos para apresentar a versão 1.0.
Também não estamos prontos para descansar sobre os louros e planejamos continuar a fazer um trabalho intensivo sobre erros em versões futuras e melhorar a qualidade dos dados já publicados. Estamos planejando dedicar a versão 1.1 ao trabalho em larga escala de bugs.
Brevemente sobre o Open STT v1.0
- Mais de 20.000 horas (inicialmente, definimos o limite para 10.000 horas) de áudio da fala russa, 2,3 TB de dados (no formato
wav
, no formato .mp3
, é claro, menos); - Uma grande variedade de domínios: começando com o áudio gravado em um microfone profissional e terminando com as chamadas telefônicas:
Estatísticas mais detalhadas podem ser encontradas no repositório do projeto.
- Agora, os dados podem ser baixados em alta velocidade, tanto no formato
.wav
(mono, 16KHz, int16) via torrent ou através de um link direto em .mp3
; - Adicionado um pequeno conjunto de dados de validação rotulado manualmente (18 horas) para três domínios principais;
Fizemos todos os esforços para melhorar a qualidade da marcação:
- Modelo aprimorado para aliasing de novos domínios;
- Usou modelos STT melhores e mais refinados para alimentação;
- Melhorado o algoritmo para normalizar números e letras latinas;
- Repartir / remover gradualmente os dados "sujos" das versões anteriores;
- Curou um conjunto de dados de problemas das crianças, como:
- Oscilar letras únicas no início e no final das frases;
- Baixo rendimento de alinhamento devido a modelos de baixa qualidade;
- Trabalho "correto" com sinais de pontuação durante a alimentação;
- (Em breve!) Etiquetas reais para alto-falantes serão exibidas;
Para quais tarefas nosso conjunto de dados pode ser útil?
- Reconhecimento de fala
- Síntese de fala;
- Denoising, eliminando ruídos no áudio;
- Identificação de voz;
- Separação de alto-falantes;
Como você planeja desenvolver o conjunto de dados no futuro?
- Melhore / recarregue os conjuntos de dados existentes, limpe a marcação;
- Publicar modelos para reconhecimento de voz e pós-processamento;
- Adicione marcação com o ID do alto-falante. Para alguns dos novos domínios, há um layout pronto, mas também há a ideia de adicionar alto-falantes aos conjuntos de dados antigos;
- É possível mudar para outros idiomas;
- É possível adicionar vários novos domínios;
Você pode aprender mais sobre novos domínios no repositório.