
Anfang dieses Jahres hatten wir aus mehreren Gründen die Idee, den größten offenen Datensatz in der russischen Sprache zu erstellen. Mehr über unsere Motivation und wie alles begann
kann in diesem Artikel gelesen werden - Ein riesiger offener Datensatz der russischen Sprache . Seitdem hat unser Projekt eine Reihe umfangreicher Änderungen durchlaufen, wir haben die Datenmenge verdreifacht, die Qualität verbessert, Beschriftungen für Lautsprecher hinzugefügt und jetzt können wir endlich Version 1.0 vorstellen.
Wir sind auch nicht bereit, uns auf unseren Lorbeeren auszuruhen, und planen, in zukünftigen Versionen weiterhin intensiv an Fehlern zu arbeiten und die Qualität der veröffentlichten Daten zu verbessern. Wir planen, Version 1.1 der umfangreichen Arbeit an Fehlern zu widmen.
Kurz über Open STT v1.0
- Mehr als 20.000 Stunden (anfangs haben wir die Messlatte auf 10.000 Stunden gesetzt) Audio der russischen Sprache, 2,3
.mp3
Daten (im wav
Format, im .mp3
Format natürlich weniger); - Eine Vielzahl von Domänen: Beginnend mit Audioaufnahmen auf einem professionellen Mikrofon bis hin zu Telefonanrufen:
Detailliertere Statistiken finden Sie im Projekt- Repository .
- Jetzt können die Daten mit hoher Geschwindigkeit sowohl im WAV-Format (Mono, 16 kHz, int16) über Torrent als auch über einen direkten Link in
.mp3
. - Es wurde ein kleiner manuell beschrifteter Validierungsdatensatz (18 Stunden) für 3 Hauptdomänen hinzugefügt.
Wir haben alle Anstrengungen unternommen, um die Qualität des Markups zu verbessern:
- Verbessertes Modell für das Aliasing neuer Domänen;
- Verwendung besserer und feiner abgestimmter STT-Modelle zur Ernährung;
- Der Algorithmus zur Normalisierung von Zahlen und lateinischen Buchstaben wurde verbessert.
- Partitionieren Sie die "unsauberen" Daten aus früheren Versionen nach und nach neu bzw. entfernen Sie sie.
- Eine Reihe von Problemen mit Kindern wurde behoben, z. B.:
- Einzelne Buchstaben am Anfang und Ende von Sätzen baumeln lassen;
- Geringe Ausrichtungsausbeute aufgrund von Modellen mit geringer Qualität;
- "Richtige" Arbeit mit Satzzeichen während der Ernährung;
- (Bald!) Echte Labels für Lautsprecher werden angezeigt.
Für welche Aufgaben kann unser Datensatz nützlich sein?
- Spracherkennung
- Sprachsynthese;
- Entrauschen, Audio-Rauschen beseitigen;
- Sprachidentifikation;
- Trennung der Sprecher;
Wie planen Sie, den Datensatz in Zukunft zu entwickeln?
- Vorhandene Datensätze verbessern / neu laden, Markup bereinigen;
- Veröffentlichung von Modellen zur Spracherkennung und Nachbearbeitung;
- Markup mit Lautsprecher-ID hinzufügen. Für einige der neuen Domänen gibt es ein vorgefertigtes Layout, aber es besteht auch die Idee, den alten Datensätzen Lautsprecher hinzuzufügen.
- Es ist möglich, in andere Sprachen zu wechseln.
- Es ist möglich, mehrere neue Domänen hinzuzufügen.
Weitere Informationen zu neuen Domänen finden Sie im Repository.