रूसी भाषण संस्करण 1.0 का विशाल खुला डेटासेट

छवि


इस वर्ष की शुरुआत में, कई कारणों से, हमें रूसी में सबसे बड़ा खुला डेटासेट बनाने का विचार मिला। हमारी प्रेरणा के बारे में और यह सब कैसे शुरू हुआ
इस लेख में पढ़ा जा सकता है - रूसी भाषण का एक बड़ा खुला डेटासेट । तब से, हमारी परियोजना बड़े पैमाने पर परिवर्तनों की एक श्रृंखला के माध्यम से चली गई है, हमने डेटा की मात्रा तीन गुना कर दी है, उनकी गुणवत्ता में सुधार किया है, वक्ताओं के लिए लेबल जोड़े हैं और अब हम अंत में आपको 1.0 संस्करण पेश करने के लिए तैयार हैं।


हम भविष्य के संस्करणों में त्रुटियों पर गहन कार्य करने और प्रकाशित आंकड़ों की गुणवत्ता में सुधार करने के लिए अपनी प्रशंसा पर आराम करने और योजना बनाने के लिए भी तैयार नहीं हैं। हम कीड़े पर बड़े पैमाने पर काम करने के लिए 1.1 संस्करण समर्पित करने की योजना बना रहे हैं।


संक्षेप में खुले एसटीटी v1.0 के बारे में


  • 20,000 से अधिक घंटे (शुरुआत में हम रूसी भाषण के ऑडियो के 10,000 घंटे में बार सेट करते हैं), 2.3 टीबी डेटा ( wav प्रारूप में, .mp3 प्रारूप में निश्चित रूप से कम);
  • डोमेन की एक विस्तृत विविधता: एक पेशेवर माइक्रोफोन पर रिकॉर्ड किए गए ऑडियो के साथ शुरू, फोन कॉल के साथ समाप्त:

डोमेनअमूर्तवाक्यांशोंघंटेजीबी
रेडियोसंरेखण8,3M11.9961367
जनता बोल रही हैसंरेखण1,7M2709301
यूट्यूबउपशीर्षक2,6m2117346
किताबेंसंरेखण / ASR1.3M1632180
कॉलASR695K81991
अन्य डेटासेटटीटीएस, सस्वर पाठ1.9M83595

अधिक विस्तृत आँकड़े परियोजना भंडार में पाए जा सकते हैं।


  • अब डेटा को .wav (मोनो, 16KHz, int16) दोनों में उच्च गति से डाउनलोड किया जा सकता है, धार के माध्यम से या .mp3 में एक सीधा लिंक के माध्यम से।
  • 3 मुख्य डोमेन के लिए एक छोटे से मैन्युअल रूप से लेबल किया गया सत्यापन डेटासेट (18 घंटे) जोड़ा गया;

हमने मार्कअप की गुणवत्ता में सुधार के लिए हर संभव प्रयास किया:


  • नए डोमेन को अलियास करने के लिए बेहतर मॉडल;
  • अलमेंटेशन के लिए बेहतर और बेहतर ट्यून वाले एसटीटी-मॉडल का इस्तेमाल किया;
  • संख्या और लैटिन अक्षरों को सामान्य करने के लिए एल्गोरिथ्म में सुधार;
  • पिछले संस्करणों से "गंदे" डेटा को धीरे-धीरे पुन: विभाजन / हटा दें;
  • बच्चों की समस्याओं की संख्या को ठीक किया जैसे:
    • वाक्यों की शुरुआत और अंत में एकल अक्षरों को डंगेल करना;
    • कम गुणवत्ता वाले मॉडल के कारण संरेखण की कम उपज;
    • विचलन के दौरान विराम चिह्न के साथ "सही" कार्य;
  • (जल्द ही!) वक्ताओं के लिए असली लेबल दिखाई देंगे;

हमारे कार्य किस काम में आ सकते हैं?


  • वाक् पहचान
  • भाषण संश्लेषण;
  • ऑडियो में शोर को समाप्त करना, प्रदर्शन करना;
  • आवाज पहचान;
  • वक्ताओं का पृथक्करण;

भविष्य में डेटासेट विकसित करने की आपकी क्या योजना है?


  • मौजूदा डेटासेट, साफ मार्कअप को सुधारना / फिर से लोड करना;
  • भाषण मान्यता और पोस्टप्रोसेसिंग के लिए मॉडल प्रकाशित करें;
  • स्पीकर आईडी के साथ मार्कअप जोड़ें। कुछ नए डोमेन के लिए, एक तैयार-निर्मित लेआउट है, लेकिन पुराने डेटासेट में स्पीकर जोड़ने का भी विचार है;
  • अन्य भाषाओं पर स्विच करना संभव है;
  • कई नए डोमेन जोड़ना संभव है;

आप रिपॉजिटरी में नए डोमेन के बारे में अधिक जान सकते हैं

Source: https://habr.com/ru/post/hi474462/


All Articles