
इस वर्ष की शुरुआत में, कई कारणों से, हमें रूसी में सबसे बड़ा खुला डेटासेट बनाने का विचार मिला। हमारी प्रेरणा के बारे में और यह सब कैसे शुरू हुआ
इस लेख में पढ़ा जा सकता है - रूसी भाषण का एक बड़ा खुला डेटासेट । तब से, हमारी परियोजना बड़े पैमाने पर परिवर्तनों की एक श्रृंखला के माध्यम से चली गई है, हमने डेटा की मात्रा तीन गुना कर दी है, उनकी गुणवत्ता में सुधार किया है, वक्ताओं के लिए लेबल जोड़े हैं और अब हम अंत में आपको 1.0 संस्करण पेश करने के लिए तैयार हैं।
हम भविष्य के संस्करणों में त्रुटियों पर गहन कार्य करने और प्रकाशित आंकड़ों की गुणवत्ता में सुधार करने के लिए अपनी प्रशंसा पर आराम करने और योजना बनाने के लिए भी तैयार नहीं हैं। हम कीड़े पर बड़े पैमाने पर काम करने के लिए 1.1 संस्करण समर्पित करने की योजना बना रहे हैं।
संक्षेप में खुले एसटीटी v1.0 के बारे में
- 20,000 से अधिक घंटे (शुरुआत में हम रूसी भाषण के ऑडियो के 10,000 घंटे में बार सेट करते हैं), 2.3 टीबी डेटा (
wav
प्रारूप में, .mp3
प्रारूप में निश्चित रूप से कम); - डोमेन की एक विस्तृत विविधता: एक पेशेवर माइक्रोफोन पर रिकॉर्ड किए गए ऑडियो के साथ शुरू, फोन कॉल के साथ समाप्त:
अधिक विस्तृत आँकड़े परियोजना भंडार में पाए जा सकते हैं।
- अब डेटा को
.wav
(मोनो, 16KHz, int16) दोनों में उच्च गति से डाउनलोड किया जा सकता है, धार के माध्यम से या .mp3
में एक सीधा लिंक के माध्यम से। - 3 मुख्य डोमेन के लिए एक छोटे से मैन्युअल रूप से लेबल किया गया सत्यापन डेटासेट (18 घंटे) जोड़ा गया;
हमने मार्कअप की गुणवत्ता में सुधार के लिए हर संभव प्रयास किया:
- नए डोमेन को अलियास करने के लिए बेहतर मॉडल;
- अलमेंटेशन के लिए बेहतर और बेहतर ट्यून वाले एसटीटी-मॉडल का इस्तेमाल किया;
- संख्या और लैटिन अक्षरों को सामान्य करने के लिए एल्गोरिथ्म में सुधार;
- पिछले संस्करणों से "गंदे" डेटा को धीरे-धीरे पुन: विभाजन / हटा दें;
- बच्चों की समस्याओं की संख्या को ठीक किया जैसे:
- वाक्यों की शुरुआत और अंत में एकल अक्षरों को डंगेल करना;
- कम गुणवत्ता वाले मॉडल के कारण संरेखण की कम उपज;
- विचलन के दौरान विराम चिह्न के साथ "सही" कार्य;
- (जल्द ही!) वक्ताओं के लिए असली लेबल दिखाई देंगे;
हमारे कार्य किस काम में आ सकते हैं?
- वाक् पहचान
- भाषण संश्लेषण;
- ऑडियो में शोर को समाप्त करना, प्रदर्शन करना;
- आवाज पहचान;
- वक्ताओं का पृथक्करण;
भविष्य में डेटासेट विकसित करने की आपकी क्या योजना है?
- मौजूदा डेटासेट, साफ मार्कअप को सुधारना / फिर से लोड करना;
- भाषण मान्यता और पोस्टप्रोसेसिंग के लिए मॉडल प्रकाशित करें;
- स्पीकर आईडी के साथ मार्कअप जोड़ें। कुछ नए डोमेन के लिए, एक तैयार-निर्मित लेआउट है, लेकिन पुराने डेटासेट में स्पीकर जोड़ने का भी विचार है;
- अन्य भाषाओं पर स्विच करना संभव है;
- कई नए डोमेन जोड़ना संभव है;
आप रिपॉजिटरी में नए डोमेन के बारे में अधिक जान सकते हैं ।