
في بداية هذا العام ، ولعدة أسباب ، توصلنا إلى فكرة إنشاء أكبر مجموعة بيانات مفتوحة في الخطاب الروسي. المزيد عن دوافعنا وكيف بدأ كل شيء
يمكن قراءتها في هذا المقال - مجموعة بيانات مفتوحة ضخمة من الخطاب الروسي . منذ ذلك الحين ، مر مشروعنا بسلسلة من التغييرات واسعة النطاق ، فقد ضاعفنا حجم البيانات ثلاثة أضعاف ، ونحسن من جودتها ، وأضفنا ملصقات إضافية للمتحدثين ، ونحن الآن على استعداد دائمًا لتقديم الإصدار 1.0 لك.
كما أننا لسنا مستعدين للراحة بأمجادنا ونخطط لمواصلة العمل المكثف على الأخطاء في الإصدارات المستقبلية وتحسين جودة البيانات المنشورة بالفعل. نحن نخطط لتكريس الإصدار 1.1 للعمل على نطاق واسع على الأخطاء.
باختصار حول فتح STT v1.0
- أكثر من 20،000 ساعة (في البداية وضعنا الشريط على 10000 ساعة) من صوت الكلام الروسي ، 2.3 تيرابايت من البيانات (بتنسيق
wav
، بتنسيق .mp3
بالطبع أقل) ؛ - مجموعة واسعة من المجالات: بدءًا من الصوت المسجل على ميكروفون احترافي ، ينتهي بالمكالمات الهاتفية:
إحصاءات أكثر تفصيلا يمكن العثور عليها في مستودع المشروع.
- الآن يمكن تنزيل البيانات بسرعة عالية سواء بتنسيق
.wav
(أحادي ، 16 كيلو هرتز ، int16) عبر التورنت ، أو عبر رابط مباشر بتنسيق .mp3
؛ - إضافة مجموعة بيانات صغيرة للتحقق من صحة المسمى يدويًا (18 ساعة) لمدة 3 مجالات رئيسية ؛
لقد بذلنا قصارى جهدنا لتحسين جودة العلامات:
- نموذج محسّن لتسمية النطاقات الجديدة ؛
- تستخدم نماذج STT أفضل ودقيقة للتغذية ؛
- تحسين الخوارزمية لتطبيع الأرقام والحروف اللاتينية ؛
- إعادة تقسيم / إزالة البيانات "القذرة" تدريجياً من الإصدارات السابقة ؛
- علاج مجموعة من مشاكل الأطفال مثل:
- تعلق الحروف المفردة في بداية ونهاية الجمل ؛
- انخفاض العائد من المحاذاة بسبب نماذج ذات جودة منخفضة ؛
- العمل "الصحيح" مع علامات الترقيم أثناء التغذية ؛
- (قريبا!) ستظهر ملصقات حقيقية للمتحدثين.
ما المهام التي يمكن أن تكون مجموعة بياناتنا مفيدة؟
- التعرف على الكلام
- توليف الكلام.
- تقليل الضوضاء ، والقضاء على الضوضاء في الصوت.
- التعرف على الصوت
- فصل المتكلمين
كيف تخطط لتطوير مجموعة البيانات في المستقبل؟
- تحسين / إعادة تحميل مجموعات البيانات الحالية ، العلامات النظيفة ؛
- نشر نماذج للتعرف على الكلام و postprocessing ؛
- إضافة العلامات مع معرف المتكلم. بالنسبة لبعض المجالات الجديدة ، يوجد تخطيط جاهز ، ولكن هناك أيضًا فكرة إضافة مكبرات صوت إلى مجموعات البيانات القديمة ؛
- من الممكن التبديل إلى لغات أخرى ؛
- من الممكن إضافة عدة مجالات جديدة ؛
يمكنك معرفة المزيد عن المجالات الجديدة في المستودع.