في بداية هذا العام ، ولعدة أسباب ، توصلنا إلى فكرة إنشاء أكبر مجموعة بيانات مفتوحة في الخطاب الروسي. المزيد عن دوافعنا وكيف بدأ كل شيء
يمكن قراءتها في هذا المقال - مجموعة بيانات مفتوحة ضخمة من الخطاب الروسي . منذ ذلك الحين ، مر مشروعنا بسلسلة من التغييرات واسعة النطاق ، فقد ضاعفنا حجم البيانات ثلاثة أضعاف ، ونحسن من جودتها ، وأضفنا ملصقات إضافية للمتحدثين ، ونحن الآن على استعداد دائمًا لتقديم الإصدار 1.0 لك.

كما أننا لسنا مستعدين للراحة بأمجادنا ونخطط لمواصلة العمل المكثف على الأخطاء في الإصدارات المستقبلية وتحسين جودة البيانات المنشورة بالفعل. نحن نخطط لتكريس الإصدار 1.1 للعمل على نطاق واسع على الأخطاء.

باختصار حول فتح STT v1.0

أكثر من 20،000 ساعة (في البداية وضعنا الشريط على 10000 ساعة) من صوت الكلام الروسي ، 2.3 تيرابايت من البيانات (بتنسيق wav ، بتنسيق .mp3 بالطبع أقل) ؛
مجموعة واسعة من المجالات: بدءًا من الصوت المسجل على ميكروفون احترافي ، ينتهي بالمكالمات الهاتفية:

نطاق	ملخص	العبارات	ساعات	GB
راديو	انحياز	8،3M	11،996	1367
التحدث أمام الجمهور	انحياز	1،7M	2709	301
يوتيوب	عناوين فرعية	2،6m	2117	346
الكتب	محاذاة / ASR	1.3M	1632	180
المكالمات	ASR	695K	819	91
مجموعات البيانات الأخرى	تحويل النص إلى كلام ، تلاوة	1.9M	835	95

إحصاءات أكثر تفصيلا يمكن العثور عليها في مستودع المشروع.

الآن يمكن تنزيل البيانات بسرعة عالية سواء بتنسيق .wav (أحادي ، 16 كيلو هرتز ، int16) عبر التورنت ، أو عبر رابط مباشر بتنسيق .mp3 ؛
إضافة مجموعة بيانات صغيرة للتحقق من صحة المسمى يدويًا (18 ساعة) لمدة 3 مجالات رئيسية ؛

لقد بذلنا قصارى جهدنا لتحسين جودة العلامات:

نموذج محسّن لتسمية النطاقات الجديدة ؛
تستخدم نماذج STT أفضل ودقيقة للتغذية ؛
تحسين الخوارزمية لتطبيع الأرقام والحروف اللاتينية ؛
إعادة تقسيم / إزالة البيانات "القذرة" تدريجياً من الإصدارات السابقة ؛
علاج مجموعة من مشاكل الأطفال مثل:
- تعلق الحروف المفردة في بداية ونهاية الجمل ؛
- انخفاض العائد من المحاذاة بسبب نماذج ذات جودة منخفضة ؛
- العمل "الصحيح" مع علامات الترقيم أثناء التغذية ؛
(قريبا!) ستظهر ملصقات حقيقية للمتحدثين.

ما المهام التي يمكن أن تكون مجموعة بياناتنا مفيدة؟

التعرف على الكلام
توليف الكلام.
تقليل الضوضاء ، والقضاء على الضوضاء في الصوت.
التعرف على الصوت
فصل المتكلمين

كيف تخطط لتطوير مجموعة البيانات في المستقبل؟

تحسين / إعادة تحميل مجموعات البيانات الحالية ، العلامات النظيفة ؛
نشر نماذج للتعرف على الكلام و postprocessing ؛
إضافة العلامات مع معرف المتكلم. بالنسبة لبعض المجالات الجديدة ، يوجد تخطيط جاهز ، ولكن هناك أيضًا فكرة إضافة مكبرات صوت إلى مجموعات البيانات القديمة ؛
من الممكن التبديل إلى لغات أخرى ؛
من الممكن إضافة عدة مجالات جديدة ؛

يمكنك معرفة المزيد عن المجالات الجديدة في المستودع.

مجموعة بيانات مفتوحة ضخمة من الإصدار خطاب الروسية 1.0

باختصار حول فتح STT v1.0

ما المهام التي يمكن أن تكون مجموعة بياناتنا مفيدة؟

كيف تخطط لتطوير مجموعة البيانات في المستقبل؟

More articles: