مجموعة بيانات مفتوحة ضخمة من الإصدار خطاب الروسية 1.0

صورة


في بداية هذا العام ، ولعدة أسباب ، توصلنا إلى فكرة إنشاء أكبر مجموعة بيانات مفتوحة في الخطاب الروسي. المزيد عن دوافعنا وكيف بدأ كل شيء
يمكن قراءتها في هذا المقال - مجموعة بيانات مفتوحة ضخمة من الخطاب الروسي . منذ ذلك الحين ، مر مشروعنا بسلسلة من التغييرات واسعة النطاق ، فقد ضاعفنا حجم البيانات ثلاثة أضعاف ، ونحسن من جودتها ، وأضفنا ملصقات إضافية للمتحدثين ، ونحن الآن على استعداد دائمًا لتقديم الإصدار 1.0 لك.


كما أننا لسنا مستعدين للراحة بأمجادنا ونخطط لمواصلة العمل المكثف على الأخطاء في الإصدارات المستقبلية وتحسين جودة البيانات المنشورة بالفعل. نحن نخطط لتكريس الإصدار 1.1 للعمل على نطاق واسع على الأخطاء.


باختصار حول فتح STT v1.0


  • أكثر من 20،000 ساعة (في البداية وضعنا الشريط على 10000 ساعة) من صوت الكلام الروسي ، 2.3 تيرابايت من البيانات (بتنسيق wav ، بتنسيق .mp3 بالطبع أقل) ؛
  • مجموعة واسعة من المجالات: بدءًا من الصوت المسجل على ميكروفون احترافي ، ينتهي بالمكالمات الهاتفية:

نطاقملخصالعباراتساعاتGB
راديوانحياز8،3M11،9961367
التحدث أمام الجمهورانحياز1،7M2709301
يوتيوبعناوين فرعية2،6m2117346
الكتبمحاذاة / ASR1.3M1632180
المكالماتASR695K81991
مجموعات البيانات الأخرىتحويل النص إلى كلام ، تلاوة1.9M83595

إحصاءات أكثر تفصيلا يمكن العثور عليها في مستودع المشروع.


  • الآن يمكن تنزيل البيانات بسرعة عالية سواء بتنسيق .wav (أحادي ، 16 كيلو هرتز ، int16) عبر التورنت ، أو عبر رابط مباشر بتنسيق .mp3 ؛
  • إضافة مجموعة بيانات صغيرة للتحقق من صحة المسمى يدويًا (18 ساعة) لمدة 3 مجالات رئيسية ؛

لقد بذلنا قصارى جهدنا لتحسين جودة العلامات:


  • نموذج محسّن لتسمية النطاقات الجديدة ؛
  • تستخدم نماذج STT أفضل ودقيقة للتغذية ؛
  • تحسين الخوارزمية لتطبيع الأرقام والحروف اللاتينية ؛
  • إعادة تقسيم / إزالة البيانات "القذرة" تدريجياً من الإصدارات السابقة ؛
  • علاج مجموعة من مشاكل الأطفال مثل:
    • تعلق الحروف المفردة في بداية ونهاية الجمل ؛
    • انخفاض العائد من المحاذاة بسبب نماذج ذات جودة منخفضة ؛
    • العمل "الصحيح" مع علامات الترقيم أثناء التغذية ؛
  • (قريبا!) ستظهر ملصقات حقيقية للمتحدثين.

ما المهام التي يمكن أن تكون مجموعة بياناتنا مفيدة؟


  • التعرف على الكلام
  • توليف الكلام.
  • تقليل الضوضاء ، والقضاء على الضوضاء في الصوت.
  • التعرف على الصوت
  • فصل المتكلمين

كيف تخطط لتطوير مجموعة البيانات في المستقبل؟


  • تحسين / إعادة تحميل مجموعات البيانات الحالية ، العلامات النظيفة ؛
  • نشر نماذج للتعرف على الكلام و postprocessing ؛
  • إضافة العلامات مع معرف المتكلم. بالنسبة لبعض المجالات الجديدة ، يوجد تخطيط جاهز ، ولكن هناك أيضًا فكرة إضافة مكبرات صوت إلى مجموعات البيانات القديمة ؛
  • من الممكن التبديل إلى لغات أخرى ؛
  • من الممكن إضافة عدة مجالات جديدة ؛

يمكنك معرفة المزيد عن المجالات الجديدة في المستودع.

Source: https://habr.com/ru/post/ar474462/


All Articles