برنامج الترميز 2 + الشبكة العصبية = بودكاست كامل على قرص مرن واحد

ناقشنا في مقال سابق برنامج ترميز Opus ، الذي يعمل بمعدلات بت منخفضة جدًا. لكن برنامج ترميز آخر يهدف إلى تحقيق معدلات بت أقل - هذا هو برنامج الترميز 2 .

برنامج الترميز 2 هو لترميز الكلام فقط. وعلى الرغم من أن معدل البت مثير للإعجاب ، إلا أن الصوت ليس عالي الجودة كما في حالة Opus ، والتي يمكن سماعها في الأمثلة الصوتية . ومع ذلك ، بالاشتراك مع الشبكة العصبية ( WaveNet ) ، يُظهر برنامج الترميز نتائج رائعة .


طبقات الشبكة العصبية WaveNet

مقدمة


برنامج الترميز 2 مفتوح المصدر وهو مصمم لتشفير الكلام. يركز على معدلات البت من 700 إلى 3200 بت في الثانية.

المطور - David Rowe ، مهندس إلكتروني يعيش حاليًا في جنوب أستراليا. بدأ المشروع في سبتمبر 2009 بهدف تحسين الاتصالات اللاسلكية منخفضة التكلفة للأشخاص في المناطق النائية من العالم. تحقيقا لهذه الغاية ، كان سيطور برنامج ترميز من شأنه أن يقلل بشكل كبير من حجم الملف ومتطلبات عرض النطاق الترددي للبث.

كان الدافع الآخر ، وفقًا لديفيد ، هو إنشاء برنامج ترميز خالٍ من براءات الاختراع كبديل لبرامج الترميز المملوكة ، والتي ، في رأيه ، "تتطلب تراخيص باهظة الثمن وخرقاء وتخنق الابتكار". يعتقد أنه يمكنك الاستغناء عن برامج الترميز الحاصلة على براءة اختراع ، لذلك يقوم بتوزيع جميع الأعمال بموجب ترخيص مجاني.

التطبيق المحتمل


يسمي المؤلف تطبيقات مختلفة من برنامج الترميز ، بما في ذلك VoIP ، والاتصالات الصوتية عبر نطاق ضيق من الراديو الرقمي HF / UHF (خاصة لإذاعة الهواة ، من أجل تجنب المشاكل باستخدام برامج الترميز الخاصة) ، والاتصالات في البلدان النامية والمناطق النائية ، بما في ذلك الجيش والشرطة وخدمات الإنقاذ .

في Auphonic ، نحن مهتمون بالاستخدام المحتمل لبرنامج الترميز لضغط ملفات البودكاست والعروض التقديمية والكتب الصوتية بشكل أفضل ، مما يمكن أن يقلل من مقدار المساحة المستخدمة ويقلل من تأثير اتصالات الشبكة الضعيفة .

كيف يعمل


لتقليل معدل البت ، من الضروري تقليل الكلام إلى الحد الأدنى من المعلومات / البيانات الممكنة ، أي تقليل كمية المعلومات المرسلة بشكل مفرط.

لهذا ، يستخدم برنامج الترميز 2 ترميز الكلام الجيبي التوافقي . يقسم الكلام إلى مقاطع من 10-30 مللي ثانية تسمى الإطارات. ثم يتم تحليل كل رتل من أجل مستوى أساسي (درجة) وعدد التوافقيات التي تتناسب مع عرض النطاق الترددي 4 كيلوهرتز. علاوة على ذلك ، لكل توافقي في نطاق 4 كيلو هرتز ، يتم تسجيل السعة والطور.

يتم بعد ذلك ترميز هذه المعلومات ، ويقوم مفكك التشفير باستعادة الصوت بناءً على هذه البيانات.


مخططات تدفق برنامج الترميز 2: التشفير (يسار) وفك التشفير (يمين). رسم روتل

أمثلة صوتية ومقارنة مع برامج الترميز الأخرى


على الرغم من أن كل هذا يبدو رائعا من الناحية النظرية ، ولكن ماذا في الواقع؟ دعونا نستمع. هنا ملف صوتي wav قصير:

intro-orig.wav - 1.3 ميغابايت

نطبق برنامج الترميز 2 (بدون وحدة فك ترميز WaveNet) بمعدلات البت المختلفة المتاحة: 3200 بت في الثانية و 2400 بت في الثانية و 1600 بت في الثانية و 1200 بت في الثانية و 700 بت في الثانية .

تُظهر هذه الأمثلة انخفاضًا كبيرًا في حجم الملف.

دعونا نلقي نظرة على الملفات من حيث حجمها لتخزين ساعة واحدة من الصوت :

  • بسرعة 3200 بت في الثانية ، تتطلب ساعة واحدة من الصوت 1.37 ميغابايت فقط (تلائم قرصًا مرنًا قديمًا مقاس 3 بوصات!)
  • معدل البت 2400 بت في الثانية يتوافق مع 1.03 ميجابايت / ساعة
  • يبلغ معدل البت 1600 بت في الثانية 0.68 ميجابايت / ساعة (أو حوالي ساعتين من الصوت على قرص مرن واحد! )
  • 1200 بت في الثانية - حتى 0.51 ميجابايت / ساعة
  • 700 بت في الثانية - حتى 0.3 ميجا بايت / ساعة

الضغط قوي للغاية ، ولكن النتيجة تبدو غير طبيعية بشكل واضح.

للمقارنة ، نفس الصوت في MP3 بسرعة 8 كيلو بت في الثانية .

حجم الملف أكبر بكثير من Codec 2 ، وربما لا تزال الجودة غير مقبولة. يمكنك أن تسمع جيدًا ما يطلق عليه أحيانًا صوت أزيز - يبدو المعدن الغريب متأصلًا في ملفات MP3 منخفضة الجودة.

يوجد برنامج الترميز الأخير للمقارنة مع. يبدو أنها توحد العالمين ، أي أنها توفر جودة مقبولة بمعدل بت منخفض: Opus .

بفضل أدائه الجذاب بمعدلات بت منخفضة ، يوفر Auphonic بالفعل للمستخدمين ترميز Opus يصل إلى 6 كيلوبت في الثانية ، وهو أقل معدل بت يدعمه برنامج الترميز.

عند سرعة 6 كيلو بت في الثانية ، يبدو أن برنامج ترميز Opus أفضل بكثير من تنسيق MP3 بمعدل 8 كيلو بت في الثانية. الصوت مكتوم قليلاً ، لكنه لا يزال يبدو طبيعيًا .

بالعودة إلى برنامج الترميز 2 ، من أجل الاهتمام ، فلنستمع إلى كيفية ترميز الموسيقى ! (ضع في اعتبارك أن برنامج الترميز 2 ليس مخصصًا لترميز الموسيقى ، ولكن فقط للكلام).

ملف المصدر
MP3 8 كيلو بت في الثانية

أنا شخصياً لا أستطيع الاستماع إلى MP3 في معدل البت هذا ، لذلك دعونا نلقي نظرة على نتائج برنامج الترميز 2! لذا ، 3200 بت في الثانية ، 2400 بت في الثانية ، 1600 بت في الثانية ، 1200 بت في الثانية ، 700 بت في الثانية .

من السهل أن نفهم أنه لهذا الغرض ليس مناسبًا على الإطلاق!

برنامج الترميز 2 و WaveNet


كما سمعنا بالفعل ، على الرغم من الضغط المثير للإعجاب ، فإن النتيجة ليست صوتًا طبيعيًا جدًا.

ولكن هنا تصبح المسألة أكثر إثارة للاهتمام إذا نظرت إلى عمل باستيان كلاين من مكتبة جامعة كورنيل. استخدم برنامج Codec 2 بمعدل بت 2400 بت في الثانية للترميز ، ولكنه استبدل جهاز فك الترميز Codec 2 بنموذج تعليمي عميق WaveNet (انظر المقالة "Wavenet Low Bitrate Speech Encoding" لمزيد من المعلومات).

فيما يلي بعض الأمثلة من المؤلفين :

صوت ذكر
ملف المصدر
برنامج الترميز 2
مع برنامج WaveNet Decoder

صوت الأنثى
ملف المصدر
برنامج الترميز 2
مع برنامج WaveNet Decoder

بالمقارنة مع برنامج الترميز 2 ، نسمع تحسنًا كبيرًا في الجودة ، وبالمقارنة مع النسخة الأصلية ، لا يوجد انخفاض كبير في الجودة.

قال ديفيد رو نفسه إنه يعتبر النتيجة "تحسنًا كبيرًا في تشفير الكلام بمعدلات بت منخفضة" و "برنامج ترميز الكلام عريض النطاق بسرعة 8000 بت / ثانية".

الخلاصة


على الرغم من أن برنامج الترميز (الأصلي) الترميز 2 هو عمل مثير للاهتمام للغاية ، إلا أن نطاقه محدود والنتيجة النهائية ليست مناسبة للبودكاست. من الواضح أيضًا من الأمثلة الصوتية أنه يمكن استخدامه لضغط الصوت فقط ، وليس الموسيقى.

ومع ذلك ، فإن برنامج Codec 2 بالاشتراك مع وحدة فك ترميز WaveNet يحسن الجودة بشكل كبير ، وسيكون معدل البت المنخفض (2400 بت في الثانية) مثيرًا للاهتمام للغاية لتوزيع ملفات البودكاست والكتب الصوتية : مطلوب 1.03 ميجا بايت فقط من المساحة لمدة ساعة واحدة من الصوت !

سيضيف Auphonic دعم Codec 2 إلى ملفات الإخراج عندما يظهر وحدة فك ترميز WaveNet في شكل قابل للاستخدام. لقد أضفنا حتى الآن دعمًا لبرنامج Codec 2 فقط لملفات الإدخال .

Source: https://habr.com/ru/post/ar415557/


All Articles