ناقشنا في
مقال سابق برنامج ترميز Opus ، الذي يعمل بمعدلات بت منخفضة جدًا. لكن برنامج ترميز آخر يهدف إلى تحقيق معدلات بت أقل - هذا هو برنامج
الترميز 2 .
برنامج الترميز 2 هو لترميز الكلام فقط. وعلى الرغم من أن معدل البت مثير للإعجاب ، إلا أن الصوت ليس عالي الجودة كما في حالة Opus ، والتي يمكن سماعها في
الأمثلة الصوتية . ومع ذلك ، بالاشتراك مع الشبكة العصبية (
WaveNet ) ، يُظهر برنامج الترميز
نتائج رائعة .
طبقات الشبكة العصبية WaveNetمقدمة
برنامج الترميز 2 مفتوح المصدر وهو مصمم لتشفير الكلام. يركز على معدلات البت من 700 إلى 3200 بت في الثانية.
المطور -
David Rowe ، مهندس إلكتروني يعيش حاليًا في جنوب أستراليا. بدأ المشروع في سبتمبر 2009 بهدف تحسين الاتصالات اللاسلكية منخفضة التكلفة للأشخاص في المناطق النائية من العالم. تحقيقا لهذه الغاية ، كان سيطور برنامج ترميز من شأنه أن يقلل بشكل كبير من حجم الملف ومتطلبات عرض النطاق الترددي للبث.
كان الدافع الآخر ، وفقًا لديفيد ، هو إنشاء برنامج ترميز
خالٍ من براءات الاختراع كبديل لبرامج الترميز المملوكة ، والتي ، في رأيه ، "تتطلب تراخيص باهظة الثمن وخرقاء وتخنق الابتكار". يعتقد أنه يمكنك الاستغناء عن برامج الترميز الحاصلة على براءة اختراع ، لذلك يقوم بتوزيع جميع الأعمال بموجب ترخيص مجاني.
التطبيق المحتمل
يسمي المؤلف تطبيقات مختلفة من برنامج الترميز ، بما في ذلك VoIP ، والاتصالات الصوتية عبر نطاق ضيق من الراديو الرقمي HF / UHF (خاصة لإذاعة الهواة ، من أجل تجنب المشاكل باستخدام برامج الترميز الخاصة) ، والاتصالات في البلدان النامية والمناطق النائية ، بما في ذلك الجيش والشرطة وخدمات الإنقاذ .
في Auphonic ، نحن مهتمون بالاستخدام المحتمل لبرنامج الترميز لضغط ملفات البودكاست والعروض التقديمية والكتب الصوتية بشكل أفضل ، مما يمكن أن
يقلل من مقدار المساحة المستخدمة ويقلل من تأثير
اتصالات الشبكة الضعيفة .
كيف يعمل
لتقليل معدل البت ، من الضروري تقليل الكلام إلى الحد الأدنى من المعلومات / البيانات الممكنة ، أي تقليل كمية المعلومات المرسلة بشكل مفرط.
لهذا ، يستخدم برنامج الترميز 2 ترميز
الكلام الجيبي التوافقي . يقسم الكلام إلى مقاطع من 10-30 مللي ثانية تسمى الإطارات. ثم يتم تحليل كل رتل من أجل مستوى أساسي (درجة) وعدد التوافقيات التي تتناسب مع عرض النطاق الترددي 4 كيلوهرتز. علاوة على ذلك ، لكل توافقي في نطاق 4 كيلو هرتز ، يتم تسجيل السعة والطور.
يتم بعد ذلك ترميز هذه المعلومات ، ويقوم مفكك التشفير باستعادة الصوت بناءً على هذه البيانات.
مخططات تدفق برنامج الترميز 2: التشفير (يسار) وفك التشفير (يمين). رسم روتلأمثلة صوتية ومقارنة مع برامج الترميز الأخرى
على الرغم من أن كل هذا يبدو رائعا من الناحية النظرية ، ولكن ماذا في الواقع؟ دعونا نستمع. هنا ملف صوتي wav قصير:
intro-orig.wav - 1.3 ميغابايتنطبق برنامج الترميز 2 (بدون وحدة فك ترميز WaveNet) بمعدلات البت المختلفة المتاحة:
3200 بت في الثانية و
2400 بت في الثانية و
1600 بت في الثانية و
1200 بت في الثانية و
700 بت في الثانية .
تُظهر هذه الأمثلة انخفاضًا كبيرًا في حجم الملف.
دعونا نلقي نظرة على الملفات من حيث
حجمها لتخزين ساعة واحدة من الصوت :
- بسرعة 3200 بت في الثانية ، تتطلب ساعة واحدة من الصوت 1.37 ميغابايت فقط (تلائم قرصًا مرنًا قديمًا مقاس 3 بوصات!)
- معدل البت 2400 بت في الثانية يتوافق مع 1.03 ميجابايت / ساعة
- يبلغ معدل البت 1600 بت في الثانية 0.68 ميجابايت / ساعة (أو حوالي ساعتين من الصوت على قرص مرن واحد! )
- 1200 بت في الثانية - حتى 0.51 ميجابايت / ساعة
- 700 بت في الثانية - حتى 0.3 ميجا بايت / ساعة
الضغط قوي للغاية ، ولكن النتيجة تبدو غير طبيعية بشكل واضح.
للمقارنة ، نفس الصوت في
MP3 بسرعة 8 كيلو بت في الثانية .
حجم الملف أكبر بكثير من Codec 2 ، وربما لا تزال الجودة غير مقبولة. يمكنك أن تسمع جيدًا ما يطلق عليه أحيانًا صوت أزيز - يبدو المعدن الغريب متأصلًا في ملفات MP3 منخفضة الجودة.
يوجد برنامج الترميز الأخير للمقارنة مع. يبدو أنها توحد العالمين ، أي أنها توفر جودة مقبولة بمعدل بت منخفض:
Opus .
بفضل أدائه الجذاب بمعدلات بت منخفضة ، يوفر Auphonic بالفعل للمستخدمين ترميز Opus يصل إلى 6 كيلوبت في الثانية ، وهو أقل معدل بت يدعمه برنامج الترميز.
عند سرعة 6 كيلو بت في الثانية ، يبدو أن برنامج ترميز Opus أفضل بكثير من تنسيق MP3 بمعدل 8 كيلو بت في الثانية. الصوت مكتوم قليلاً ، لكنه
لا يزال يبدو طبيعيًا .
بالعودة إلى برنامج الترميز 2 ، من أجل الاهتمام ، فلنستمع إلى كيفية
ترميز الموسيقى ! (ضع في اعتبارك أن برنامج الترميز 2 ليس مخصصًا لترميز الموسيقى ، ولكن فقط للكلام).
ملف المصدرMP3 8 كيلو بت في الثانيةأنا شخصياً لا أستطيع الاستماع إلى MP3 في معدل البت هذا ، لذلك دعونا نلقي نظرة على نتائج برنامج الترميز 2! لذا ،
3200 بت في الثانية ،
2400 بت في الثانية ،
1600 بت في الثانية ،
1200 بت في الثانية ،
700 بت في الثانية .
من السهل أن نفهم أنه لهذا الغرض ليس مناسبًا على الإطلاق!
برنامج الترميز 2 و WaveNet
كما سمعنا بالفعل ، على الرغم من الضغط المثير للإعجاب ، فإن النتيجة ليست صوتًا طبيعيًا جدًا.
ولكن هنا تصبح المسألة أكثر إثارة للاهتمام إذا نظرت إلى عمل باستيان كلاين من مكتبة جامعة كورنيل. استخدم برنامج Codec 2 بمعدل بت 2400 بت في الثانية للترميز ، ولكنه
استبدل جهاز فك الترميز Codec 2 بنموذج تعليمي عميق WaveNet (انظر المقالة
"Wavenet Low Bitrate Speech Encoding" لمزيد من المعلومات).
فيما يلي بعض الأمثلة من
المؤلفين :
صوت ذكرملف المصدربرنامج الترميز 2مع برنامج WaveNet Decoderصوت الأنثىملف المصدربرنامج الترميز 2مع برنامج WaveNet Decoderبالمقارنة مع برنامج الترميز 2 ، نسمع
تحسنًا كبيرًا في الجودة ، وبالمقارنة مع النسخة الأصلية ، لا يوجد انخفاض كبير في الجودة.
قال ديفيد رو نفسه إنه يعتبر النتيجة
"تحسنًا كبيرًا في تشفير الكلام بمعدلات بت منخفضة" و "برنامج ترميز الكلام عريض النطاق
بسرعة 8000 بت / ثانية".
الخلاصة
على الرغم من أن برنامج الترميز (الأصلي) الترميز 2 هو عمل مثير للاهتمام للغاية ، إلا أن نطاقه محدود والنتيجة النهائية ليست مناسبة للبودكاست. من الواضح أيضًا من الأمثلة الصوتية أنه يمكن استخدامه لضغط الصوت فقط ، وليس الموسيقى.
ومع ذلك ، فإن برنامج Codec 2 بالاشتراك مع
وحدة فك ترميز WaveNet يحسن الجودة بشكل كبير ، وسيكون معدل البت المنخفض (2400 بت في الثانية) مثيرًا للاهتمام للغاية
لتوزيع ملفات البودكاست والكتب الصوتية : مطلوب
1.03 ميجا بايت فقط
من المساحة لمدة
ساعة واحدة من الصوت !
سيضيف Auphonic دعم Codec 2 إلى
ملفات الإخراج عندما يظهر وحدة فك ترميز WaveNet في شكل قابل للاستخدام. لقد أضفنا حتى الآن
دعمًا لبرنامج Codec 2 فقط لملفات الإدخال .