أمثلة على إعادة بناء جزء فيديو مضغوط بواسطة برامج ترميز مختلفة بنفس قيمة BPP تقريبًا (بت لكل بكسل). نتائج الاختبار المقارن انظر تحت القطيدعي الباحثون في WaveOne
أنهم قريبون من ثورة في ضغط الفيديو. عند معالجة فيديو عالي الدقة 1080 بكسل ، يقوم
برنامج ترميز التعلم الآلي الجديد بضغط الفيديو بنسبة 20٪ أفضل من أحدث برامج ترميز الفيديو التقليدية مثل H.265 و VP9. وفي فيديو "التعريف القياسي" (SD / VGA ، 640 × 480) ، يصل الفرق إلى 60٪.
يصف المطورون طرق ضغط الفيديو الحالية ، والتي يتم تنفيذها في H.265 و VP9 ، "القديمة" وفقًا لمعايير التقنيات الحديثة: "على مدار العشرين عامًا الماضية ، لم تتغير أسس خوارزميات ضغط الفيديو الحالية بشكل كبير" ، يكتب مؤلفو المقالة العلمية في مقدمة مقالتهم. "على الرغم من أنها مصممة بشكل جيد للغاية ومضبوطة بعناية ، إلا أنها لا تزال مشفرة على نحو صعب ، وبالتالي لا يمكنها التكيف مع الطلب المتزايد ومجموعة أكثر تنوعًا من التطبيقات لمواد الفيديو ، والتي تشمل مشاركة الوسائط الاجتماعية ، واكتشاف الأشياء ، وتدفق الواقع الافتراضي وما إلى ذلك."
يجب أن يؤدي استخدام تعلُم الآلة في النهاية إلى جلب تقنية ضغط الفيديو إلى القرن الحادي والعشرين. خوارزمية الضغط الجديدة أفضل بكثير من برامج ترميز الفيديو الموجودة. ويقولون: "على حد علمنا ، هذه هي أول طريقة للتعلم الآلي أظهرت مثل هذه النتيجة".
الفكرة الرئيسية لضغط الفيديو هي إزالة البيانات الزائدة واستبدالها بوصف أقصر يسمح لك بتشغيل الفيديو لاحقًا. يتم معظم ضغط الفيديو على مرحلتين.
المرحلة الأولى هي ضغط الحركة ، عندما يبحث برنامج الترميز عن كائنات متحركة ويحاول التنبؤ بموضعها في الإطار التالي. ثم ، بدلاً من تسجيل وحدات البكسل المرتبطة بهذا الجسم المتحرك ، في كل إطار ، تقوم الخوارزمية بترميز شكل الكائن فقط مع اتجاه الحركة. في الواقع ، تنظر بعض الخوارزميات في الإطارات المستقبلية لتحديد الحركة بشكل أكثر دقة ، على الرغم من أن هذا لن يعمل بشكل واضح للبث المباشر.
تزيل خطوة الضغط الثانية التكرارات الأخرى بين إطار واحد والإطار التالي. وبالتالي ، بدلاً من تسجيل لون كل بكسل في السماء الزرقاء ، يمكن لخوارزمية الضغط تحديد مساحة هذا اللون والإشارة إلى أنها لا تتغير خلال الإطارات القليلة التالية. وبالتالي ، تظل هذه البكسلات بنفس اللون حتى يُطلب منها التغيير. وهذا ما يسمى بالضغط المتبقي.
يستخدم المنهج الجديد الذي قدمه العلماء التعلم الآلي لأول مرة لتحسين كل من طرق الضغط هذه. لذلك ، عند ضغط الحركة ، اكتشفت طرق التعلم الآلي للفريق وجود فائض جديد يعتمد على الحركة ، والتي لم تتمكن برامج الترميز التقليدية من اكتشافها ، ناهيك عن استخدامها. على سبيل المثال ، يؤدي تحويل رأس شخص ما من عرض أمامي إلى ملف تعريف دائمًا إلى نتيجة مشابهة: "لا يستطيع برنامج الترميز التقليدي التنبؤ بملف تعريف الشخص استنادًا إلى عرض أمامي" ، يكتب مؤلفو الورقة العلمية. على العكس ، يقوم برنامج الترميز الجديد بدراسة هذه الأنواع من الأنماط المكانية الزمانية ويستخدمها للتنبؤ بالإطارات المستقبلية.
مشكلة أخرى هي تخصيص عرض النطاق الترددي المتاح بين الحركة والضغط المتبقي. في بعض المشاهد ، يكون ضغط الحركة أكثر أهمية ، بينما في حالات أخرى ، يوفر الضغط المتبقي أكبر مكسب. الحل الوسط الأمثل بينهما يختلف من إطار إلى إطار.
تعالج الخوارزميات التقليدية كلا العمليتين بشكل منفصل عن بعضهما البعض. هذا يعني أنه لا توجد طريقة سهلة لإعطاء ميزة لأحد أو الآخر وإيجاد حل وسط.
يتحايل المؤلفون على هذا عن طريق ضغط كلتا الإشارات في نفس الوقت ، وبناءً على مدى تعقيد الإطار ، تحديد كيفية توزيع عرض النطاق الترددي بين الإشارتين بأكثر الطرق فعالية.
سمحت هذه التحسينات وغيرها للباحثين بإنشاء خوارزمية ضغط تفوق بكثير برامج الترميز التقليدية (انظر المعايير أدناه).
تُظهر أمثلة على إعادة بناء جزء مضغوط بواسطة برامج ترميز مختلفة بنفس قيمة BPP تقريبًا ميزة كبيرة لبرنامج ترميز WaveOne
بطاقات التدفق الضوئي H.265 (يسار) وترميز WaveOne (يمين) في نفس معدل البتومع ذلك ، فإن النهج الجديد لا يخلو من بعض العوائق ،
تلاحظ MIT Technology Review . ولعل العيب الرئيسي هو الكفاءة الحسابية المنخفضة ، أي الوقت اللازم لتشفير وفك تشفير الفيديو. على منصة Nvidia Tesla V100 وفيديو بحجم VGA ، يعمل جهاز فك التشفير الجديد بسرعة متوسطة تبلغ حوالي 10 إطارات في الثانية ، ويعمل جهاز التشفير بسرعة حوالي 2 إطار في الثانية. من المستحيل استخدام مثل هذه السرعات في عمليات البث المباشر للفيديو ، ومع تشفير المواد دون اتصال بالإنترنت ، سيكون للترميز الجديد نطاق محدود جدًا.
علاوة على ذلك ، فإن سرعة وحدة فك الترميز ليست كافية حتى
لمشاهدة فيديو مضغوط باستخدام برنامج الترميز هذا على جهاز كمبيوتر شخصي عادي. أي ، لمشاهدة مقاطع الفيديو هذه ، حتى في الحد الأدنى من جودة SD ، مطلوب حاليًا مجموعة حوسبة كاملة مع العديد من مسرعات الرسومات. ولمشاهدة الفيديو بجودة HD (1080p) ، تحتاج إلى مزرعة كمبيوتر كاملة.
يمكن للمرء أن يأمل فقط في زيادة قوة المعالجات الرسومية في المستقبل وتحسين التكنولوجيا: "إن السرعة الحالية ليست كافية للنشر في الوقت الحقيقي ، ولكن يجب تحسينها بشكل كبير في العمل المستقبلي" ، يكتبون.
المعايير
HEVC/H.265, AVC/H.264, VP9 HEVC HM 16.0 . Ffmpeg, — . , . , B- H.264/5
bframes=0
,
-auto-alt-ref 0 -lag-in-frames 0
. MS-SSIM, ,
-ssim
.
SD HD, . SD- VGA e Consumer Digital Video Library (CDVL). 34 15 650 . HD Xiph 1080p: 22 11 680 . 1080p 1024 ( , 32 ).
:
- MS-SSIM ;
- MS-SSIM ;
- WaveOne ( ).
(SD)
(HD)
WaveOne. , . . , . G. Toderici, S. M. O’Malley, S. J. Hwang, D. Vincent, D. Minnen, S. Baluja, M. Covell, R. Sukthankar.
Variable rate image compression with recurrent neural networks, 2015; G. Toderici, D. Vincent, N. Johnston, S. J. Hwang, D. Minnen, J. Shor, M. Covell.
Full resolution image compression with recurrent neural networks, 2016; J. Balle, V. Laparra, E. P. Simoncelli.
End-to-end optimized image compression, 2016; N. Johnston, D. Vincent, D. Minnen, M. Covell, S. Singh, T. Chinen, S. J. Hwang, J. Shor, G. Toderici.
Improved lossy image compression with priming and spatially adaptive bit rates for recurrent networks, 2017 . , , .
ML- , . . . C.-Y. Wu, N. Singhal, and P. Krahenbuhl.
Video compression through image interpolation, ECCV (2018). , . AVC/H.264. , .
« » 16 2018 arXiv.org (arXiv:1811.06981). — (Oren Rippel), (Sanjay Nair), (Carissa Lew), (Steve Branson), (Alexander G. Anderson), (Lubomir Bourdev).
Stas911:
Altaisky: . ?
Stas911: . .