Contoh rekonstruksi fragmen video yang dikompresi oleh codec yang berbeda dengan nilai BPP yang kira-kira sama (bit per piksel). Hasil tes komparatif lihat di bawah kucingPara peneliti di WaveOne
mengklaim dekat dengan revolusi dalam kompresi video. Saat memproses video 1080p definisi tinggi,
codec pembelajaran mesin baru mereka mengkompresi video sekitar 20% lebih baik daripada codec video tradisional paling modern seperti H.265 dan VP9. Dan dalam video "definisi standar" (SD / VGA, 640 Γ 480), perbedaannya mencapai 60%.
Para pengembang menyebut metode kompresi video saat ini, yang diimplementasikan dalam H.265 dan VP9, ββ"kuno" sesuai dengan standar teknologi modern: "Selama 20 tahun terakhir, dasar-dasar algoritma kompresi video yang ada tidak berubah secara signifikan," penulis artikel ilmiah menulis dalam pengantar artikel mereka. "Meskipun mereka dirancang dengan sangat baik dan disetel dengan hati-hati, mereka tetap dikodekan dengan keras dan karena itu tidak dapat beradaptasi dengan permintaan yang terus meningkat dan berbagai aplikasi bahan video yang semakin fleksibel, yang meliputi berbagi media sosial, deteksi objek, streaming realitas virtual, dan sebagainya."
Penggunaan pembelajaran mesin akhirnya harus membawa teknologi kompresi video ke abad ke-21. Algoritma kompresi baru secara signifikan lebih unggul dari codec video yang ada. "Sejauh yang kami tahu, ini adalah metode pembelajaran mesin pertama yang menunjukkan hasil seperti itu," kata mereka.
Gagasan utama kompresi video adalah menghapus data yang berlebihan dan menggantinya dengan deskripsi yang lebih pendek yang memungkinkan Anda memutar video nanti. Sebagian besar kompresi video berlangsung dalam dua tahap.
Tahap pertama adalah kompresi gerak, ketika codec mencari objek yang bergerak dan mencoba memprediksi di mana mereka akan berada di frame berikutnya. Kemudian, alih-alih merekam piksel yang terkait dengan objek bergerak ini, pada setiap frame, algoritma hanya mengkodekan bentuk objek bersama dengan arah gerak. Memang, beberapa algoritma melihat frame masa depan untuk menentukan gerakan lebih akurat, meskipun ini jelas tidak akan berfungsi untuk siaran langsung.
Langkah kompresi kedua menghilangkan redudansi lain antara satu frame dan berikutnya. Jadi, alih-alih merekam warna setiap piksel di langit biru, algoritma kompresi dapat menentukan area warna ini dan menunjukkan bahwa itu tidak berubah selama beberapa frame berikutnya. Dengan demikian, piksel ini tetap berwarna sama hingga disuruh berubah. Ini disebut kompresi residual.
Pendekatan baru yang telah diperkenalkan oleh para ilmuwan menggunakan pembelajaran mesin untuk pertama kalinya untuk meningkatkan kedua metode kompresi ini. Jadi, ketika mengompresi pergerakan, metode pembelajaran mesin dari tim menemukan redudansi baru berdasarkan pergerakan, yang tidak pernah dapat dideteksi oleh codec konvensional, apalagi digunakan. Misalnya, membalikkan kepala seseorang dari tampilan depan ke profil selalu memberikan hasil yang serupa: "Codec tradisional tidak dapat memprediksi profil seseorang berdasarkan tampilan depan," para penulis makalah ilmiah menulis. Sebaliknya, codec baru mempelajari jenis pola spatio-temporal dan menggunakannya untuk memprediksi kerangka masa depan.
Masalah lain adalah alokasi bandwidth yang tersedia antara gerak dan kompresi residu. Dalam beberapa adegan, kompresi gerak lebih penting, sementara di adegan lain, kompresi residu memberikan keuntungan terbesar. Kompromi yang optimal di antara mereka berbeda dari bingkai ke bingkai.
Algoritma tradisional memproses kedua proses secara terpisah satu sama lain. Ini berarti bahwa tidak ada cara mudah untuk memberikan keuntungan kepada satu atau yang lain dan menemukan kompromi.
Para penulis mengelak dengan mengkompresi kedua sinyal pada saat yang sama dan, berdasarkan kompleksitas frame, menentukan bagaimana mendistribusikan bandwidth antara dua sinyal dengan cara yang paling efisien.
Perbaikan ini dan lainnya telah memungkinkan para peneliti untuk membuat algoritma kompresi yang jauh melampaui codec tradisional (lihat benchmark di bawah).
Contoh rekonstruksi fragmen yang dikompres oleh codec yang berbeda dengan nilai BPP yang hampir sama menunjukkan keuntungan signifikan dari codec WaveOne
Kartu stream optik H.265 (kiri) dan codec WaveOne (kanan) pada bitrate yang samaNamun, pendekatan baru ini bukannya tanpa beberapa kelemahan,
catatan MIT Technology Review . Mungkin kelemahan utama adalah efisiensi komputasi yang rendah, yaitu, waktu yang diperlukan untuk encoding dan decoding video. Pada platform Nvidia Tesla V100 dan pada video berukuran VGA, decoder baru bekerja pada kecepatan rata-rata sekitar 10 frame per detik, dan encoder melakukan pada kecepatan sekitar 2 frame per detik. Kecepatan seperti itu tidak mungkin digunakan dalam siaran video langsung, dan dengan penyandian materi offline, pembuat enkode baru akan memiliki cakupan yang sangat terbatas.
Selain itu, kecepatan dekoder tidak cukup bahkan untuk
menonton video yang dikompresi dengan codec ini di komputer pribadi biasa. Artinya, untuk menonton video ini, bahkan dalam kualitas SD minimal, seluruh cluster komputasi dengan beberapa akselerator grafis saat ini diperlukan. Dan untuk menonton video dalam kualitas HD (1080p), Anda memerlukan peternakan komputer secara keseluruhan.
Orang hanya bisa berharap untuk peningkatan kekuatan prosesor grafis di masa depan dan untuk meningkatkan teknologi: "Kecepatan saat ini tidak cukup untuk penyebaran secara real time, tetapi harus secara signifikan ditingkatkan di pekerjaan masa depan," catat mereka.
Tingkatan yang dicapai
HEVC/H.265, AVC/H.264, VP9 HEVC HM 16.0 . Ffmpeg, β . , . , B- H.264/5
bframes=0
,
-auto-alt-ref 0 -lag-in-frames 0
. MS-SSIM, ,
-ssim
.
SD HD, . SD- VGA e Consumer Digital Video Library (CDVL). 34 15 650 . HD Xiph 1080p: 22 11 680 . 1080p 1024 ( , 32 ).
:
- MS-SSIM ;
- MS-SSIM ;
- WaveOne ( ).
(SD)
(HD)
WaveOne. , . . , . G. Toderici, S. M. OβMalley, S. J. Hwang, D. Vincent, D. Minnen, S. Baluja, M. Covell, R. Sukthankar.
Variable rate image compression with recurrent neural networks, 2015; G. Toderici, D. Vincent, N. Johnston, S. J. Hwang, D. Minnen, J. Shor, M. Covell.
Full resolution image compression with recurrent neural networks, 2016; J. Balle, V. Laparra, E. P. Simoncelli.
End-to-end optimized image compression, 2016; N. Johnston, D. Vincent, D. Minnen, M. Covell, S. Singh, T. Chinen, S. J. Hwang, J. Shor, G. Toderici.
Improved lossy image compression with priming and spatially adaptive bit rates for recurrent networks, 2017 . , , .
ML- , . . . C.-Y. Wu, N. Singhal, and P. Krahenbuhl.
Video compression through image interpolation, ECCV (2018). , . AVC/H.264. , .
Β« Β» 16 2018 arXiv.org (arXiv:1811.06981). β (Oren Rippel), (Sanjay Nair), (Carissa Lew), (Steve Branson), (Alexander G. Anderson), (Lubomir Bourdev).
Stas911:
Altaisky: . ?
Stas911: . .