Saya sudah berhenti gemetaran dan bertanya-tanya ketika telepon berdering dan suara keras yang percaya diri berdering di penerima: "Apakah ini kapten mengganggu Anda (utama ini dan itu), dapatkah Anda menjawab beberapa pertanyaan?" Mengapa tidak berbicara dengan polisi Anda sendiri ...
Pertanyaannya selalu sama. "Kami punya video dengan tersangka, tolong bantu pulihkan wajahnya" ... "Bantu tambah jumlahnya dari DVR" ... "Tidak ada tangan manusia di sini, tolong bantu tambah" ... Dan seterusnya dengan nada yang sama.
Untuk memperjelas tentang ini, berikut adalah contoh nyata dari video yang sangat dikompresi yang dikirim tempat mereka meminta untuk mengembalikan wajah yang buram (ukurannya setara dengan sekitar 8 piksel):
Dan oke, hanya paman-paman Rusia Stepa yang akan mengganggu, Western Pinkertones menulis.
Di sini, misalnya, adalah surat dari kepolisian Inggris <***** @ *****. Fsnet.co.uk>:
Saya telah menggunakan filter Anda secara pribadi selama beberapa waktu untuk menyelamatkan video liburan keluarga saya yang buruk, tetapi saya ingin menggunakan filter komersial untuk pekerjaan saya. Saat ini saya adalah seorang Petugas Polisi di kepolisian kecil dan kami mendapatkan banyak video CCTV, yang kadang-kadang kualitasnya sangat buruk dan saya dapat melihat bagaimana filter Anda akan membuat perbedaan nyata. Bisakah Anda memberi tahu saya biayanya dan apakah saya bisa menggunakannya.
Terima kasih
TerjemahanSaya sudah menggunakan filter Anda untuk keperluan pribadi untuk menyimpan video buruk saya dari liburan keluarga. Tetapi saya ingin menggunakan filter komersial dalam pekerjaan saya. Saat ini saya adalah seorang polisi di unit kecil. Kami mendapatkan banyak video dari kamera CCTV, terkadang dengan kualitas yang sangat buruk, dan filter Anda akan sangat membantu. Bisakah Anda memberi tahu saya biayanya, dan dapatkah saya menggunakannya?
Terima kasih
Atau di sini seorang polisi dari Australia menulis:
Hai
Saya bekerja untuk Kepolisian Victoria di Australia, di unit forensik Video dan Audio. Kami sesekali menerima video dari kamera yang dipegang dengan tangan atau dipasang di kendaraan. Seringkali ini menangkap cuplikan acara yang bergerak cepat. Secara khusus, rekaman yang biasanya memiliki "janji" paling banyak, adalah cuplikan pelat nomor kendaraan. Kami sering menemukan bahwa kendaraan subjek akan bergerak secara signifikan antara bidang pertama dan terakhir yang ditangkap. Akibatnya, kami mencoba dan merekonstruksi seluruh bingkai dari dua bidang, dengan yang kedua diterjemahkan, kadang-kadang diputar, dan kadang-kadang ukurannya akan berbeda juga (karena kendaraan bepergian atau menuju kamera.) Menikahi kedua bidang ini , lebih disukai untuk akurasi sub-pixel, dan merekonstruksi bingkai yang berisi plat nomor, bisa sulit.
Dari apa yang saya lihat tentang Anda deinterlacing rekaman, mungkin filter Anda dapat melakukan beberapa, jika tidak semua, dari apa yang kita butuhkan. Sejujurnya, karena anggaran kami agak kecil, kecil kemungkinan kami dapat membeli lisensi komersial. Kami tidak menjual produk, tentu saja, kami menggunakannya untuk bukti dalam kasus-kasus polisi. Bagaimanapun, saya pikir saya akan menulis email dan tetap bertanya. Berapa biaya untuk lisensi? Apakah mungkin menguji produk dengan cuplikan, untuk melihat apakah itu sesuai? Apakah itu melakukan sebagian dari apa yang kita butuhkan? Terakhir, sudahkah algoritma dipublikasikan? Bekerja dengan algoritma yang tidak dikenal adalah praktik berbahaya bagi pengadilan. Jika bukti tersebut menghasilkan seorang pria yang akan pergi ke penjara selama 20 tahun, adalah praktik yang baik untuk mengetahui alasannya!
Setiap informasi yang Anda dapat tawarkan akan sangat dihargai.
Salam,
Pekerja sosial
Unit Audio Visual
Departemen Layanan Forensik Kepolisian Victoria
TerjemahanHai
Saya bekerja untuk Kepolisian Victoria di Australia di departemen video dan audio forensik. Dari waktu ke waktu, kami menerima video dari kamera dan DVR genggam. Seringkali video ini adalah pemotretan objek-objek yang bergerak cepat. Secara khusus, bahan yang paling penting adalah plat nomor kendaraan. Kami sering menemukan bahwa kendaraan tersebut bergerak kuat antara bidang pertama dan terakhir yang ditangkap. Sebagai hasilnya, kami mencoba untuk mengembalikan seluruh bingkai dari dua bidang, yang kedua digeser, kadang-kadang diputar dan kadang-kadang ukurannya berbeda (ketika mobil bepergian ke atau dari kamera). Menggabungkan kedua bidang ini, lebih disukai pada akurasi setengah piksel, dan mengembalikan seluruh bingkai yang berisi plat nomor mungkin sulit.
Saya melihat bagaimana Anda menerapkan deinterlacing ke bingkai, dan mungkin filter Anda dapat melakukan sesuatu, jika tidak semua yang kita butuhkan. Jujur, kami mungkin tidak mampu membeli lisensi komersial, karena anggaran kami cukup kecil. Kami tidak menjual produk, tentu saja, kami menggunakannya untuk bukti dalam kasus-kasus polisi. Bagaimanapun, saya pikir saya akan menulis surat dan masih bertanya. Berapa biaya lisensi? Apakah mungkin untuk menguji produk pada bahan untuk mengetahui apakah itu cocok? Apakah dia melakukan bagian dari apa yang kita butuhkan? Akhirnya, apakah algoritma telah dipublikasikan? .. Bekerja dengan algoritma yang tidak diketahui adalah praktik yang berbahaya di pengadilan. Jika bukti membawa seseorang masuk penjara selama 20 tahun, akan bermanfaat untuk mengetahui alasannya.
Kami akan berterima kasih atas informasi yang dapat Anda berikan kepada kami.
Salam
Investigator
Divisi Audio dan Video
Departemen Forensik Kepolisian Victoria
Perhatikan bahwa surat itu sangat bijaksana, seseorang khawatir tentang algoritma yang diterbitkan dan tentang tanggung jawab untuk pemulihan yang salah.
Terkadang mereka hanya dalam proses korespondensi mengakui bahwa mereka berasal dari polisi. Misalnya, carabinieri Italia ingin bantuan:
Dr. Vatolin
Terima kasih atas jawabannya.
Jawabannya juga layak untuk kepolisian (penyelidikan Carabinieri
ilmiah untuk PARMA ITALIA)?
Ke perangkat lunak mana mereka mengaitkan algoritme Anda dengan Anda.
Kami akan banyak.
TerjemahanDr. Batolin
Terima kasih atas jawabannya.
Apakah ini cocok untuk polisi (Unit Investigasi Carabinieri untuk PARMA ITALIA)?
Apakah mereka tertarik pada perangkat lunak apa yang digunakan algoritma Anda?
Kami akan berterima kasih.
Dan, tentu saja, banyak permohonan orang biasa ...
Tingkatkan itu! Apa, Anda merasa kasihan dengan tombol kanan untuk menekan?
Jelas bahwa seluruh aliran panggilan ini tidak muncul dari awal.
"Salahkan" terutama film dan acara TV.
Misalnya, di sini dalam 3 detik bingkai video terkompresi meningkat 50 kali dan dari pantulan dalam kacamata mereka melihat bukti:
Dan ada banyak momen seperti itu dalam film dan serial modern. Misalnya, dalam video ini, kami benar-benar epik mengumpulkan episode semacam itu dari paket acara TV, tidak perlu dua menit untuk menonton:
Dan ketika Anda melihat ini di setiap film, maka landak terakhir menjadi jelas bahwa semua yang Anda butuhkan adalah memiliki jenius komputer yang kompeten, kombinasi dari algoritma modern, dan hanya tersisa untuk segera
“BERHENTI!” dan "Tingkatkan itu!" . Dan voila! Sebuah keajaiban akan terjadi!
Namun, penulis naskah tidak berhenti pada penerimaan yang sudah basi ini, dan imajinasi mereka yang tak terkendali berjalan lebih jauh. Ini adalah contoh yang sangat mengerikan. Detektif yang gagah untuk merefleksikan murid korban menerima foto pelaku. Memang, pantulan di kacamata sudah ada di sana. Ini biasa. Mari kita lanjutkan! Hanya saja resolusi kamera CCTV di tangga ternyata cukup acak seperti teleskop Hubble:
Dalam "Nabi" (00:38:07):
Dalam "Avatar" (1: 41: 04–1: 41: 05), algoritma penajaman, agaknya, agak tidak biasa dibandingkan dengan film lain: ia pertama kali mengasah di tempat-tempat tertentu, dan setelah sepersekian detik menarik sisa gambar, t .e. pertama bagian kiri mulut, dan kemudian bagian kanan:
Secara umum, dalam film yang sangat populer yang ditonton oleh ratusan juta, penajaman gambar dilakukan dalam satu klik.
Semua orang (di film) melakukannya! Jadi mengapa Anda, para ahli yang cerdik, tidak bisa melakukan ini ???
"Aku tahu ini mudah!" Dan saya pasti diberitahu bahwa Anda melakukan ini! Apakah Anda terlalu malas untuk menekan tombol ini?
// Oh sayang ... Penulis skenario terkutuk dengan imajinasi liar mereka ...- Saya mengerti bahwa Anda sibuk, tetapi ini tentang bantuan Anda kepada negara dalam menyelesaikan kejahatan penting!
// Kami mengerti.- Mungkin ini tentang uang? Berapa yang harus Anda bayar?
// Baiklah, bagaimana menjelaskan secara singkat bahwa kita tidak butuh uang ... Dan lagi, dan lagi ...
Setiap kebetulan dari kutipan di atas dengan dialog nyata sepenuhnya acak, tetapi, khususnya, teks ini ditulis untuk mengirim seseorang untuk membacanya terlebih dahulu dengan hati-hati, dan baru kemudian menelepon kembali.
Kesimpulan: Karena kenyataan bahwa adegan dengan pembesaran gambar dari kamera CCTV dalam satu klik telah menjadi cap bioskop modern, sejumlah besar orang dengan tulus yakin bahwa sangat mudah untuk memperbesar fragmen bingkai kamera murah atau perekam video murah. Yang utama adalah bagaimana cara bertanya (baik, atau memerintahkan, ini betapa beruntungnya).
Dari mana kaki tumbuh
Jelas bahwa seluruh aliran panggilan ini diambil bukan dari awal. Kami benar-benar telah terlibat dalam peningkatan video selama sekitar 20 tahun, termasuk berbagai jenis pemulihan video (dan ada beberapa jenis,), dan contoh kami akan lebih rendah di bagian ini.
Peningkatan "pintar" dalam resolusi dalam artikel ilmiah biasanya disebut Super Resolution (disingkat SR). Google Cendekia atas permintaan
Super Resolution menemukan 2,9 juta artikel, mis. topiknya, seolah-olah, agak digali dengan baik, dan sejumlah besar orang mengatasinya. Jika Anda mengikuti
tautan , maka ada beberapa hasil, satu lebih indah daripada yang lain. Namun, perlu digali lebih dalam, gambarannya, seperti biasa, menjadi tidak begitu pastoral. Tema SR memiliki dua arah:
- Video Super Resolution (0,4 juta artikel) - restorasi aktual menggunakan bingkai sebelumnya (dan terkadang berikutnya),
- Resolusi Gambar Super (2,2 juta artikel) - peningkatan resolusi "pintar" hanya menggunakan satu bingkai. Karena dalam kasus satu gambar untuk mengambil informasi tentang apa yang sebenarnya tidak ada di tempat ini, algoritma dengan satu atau lain cara melengkapi gambar (atau, secara relatif, "berpikir") gambar - apa yang mungkin ada di sana. Kriteria utama untuk ini adalah bahwa hasilnya harus terlihat sealami mungkin, atau sedekat mungkin dengan aslinya. Dan jelas bahwa metode seperti itu tidak cocok untuk memulihkan apa yang "benar-benar", meskipun memperbesar gambar sehingga terlihat lebih baik, misalnya saat mencetak (ketika Anda memiliki foto unik, tetapi tidak ada versi dalam resolusi yang lebih tinggi). ) Metode seperti itu sangat mungkin.
Seperti yang Anda lihat, 0,4 juta versus 2,2 - yaitu, 5 kali lebih sedikit orang terlibat dalam pemulihan yang sebenarnya. Untungnya, topik “lakukan lebih besar, cantik” sangat diminati, termasuk di industri (zoom digital smartphone dan piring sabun digital yang terkenal buruk). Selain itu, jika Anda menyelam lebih dalam, dengan cepat menjadi jelas bahwa sejumlah besar artikel tentang
Video Super Resolution juga merupakan peningkatan dalam resolusi video tanpa pemulihan, karena pemulihannya sulit. Sebagai hasilnya, kita dapat mengatakan bahwa mereka yang “melakukan dengan indah” sekitar 10 kali lebih banyak daripada mereka yang benar-benar berusaha untuk memulihkan. Omong-omong, situasi umum dalam hidup.
Kami melangkah lebih dalam. Sangat sering, hasil algoritme sangat baik, tetapi perlu, misalnya, 20 frame maju dan 20 frame belakang, dan kecepatan pemrosesan satu frame adalah sekitar
15 menit ketika menggunakan GPU paling canggih. Yaitu selama 1 menit video membutuhkan 450 jam (hampir 19 hari). Ups-ss ... Setuju, ini sama sekali tidak seperti instan "Zoom it!" dari film. Secara teratur ada algoritma yang bekerja selama beberapa hari per frame. Untuk artikel, hasil yang lebih baik biasanya lebih penting daripada waktu kerja, karena akselerasi adalah tugas sulit yang terpisah, dan lebih mudah memakan gajah besar di beberapa bagian. Inilah perbedaan antara kehidupan dan film ...
Permintaan untuk algoritme yang berjalan pada video pada kecepatan yang masuk akal memunculkan arah terpisah dari
Resolusi Super Video Cepat - 0,18 juta artikel, termasuk artikel "lambat" yang dibandingkan dengan yang "cepat", mis. jumlah aktual artikel tentang metode tersebut dilebih-lebihkan. Perhatikan bahwa di antara pendekatan "cepat", persentase spekulatif, yaitu tanpa pemulihan nyata, lebih tinggi. Dengan demikian, persentase pemulihan yang jujur lebih rendah.
Gambarnya, Anda lihat, menjadi jelas. Tapi ini, tentu saja, masih jauh dari semua.
Apa poin lain yang secara signifikan memengaruhi mendapatkan hasil yang baik?
Pertama, kebisingan sangat berpengaruh. Di bawah ini adalah contoh dari pemulihan dua kali lipat resolusi dalam video yang sangat bising:
Sumber: bahan penulisMasalah utama dalam fragmen ini adalah tidak bahkan dengan suara-suara biasa, tetapi dengan
moire berwarna pada kemeja, yang sulit untuk diproses. Beberapa mungkin mengatakan bahwa suara-suara besar tidak menjadi masalah saat ini. Ini tidak benar. Lihatlah data dari DVR mobil dan kamera CCTV dalam gelap (tepat ketika mereka lebih laris).
Namun, moire juga dapat terjadi pada kondisi yang relatif "bersih" dalam hal video derau, seperti kota di bawah ini (contoh di bawah ini
berdasarkan pada pekerjaan kami ):
Sumber: bahan penulisKedua, untuk pemulihan yang optimal, diperlukan prediksi pergerakan antar frame yang mendekati ideal. Mengapa ini sulit adalah topik besar yang terpisah, tetapi ini menjelaskan mengapa adegan dengan gerakan kamera panorama sering dipulihkan dengan sangat baik, dan adegan dengan gerakan yang relatif kacau sangat sulit untuk dipulihkan, tetapi dengan mereka Anda bisa mendapatkan hasil yang cukup baik dalam beberapa situasi:
Sumber: bahan penulisDan akhirnya, inilah contoh pemulihan teks:
Sumber: bahan penulisDi sini, latar belakang bergerak cukup lancar, dan algoritma memiliki kemampuan untuk "berkeliaran":
Secara khusus, jika kita membandingkan tulisan yang sangat kecil di sebelah kanan tangan, termasuk perbesaran dengan
interpolasi bikubik klasik, maka perbedaannya sangat jelas terlihat:
Dapat dilihat bahwa untuk interpolasi bikubik hampir tidak mungkin untuk membaca tahun, untuk
Lanczos4 , yang dicintai oleh mereka yang secara semi-profesional mengubah resolusi video untuk ketajaman, tepinya lebih jelas, tentu saja, tetapi masih tidak mungkin untuk membaca tahun. Kami tidak mengomentari Topaz komersial, tetapi kami jelas membaca prasasti dan Anda dapat melihat bahwa ini kemungkinan besar 1809.
Kesimpulan:
- Ribuan peneliti di dunia terlibat dalam meningkatkan resolusi, dan jutaan artikel telah diterbitkan tentang topik ini. Karena ini, setiap smartphone memiliki "pembesaran digital", yang biasanya lebih baik secara objektif daripada algoritma untuk meningkatkan program konvensional, dan setiap TV FullHD dapat menampilkan video SD, seringkali bahkan tanpa artefak karakteristik perubahan resolusi.
- Memulihkan gambar asli dari video jauh lebih kecil dari 10% dari mereka yang terlibat dalam Super Resolusi, apalagi, sebagian besar algoritma pemulihan sangat lambat (hingga beberapa hari perhitungan per frame).
- Dalam kebanyakan kasus, pemulihan dirancang untuk memastikan bahwa frekuensi tinggi dalam video lebih atau kurang dipertahankan, dan karenanya tidak bekerja pada video dengan artefak kompresi yang signifikan. Dan karena dalam pengaturan kamera CCTV rasio kompresi sering dipilih berdasarkan keinginan untuk menghemat lebih banyak waktu (yaitu video dikompresi lebih kuat dan frekuensi tinggi "terbunuh"), menjadi hampir mustahil untuk mengembalikan video seperti itu.
Seperti apa rupa SR di industri ini
Secara adil, kami mencatat bahwa saat ini semua (atau paling tidak dibeli) algoritma peningkatan resolusi tersedia untuk semua produsen TV (Anda perlu membuat gambar HD dari gambar SD sambil jalan), untuk semua produsen ponsel pintar (apa yang disebut "zoom digital" dalam iklan), dll. .d. Kami akan berbicara tentang hasil Google (dan tidak hanya). Pertama, karena Google sangat bagus dan tanpa banyak kesusahan dan pemasaran menggambarkan hasil di blog-nya - dan ini sangat bagus. Kedua, karena produsen smartphone (misalnya, satu perusahaan Korea yang sangat terkenal) tidak malu menggunakan, katakanlah, Photoshop dalam mengiklankan teknologi mereka (apa bedanya - orang akan menelannya) - dan ini tidak menyenangkan. Secara umum, mari kita bicara tentang mereka yang menggambarkan teknologi mereka secara jujur.
Kembali
pada tahun 2016, Google menerbitkan hasil yang cukup menarik dari algoritma
RAISR (Resolusi Super Cepat dan Akurat) yang digunakan dalam smartphone Pixel 2. Pada gambar yang paling sukses, hasilnya tampak sangat hebat:
Sumber: Google AI BlogAlgoritma adalah seperangkat filter yang digunakan setelah klasifikasi ML, dan dibandingkan dengan interpolasi bikubik (whipping boy tradisional), hasilnya memuaskan:
Dalam urutan: asli, interpolasi bikubik, RAISRTapi itu Single Frame Interpolasi, dan pada contoh "tidak berhasil", seperti dedaunan di bawah ini, gambar menjadi sangat tidak menyenangkan terdistorsi - setelah pembesaran gambar menjadi terasa "sintetis". Ini menunjukkan efek yang tidak disukai zoom digital smartphone modern:
Keajaiban itu, pada kenyataannya, tidak terjadi, dan Google dengan jujur dan langsung menerbitkan contoh tandingan, yaitu. segera menguraikan batas-batas penerapan pendekatan mereka dan menyelamatkan orang-orang dari harapan yang berlebihan (khas untuk pemasaran konvensional).
Namun, kurang dari dua tahun kemudian,
kelanjutan dari pekerjaan yang digunakan di Google Pixel 3
diterbitkan dan secara dramatis meningkatkan kualitas pemotretannya, yang sudah merupakan Super Resolusi multi-bingkai yang jujur, mis. algoritma pemulihan resolusi multi-bingkai:
Sumber: Google AI BlogGambar di atas menunjukkan perbandingan hasil Pixel 2 dan Pixel 3, dan hasilnya terlihat sangat bagus - gambarnya menjadi jauh lebih jelas dan terlihat jelas bahwa ini bukan "pemikiran", tetapi benar-benar mengembalikan detail. Selain itu, pembaca profesional yang penuh perhatian akan memiliki pertanyaan tentang dua pipa kembar vertikal di sebelah kiri. Resolusi jelas telah meningkat, sementara langkah
aliasing (tanda resolusi nyata) terlihat sangat dekat. Apa itu tadi
Singkatnya, kami akan menganalisis algoritme. Rekan kerja berubah dari interpolasi
pola Bayer :
Faktanya adalah bahwa 2/3 dari informasi dalam gambar nyata sebenarnya adalah informasi yang diinterpolasi. Yaitu gambar Anda SUDAH kabur dan “buram”, tetapi dengan tingkat kebisingan nyata ini tidak begitu signifikan. Omong-omong, kemampuan untuk menggunakan algoritma interpolasi yang lebih kompleks telah membuat program populer dari konversi RAW kualitas tertinggi untuk foto (perbedaan antara algoritma sederhana yang dibangun ke dalam setiap kamera dan algoritma kompleks dari program khusus biasanya terlihat oleh mata ketika gambar diperbesar).
Kolega dari Google menggunakan fakta bahwa sebagian besar foto telepon pintar diambil dengan tangan, mis. kamera akan sedikit goyang:
Sumber: Google AI Blog (gambar multi-bingkai sejajar pada tingkat piksel untuk menampilkan perpindahan sub-piksel)Akibatnya, jika Anda mengambil beberapa frame dan mengevaluasi shift (dan setrika, yang mampu membangun peta estimasi gerakan dengan akurasi seperempat-pixel, ada di smartphone mana pun dengan dukungan H.264), kami mendapatkan peta shift. Sesuai dengan animasi di atas, jelas terlihat bahwa dengan tingkat kebisingan yang nyata, membangun peta perpindahan dengan akurasi subpixel adalah tugas yang sangat tidak sepele, tetapi algoritma yang sangat baik telah muncul di area ini selama 20 tahun terakhir. Tentu saja, kadang-kadang, dan mereka mengalami kesulitan. Misalnya, dalam contoh di atas, sesuatu berkedip pada satu bingkai di bagian atas pegangan tangga. Dan ini masih merupakan adegan statis, tidak ada objek bergerak yang kadang-kadang tidak hanya bergerak, tetapi memutar, mengubah bentuk, bergerak cepat, meninggalkan area pembukaan yang besar (loop yang seharusnya tidak terlihat setelah diproses). Contoh di bawah ini menunjukkan dengan jelasapa yang terjadi pada objek yang bergerak cepat, jika Anda mematikan pemrosesan khusus dari kasus tersebut (dinonaktifkan di sebelah kiri, diaktifkan di sebelah kanan, jika Anda mengklik, blok pemrosesan terlihat dengan jelas):
Sumber: Google AI Blog (disarankan untuk mengklik dan melihat dalam resolusi tinggi)Contoh sulitnya adalah nyala, riak, sinar matahari di atas air, dll. Secara umum, bahkan dalam masalah “sederhana” dalam menentukan pergeseran, ada banyak momen non-sepele yang secara signifikan mempersulit kehidupan algoritma. Namun, sekarang ini bukan tentang itu.Menariknya, bahkan jika kamera benar-benar diam (misalnya, dipasang pada tripod), Anda dapat membuat sensor bergerak melalui kontrol modul stabilisasi optik (OIS - Optical Image Stabilization). Hasilnya, kami mendapatkan pergeseran subpiksel yang diinginkan. Di Pixel 3, dukungan OIS diterapkan, dan Anda dapat menekan telepon ke kaca dan menonton dengan penuh minat bagaimana OIS mulai memindahkan gambar di sepanjang elips (kira-kira, seperti tautan ini), yaitu, bahkan dalam kasus pemasangan pada tripod, sulit baginya, Resolusi Super akan dapat bekerja dan meningkatkan kualitas. Namun, bagian terbesar dari pemotretan dari smartphone adalah pemotretan genggam.Akibatnya, kami memiliki informasi tambahan untuk membuat foto beresolusi lebih besar:Seperti disebutkan di atas, konsekuensi langsung dari SR adalah penurunan tingkat kebisingan yang signifikan, dalam beberapa kasus sangat nyata:Sumber: Google AI BlogPerhatikan bahwa pemulihan juga berarti pemulihan dengan jumlah bit per komponen. Yaitu
secara resmi memecahkan masalah peningkatan resolusi, mesin yang sama dalam kondisi tertentu tidak hanya dapat menekan kebisingan, tetapi juga mengubah frame menjadi HDR. Jelas bahwa HDR hari ini jarang digunakan, tetapi ini, Anda lihat, adalah bonus yang baik.Contoh di bawah ini menunjukkan perbandingan gambar yang diperoleh saat memotret pada Pixel 2 dan pada Pixel 3 setelah SR dengan kualitas sensor yang sebanding. Perbedaan dalam kebisingan dan perbedaan dalam kejelasan terlihat jelas:Bagi mereka yang suka melihat detailnya, ada sebuah album di mana Resolusi Super Google (nama pemasaran Super Res Zoom) dapat dihargai dalam segala kejayaannya dalam spektrum skala pembesaran gambar pada smartphone (perubahan FoV ): Bagaimana mereka menulis dengan sederhana - mereka mengambil langkah lebih dekat dengan kualitas pemotretan smartphone untuk kualitas kamera profesional. Dalam keadilan, kami mencatat bahwa kamera profesional juga tidak tinggal diam. Hal lain adalah bahwa dengan penjualan yang lebih kecil, teknologi yang sama akan lebih mahal bagi pengguna. Namun, SR sudah muncul di kamera profesional. UPD: Sebagai contoh (tautan terakhir adalah perbandingan):
- Testing Sony's New Pixel Shift Feature in the a7R III , 2 ( , ),
- Olympus E-M5 Mark II 16 40 ,
- Super Resolution Pentax K-1 ,
- : Pixel-Shift Shootout: Olympus vs. Pentax vs. Sony vs. Panasonic — Pentax K-1, Sony a7R III, Olympus OM-D E-M1 Mark II Panasonic Lumix DC-G9. , , , Pentax K-1.
:
- Super Resolution , , .
- SR: Image Super Resolution — ( ), .
- Bonus utama dari algoritme pemulihan adalah pengurangan kebisingan, penyempurnaan detail, "lebih jujur" HDR, kualitas gambar yang terlihat lebih jelas pada televisi layar lebar.
- Semua kemegahan ini dimungkinkan berkat peningkatan kardinal (sekitar 3 kali lipat dalam jumlah operasi) dalam kompleksitas algoritma pemrosesan foto, atau lebih tepatnya - satu bingkai video.
Hasil Yandex
Karena mereka masih akan bertanya di komentar, saya akan mengatakan beberapa kata tentang Yandex, yang menerbitkan versi Super Resolution-nya tahun lalu:Sumber: https://yandex.ru/blog/company/oldfilmsDan berikut adalah beberapa contoh tentang kartun:Sumber: https://yandex.ru/blog/company/soyuzmultfilmApa itu tadi Yandex mengulangi
teknologi Google pada 2016 ?
Pada
halaman deskripsi teknologi dari Yandex (nama pemasaran DeepHD) hanya tautan ke Resolusi Gambar Super. Ini berarti bahwa jelas ada contoh tandingan di mana algoritma merusak gambar dan mereka lebih umum daripada algoritma pemulihan jujur. Tetapi sekitar 80% dari artikel dikhususkan untuk topik dan algoritma lebih mudah diimplementasikan.
Teknologi ini
juga dijelaskan pada hub (menarik bahwa penulis artikel tersebut adalah lulusan laboratorium kami), tetapi, seperti yang Anda lihat dari komentar, penulis tidak menjawab pertanyaan saya, sementara mereka menjawab yang lain. Dan ini, lebih tepatnya, bukan penulis penjahat, tetapi kebijakan perusahaan (di pos lain, jika Anda perhatikan dengan teliti, sering juga tidak ada jawaban untuk pertanyaan dari para ahli). Untuk perusahaan teknologi blog enggan membahas lebih dalam tentang implementasi atau detail teknologi. Apalagi jika ini menciptakan kesan yang lebih baik dari teknologi / produk. Atau pesaing dapat memotong hal yang sama lebih cepat. Sekali lagi, pemasaran bertanggung jawab untuk posting, dan ini adalah pekerjaan langsung mereka - menciptakan kesan yang menguntungkan dari produk perusahaan, terlepas dari kualitas produk itu sendiri. Karenanya sering terjadi ketidakpercayaan terhadap informasi yang datang dari pemasaran.
Secara umum, sangat berguna untuk menjadi sangat skeptis tentang gambar-gambar perusahaan dari seri "bagaimana kami melakukan semuanya dengan baik" karena alasan berikut:
- Penulis pemrosesan algoritma sangat menyadari bahwa praktis tidak ada algoritma yang dalam beberapa kasus tidak akan menghasilkan artefak. Dan, pada kenyataannya, salah satu tugas utama pengembang adalah untuk mengurangi persentase kasus tersebut (atau visibilitas artefak dalam kasus tersebut) sambil tetap menjaga kualitas dalam kasus lain. Dan seringkali ini TIDAK berhasil:
- Atau artefak sangat kuat dan sulit untuk diperbaiki sehingga seluruh pendekatan ditolak. Sebenarnya ini masalahnya, mungkin (kejutan-kejutan!), Dari sebagian besar artikel. Gambar-gambar ilahi dalam beberapa kasus (yang didasarkan pada) dan "tidak bekerja sama sekali" di sisanya.
- Atau (dan ini adalah situasi umum bagi perusahaan teknologi praktis) Anda harus mengorbankan beberapa kualitas rata-rata sehingga artefak dalam kasus terburuk dapat ditoleransi.
Dengan demikian, ketika contoh buruk tidak dipublikasikan (klasik untuk perusahaan) atau diterbitkan secara terbatas dan dengan default (klasik untuk artikel) - ini adalah kasus paling umum tentang menyesatkan orang tentang sifat-sifat teknologi / algoritma.
- Kesalahpahaman umum lainnya mengenai algoritma pemrosesan adalah penggunaan parameter (termasuk parameter internal) dari algoritma. Algoritma, begitu saja terjadi, memiliki parameter, dan pengguna - dan ini juga merupakan norma - ingin memiliki paling banyak satu tombol "aktifkan". Dan bahkan jika ada pengaturan, pengguna massal tidak menggunakannya. Itulah sebabnya, ketika membeli teknologi, "hentikan seratus" kali, mereka bertanya lagi: "Apakah ini mesin yang lengkap?" dan minta banyak contoh.
- Dengan demikian, cerita umum adalah publikasi hasil yang diperoleh dengan parameter tertentu. Untungnya, pengembang mengenal mereka dengan baik, dan bahkan ketika ada lima puluh dari mereka (situasi sebenarnya!), Dia mengambilnya dengan sangat cepat sehingga gambarnya ajaib. Tepatnya foto-foto ini sering masuk iklan.
- Selain itu, pengembang bahkan mungkin menentangnya. Pemasaran melihat contoh-contoh baru dikirim dan berkata, "tidak ada yang terlihat pada mereka, dalam presentasi terakhir Anda memiliki contoh normal!" Dan kemudian mereka dapat mencoba menjelaskan kepada mereka bahwa contoh-contoh baru adalah apa yang benar-benar dilihat orang, dan dalam presentasi terakhir, hasil potensial ditunjukkan yang dapat dicapai dengan studi pendahuluan dari awal proyek. Ini tidak mengganggu siapa pun. Orang-orang akan mendapatkan gambar "di mana Anda bisa melihat". Dalam beberapa kasus, bahkan perusahaan besar menggunakan photoshop. Messing dilayani, tuan-tuan! )
- Selain itu, ketika datang ke video - itu membuka ruang terbuka yang sangat besar untuk mesin
... pemasaran yang baik! Karena, sebagai aturan, frame diletakkan, dan kualitas video yang dikompresi selalu berosilasi dan tergantung pada massa parameter. Lagi - beberapa teknologi dapat diterapkan dengan benar, waktu pemrosesan, sekali lagi, mungkin berbeda. Dan bukan itu saja, cakupannya bagus.
- Iklan Yandex menyatakan bahwa teknologi DeepHD bekerja secara real time, jadi hari ini Anda dapat menonton saluran televisi yang menggunakannya . Dijelaskan di atas bahwa kecepatan operasi adalah kelemahan Achilles dari Super Resolution. Keuntungan dari jaringan saraf, tentu saja, adalah bahwa dalam belajar untuk waktu yang lama, mereka dapat bekerja sangat cepat dalam beberapa kasus, tetapi saya masih akan melihat (dengan minat profesional yang besar) dalam resolusi dan kualitas apa algoritma bekerja secara real time. Biasanya, beberapa modifikasi algoritma dibuat dan pada resolusi tinggi secara real-time, banyak "chip" (kritis untuk kualitas) harus dinonaktifkan. Terlalu banyak.
- Dalam contoh hitam-putih , pandangan yang lebih dekat mengungkapkan bahwa kecerahan lokal berubah. Karena SR yang benar tidak mengubah kecerahan, tampaknya beberapa algoritme lain berfungsi, mungkin bukan satu (hasilnya menunjukkan bahwa ini bukan Pemrosesan Frame Tunggal, atau lebih tepatnya, sepertinya tidak hanya). Jika Anda melihat potongan yang lebih besar (setidaknya 100 bingkai), gambar akan menjadi jelas. Namun, mengukur kualitas video adalah topik terpisah yang sangat besar.
Kesimpulan:
- Anda perlu memahami bahwa pemasar sering menggunakan trik mereka justru karena itu berhasil (dan bagaimana!). Mayoritas orang
tidak membaca hub Yang secara teratur mengarah ke semua jenis distorsi. Saya berharap semua orang kurang diiklankan, terutama ketika mendongeng adalah yang terbaik dan benar-benar ingin percaya pada keajaiban!
- Dan, tentu saja, sangat bagus bahwa Yandex juga bekerja pada topik dan membuat SR sendiri (lebih tepatnya, keluarga SR sendiri).
Prospek
Mari kita kembali ke tempat kita mulai. Apa yang harus dilakukan bagi mereka yang ingin meningkatkan video terkompresi? Apakah ini semua buruk?
Seperti dijelaskan di atas, bahkan sedikit perubahan pada gambar di wilayah tersebut, secara harfiah pada tingkat kebisingan, sangat penting untuk algoritma pemulihan "jujur". Artinya, frekuensi tinggi dalam gambar dan perubahan mereka di antara frame sangat penting.
Dalam hal ini, hal utama yang dilakukan kompresi video adalah menghilangkan noise antar-bingkai. Dalam contoh di bawah ini, perbedaan antar-bingkai dari video berisik sebelum kompensasi gerak, setelah kompensasi (dengan kompresi lemah) dan setelah kompresi jelas - rasakan perbedaannya (kontras dinaikkan sekitar 6 kali sehingga detailnya dapat dilihat):
Sumber: penulis kuliah tentang algoritma kompresiDapat dilihat dengan jelas bahwa dari sudut pandang codec, area yang ideal adalah area di mana pergerakan di mana dikompensasi sepenuhnya dan di mana tidak ada lagi bit yang perlu dihabiskan. Yah, sedikit bisa dihabiskan, sesuatu yang sedikit diperbaiki. Dan mungkin ada beberapa area seperti itu. Oleh karena itu, Resolusi Super kehilangan "roti utama" - informasi tentang apa yang ada di tempat ini dalam bingkai lain, dengan mempertimbangkan pergeseran subpiksel.
Jika Anda melihat artikel, maka bahkan untuk JPEG yang relatif sederhana,
pemulihan jpeg berisi 26 ribu hasil, dan untuk
pemulihan jpeg - 52 ribu, dan ini bersama dengan pemulihan file yang rusak, dll. Untuk video, situasinya lebih buruk daripada
restorasi mpeg - 22 ribu, mis. pekerjaan, tentu saja, sedang berlangsung, tetapi skala skala pekerjaan tentang Resolusi Super tidak sebanding. Ada sekitar urutan besarnya kurang bekerja daripada mengembalikan resolusi video dan dua urutan besarnya kurang dari Resolusi Gambar Super. Dua pesanan banyak. Kami juga melakukan pendekatan pada proyektil (karena kami telah melakukan kompresi dan pemrosesan untuk waktu yang lama), ada sesuatu untuk dikerjakan, terutama jika kualitasnya berosilasi atau menggunakan sesuatu seperti M-JPEG (lebih baru-baru ini, gambaran umum dalam pengawasan video). Tapi ini semua akan menjadi kasus khusus.
Hasil artikel dari tautan di atas juga menunjukkan bahwa hasilnya terkadang sangat indah, tetapi diperoleh untuk kasus yang sangat khusus. Yaitu besok, di setiap smartphone, sayangnya fungsi ini tidak akan muncul. Ini berita buruk. Bagus - lusa dan di komputer dengan GPU yang bagus - pasti akan muncul.
Alasan:
- Perangkat penyimpanan (kartu SD untuk pendaftar, disk untuk kamera CCTV, dll.) Secara bertahap semakin murah dan bitrate rata-rata untuk menyimpan video semakin meningkat.
- Juga, selama kompresi, mereka secara bertahap beralih ke standar generasi berikutnya (misalnya, pada HEVC), yang berarti peningkatan nyata dalam kualitas dengan bitrate yang sama. 2 poin terakhir berarti bahwa kualitas video secara bertahap akan lebih tinggi, dan mulai dari beberapa titik, algoritma Video Super Resolution yang dikembangkan dengan baik akan mulai berfungsi.
- Akhirnya, algoritma ditingkatkan. Pencapaian algoritma berbasis pembelajaran mesin selama 4 tahun terakhir sangat baik. Dalam hal ini, dengan probabilitas tinggi kita dapat mengharapkan sesuatu seperti ini:

Yaitu algoritma secara eksplisit akan menggunakan informasi gerak yang diterima dari codec, dan kemudian data ini akan diumpankan ke jaringan saraf yang terlatih untuk memulihkan artefak khusus untuk codec tertentu. Skema semacam itu saat ini tampaknya cukup dapat dicapai.
Namun dalam hal apa pun, Anda perlu memahami dengan jelas bahwa pemulihan saat ini, sebagai aturan, adalah peningkatan resolusi 2 kali lipat. Lebih jarang, dalam beberapa kasus, ketika bahan sumber tidak dikompresi atau hampir tidak dikompresi, kita dapat berbicara sekitar 3-4 kali. Seperti yang Anda lihat, ini bahkan tidak mendekati 100-1000 kali perbesaran film, ketika 1,5 piksel dari rekaman suara-mati malam berubah menjadi nomor mobil berkualitas tinggi. Genre "fiksi ilmiah" seharusnya diberikan persentase yang lebih besar dari film dan acara TV.
Dan, tentu saja, akan ada upaya untuk melakukan sesuatu yang universal, dalam kerangka tren mode "hal utama adalah memotong lebih banyak lapisan". Dan di sini perlu diingatkan terhadap reaksi "sorakan-sorai" terhadap materi iklan tentang topik ini. Untuk jaringan saraf adalah kerangka kerja yang paling nyaman untuk menunjukkan keajaiban dan semua jenis spekulasi. Yang utama adalah memilih sampel pelatihan dan contoh akhir dengan benar. Dan voila! Lihat keajaibannya! Ngomong-ngomong, dalam hal mengisi investor, omong-omong. Artinya, sangat penting bahwa efisiensi teknologi dikonfirmasi oleh seseorang yang independen pada sejumlah besar contoh heterogen, yang jarang ditunjukkan. Untuk perusahaan, bahkan memberikan satu atau dua contoh ketika teknologi tidak berfungsi, saat ini disamakan dengan prestasi sipil.
Nah, agar kehidupan tidak tampak seperti madu, saya akan mengingatkan Anda bahwa apa yang disebut transcoding populer hari ini, padahal sebenarnya Anda harus bekerja dengan video yang semula menyusut oleh satu algoritma dan kemudian menyusut oleh yang lain, sementara vektor gerakan lainnya digunakan, yang tinggi vektor dihancurkan lagi frekuensi dll. Dan fakta bahwa seseorang melihat semuanya dengan baik tidak berarti bahwa algoritma pemrosesan video seperti itu akan benar-benar melakukan keajaiban. Ini tidak akan mungkin untuk mengembalikan video yang sangat terjepit, meskipun secara umum Resolusi Super akan berkembang pesat dalam 10 tahun ke depan.
Kesimpulan:
- Ingatlah bahwa apa yang Anda lihat dalam film dan bagaimana kehidupan nyata sangat berbeda. Dan tidak hanya dalam hal memulihkan video yang sangat terkompresi!
- Biasanya algoritma modern meningkatkan resolusi 2 kali, lebih jarang - sedikit lebih banyak, yaitu. tidak 50 kali, familiar dari film, segera harus menunggu.
- Area Resolusi Super sedang booming dan Anda dapat mengharapkan pengembangan aktif Pemulihan Video di tahun-tahun mendatang, termasuk pemulihan setelah kompresi.
- Tetapi hal pertama yang akan kita lihat adalah segala macam spekulasi pada topik, ketika hasil yang ditunjukkan akan sangat membesar-besarkan kemampuan nyata dari algoritma. Berhati-hatilah!
Pada akhir tahun lalu, kami memberikan kuliah "Jaringan saraf dalam pemrosesan video - mitos dan kenyataan". Mungkin kita akan bisa menempatkannya di sini.
Tetap disini!
Ucapan Terima Kasih
Saya ingin mengucapkan terima kasih:
- Laboratorium Grafik Komputer VMK Moscow State University MV Lomonosov untuk daya komputasi dan tidak hanya
- kolega kami dari grup video, terima kasih kepada siapa algoritma ini dibuat, dan terutama Karen Simonyan, penulis artikel yang hasilnya ditampilkan di atas dan yang sekarang bekerja di Google DeepMind,
- secara pribadi Konstantin Kozhemyakov, yang melakukan banyak hal untuk membuat artikel ini lebih baik dan lebih visual,
- Google untuk blognya yang luar biasa dan deskripsi yang relatif benar tentang teknologi yang dibuat, dan Yandex untuk bersaing dengan sangat baik di depan yang luas - Google praktis satu-satunya contoh sukses di negara di mana layanan Google tidak dilarang,
- Habrovchan denisshabr , JamboJet dan iMADik untuk tip dan tautan ke kamera profesional multi-frame SR,
- dan akhirnya, terima kasih banyak kepada Vyacheslav Napadovsky, Evgeny Kuptsov, Stanislav Grokholsky, Ivan Molodetsky, Alexei Soloviev, Evgeny Lyapustin, Yegor Sklyarov, Denis Kondranin, Alexandra Anzina, Roman Kazantsev, dan Gleb Ishelev atas ucapan yang bermanfaat ini. lebih baik!