Nvidia mengajarkan jaringan saraf untuk memperlambat video

Dalam hidup kita mungkin ada banyak momen yang perlu direkam pada kamera dalam gerakan lambat - langkah pertama seorang anak, perjalanan pertama ke laut, tipuan anjing kesayangan. Sebuah smartphone modern memungkinkan Anda memotret pada frekuensi 240 frame per detik atau lebih tinggi, tetapi Anda tidak akan dapat merekam secara konstan dalam mode ini - tidak akan ada cukup memori dan baterai akan cepat habis. Jaringan saraf yang dibuat oleh Nvidia bekerja dengan video yang sudah diambil, mengubahnya menjadi gerak lambat.


Para peneliti di Nvidia telah menciptakan sistem pembelajaran yang mendalam untuk memproses video pada 30 frame per detik menjadi video gerakan lambat. Mereka menggunakan perpustakaan pembelajaran mendalam PyTorch dan GPU Nvidia Tesla V100. Sistem ini dilatih menggunakan 11.000 video aktivitas harian dan olahraga, yang direkam pada frekuensi 240 frame per detik. Berkat ini, dia mulai memprediksi tembakan antara. Untuk menguji ketepatan teknologi, para peneliti menggunakan basis data video yang terpisah.

Teknologi ini memungkinkan Anda untuk membuat video jauh lebih halus dan kurang buram daripada dalam kasus perlambatan normal. Frame rate naik menjadi 480 per detik. Untuk menunjukkan hasilnya, tim membandingkan video gerakan lambat yang diambil oleh blogger video The Slo Mo Guys dengan video yang sama melambat dengan cara baru.

Jaringan saraf pertama mengevaluasi aliran video - struktur gerakan, objek, permukaan, dan tepi dalam adegan. Dia melakukannya maju sepanjang garis waktu, dan dalam urutan terbalik untuk dua frame input. Sistem kemudian memprediksi bagaimana piksel akan bergerak dari satu frame ke yang berikutnya, menciptakan vektor 2D dari gerakan ini.

Kemudian jaringan saraf kedua bekerja, yang memprediksi peta visibilitas - mengecualikan piksel yang harus diblokir oleh objek untuk menghapus artefak. Dan sistem dengan bantuan semua data yang diterima mendistorsi frame baru antara dua output untuk memastikan transisi yang lancar.

Dalam video, Anda dapat membandingkan hasilnya. Tentu saja, ada perbedaan antara video gerakan lambat yang dibuat secara artifisial dengan video asli, yang aslinya diambil pada frame rate tinggi. Ini terutama terlihat jika dibandingkan dengan Slo Mo Guys yang melompat ke kolam dalam 54 detik. Tetapi jika tidak ada yang bisa dibandingkan, akan sulit untuk membedakan video nyata dari yang "palsu".

Tim belum tahu bagaimana mengkomersilkan perkembangan mereka. Menurut mereka, itu masih jauh dari ideal dan membutuhkan banyak sumber daya, termasuk sementara. Sangat mungkin bahwa bahkan jika teknologi seperti itu diterapkan sebagai produk, itu tidak akan berjalan pada perangkat pengguna - perhitungan akan terjadi di cloud.



Pada bulan April, para ahli dari Nvidia menunjukkan teknologi lain yang menambahkan fragmen baru pada gambar - rekonstruksi foto. Metode ini memungkinkan Anda untuk menghapus objek dari gambar, setelah itu sistem akan mengganti fragmen kosong dengan latar belakang yang realistis, serta menambahkan mata dan bagian lain dari wajah setelah menghapusnya dari foto.

Dalam persiapan untuk pelatihan jaringan saraf, peneliti menciptakan lebih dari 55 ribu topeng dari garis acak dan lubang dengan berbagai ukuran. 25 ribu topeng baru lainnya digunakan untuk memverifikasi keakuratan hasil setelah pelatihan.

Selama pelatihan, topeng ditumpangkan pada gambar untuk membantu jaringan saraf mempelajari cara merekonstruksi piksel yang hilang.


Karya ilmiah Super SloMo: Estimasi Kualitas Tinggi dari Beberapa Bingkai Menengah untuk Interpolasi Video diterbitkan di situs pracetak arXiv.org: arXiv: 1712.00080 .

Source: https://habr.com/ru/post/id414953/


All Articles