Kamera kedalaman - revolusi diam (saat robot akan melihat) Bagian 2



Pada bagian pertama dari teks ini, kami memeriksa kamera kedalaman berdasarkan pengukuran lampu struktural dan lampu bolak-balik, yang terutama menggunakan pencahayaan inframerah. Mereka bekerja di dalam ruangan dengan jarak dari 10 sentimeter hingga 10 meter, dan yang paling penting - sangat murah. Karenanya gelombang besar penggunaan mereka saat ini di smartphone. Tapi ... Begitu kita pergi ke luar, matahari bahkan menembus awan menerangi cahaya inframerah dan pekerjaan mereka memburuk dengan tajam.

Seperti yang dikatakan Steve Blank ( karena alasan lain ,): "Jika Anda ingin sukses, tinggalkan gedung." Di bawah ini kita akan berbicara tentang kamera kedalaman yang bekerja di luar ruangan. Hari ini topik ini sangat didorong oleh mobil otonom, tetapi, seperti yang akan kita lihat, tidak hanya.


Sumber: Innoviz Membayangkan Mobil Self-Driving Mass Produksi Dengan Solid State LiDAR

Jadi, kamera yang dalam, mis. perangkat yang merekam video, di setiap piksel yang jaraknya ke objek pemandangan, bekerja di bawah sinar matahari!

Siapa yang peduli - selamat datang di kat!

Mari kita mulai dengan klasik abadi ...

Metode 3: Kedalaman dari Kamera Stereo +


Membangun peta kedalaman dari stereo sudah dikenal dan telah digunakan selama lebih dari 40 tahun . Di bawah ini adalah contoh kamera saku seharga $ 450, yang dapat digunakan untuk mengontrol gerakan, bersama dengan fotografi profesional atau dengan helm VR:


Sumber

Keuntungan utama dari kamera tersebut adalah bahwa sinar matahari tidak hanya tidak mengganggu mereka, tetapi sebaliknya, membuat hasilnya lebih baik, dan sebagai hasilnya, penggunaan aktif kamera tersebut untuk semua jenis kasing jalan, misalnya, adalah contoh yang bagus tentang cara memotret model tiga dimensi benteng tua dalam beberapa menit:


Contoh penggunaan jalan dari kamera ZED

Uang nyata dalam menerjemahkan konstruksi kedalaman dari stereo ke level baru dipengaruhi, tentu saja, oleh topik mobil otonom. Dari 5 metode yang dipertimbangkan untuk membuat video kedalaman, hanya dua - ini dan selanjutnya (stereo dan plenoptik) tidak mengganggu matahari dan tidak mengganggu mobil tetangga. Pada saat yang sama, plenoptik berkali-kali lebih mahal dan kurang akurat jarak jauh. Lagipula itu bisa terjadi, sulit untuk membuat perkiraan, tetapi dalam hal ini layak untuk disetujui oleh Elon Musk - stereo dari semua 5 metode memiliki prospek terbaik. Dan hasil saat ini sangat menggembirakan:


Sumber: SLAM Langsung Skala Besar dengan Kamera Stereo

Tetapi menarik bahwa tampaknya bukan kendaraan tanpa awak (yang beberapa diproduksi sejauh ini), tetapi perangkat yang jauh lebih masif, di mana peta kedalaman stereo sedang dibangun sekarang, akan memiliki pengaruh yang lebih kuat pada pengembangan kedalaman bangunan dari stereo, yaitu ... Itu benar! Smartphone!

Tiga tahun lalu, muncul booming smartphone "dua mata", di mana secara harfiah semua merek dicatat, karena kualitas foto yang diambil dengan satu kamera dan kualitas foto yang diambil dengan dua berbeda secara dramatis, tetapi dari sudut pandang kenaikan harga sebuah smartphone ini tidak begitu signifikan:



Terlebih lagi, tahun lalu prosesnya berjalan lebih jauh: “Apakah Anda memiliki 2 kamera di ponsel cerdas Anda? Menyebalkan! Saya punya tiga empat !!! ”:


Sumber: Samsung Galaxy A8 & A9

Masa depan enam mata Sony disebut-sebut di bagian pertama. Secara umum, smartphone multi-mata cukup populer di kalangan produsen.

Penyebab mendasar dari fenomena ini sederhana:

  • Resolusi ponsel kamera tumbuh, dan ukuran lensa kecil. Hasilnya, meskipun ada banyak trik, tingkat kebisingan meningkat dan kualitasnya menurun, terutama saat memotret dalam gelap.
  • Selain itu, pada kamera kedua, kita dapat menghapus apa yang disebut filter Bayer dari matriks, mis. satu kamera akan menjadi hitam dan putih, dan warna kedua. Ini meningkatkan sensitivitas hitam putih sekitar 3 kali. Yaitu sensitivitas 2 kamera tumbuh secara kondisional bukan 2, tetapi 4 kali (!). Ada banyak nuansa, tetapi peningkatan kepekaan seperti itu benar-benar terlihat jelas oleh mata.
  • Antara lain, ketika pasangan stereo muncul, kami memiliki kesempatan untuk mengubah kedalaman bidang secara terprogram, yaitu mengaburkan latar belakang, dari mana banyak foto secara signifikan mendapat manfaat (kami menulis tentang ini di babak kedua di sini ). Opsi model smartphone baru ini dengan cepat menjadi sangat populer.
  • Dengan peningkatan jumlah kamera, juga dimungkinkan untuk menggunakan lensa lain - sudut yang lebih lebar (fokus pendek), dan, sebaliknya, fokus panjang, yang secara signifikan dapat meningkatkan kualitas saat "mendekati" objek.
  • Menariknya, peningkatan jumlah kamera membawa kita lebih dekat ke topik bidang cahaya yang jarang dijumpai, yang memiliki banyak fitur dan kelebihan, namun, ini adalah cerita yang berbeda.
  • Kami juga mencatat bahwa meningkatkan jumlah kamera memungkinkan Anda meningkatkan resolusi dengan metode pemulihan resolusi .

Secara umum, ada begitu banyak plus sehingga ketika orang menyadarinya, mereka mulai bertanya-tanya mengapa setidaknya 2 kamera belum diatur untuk waktu yang lama.

Dan kemudian ternyata tidak semuanya begitu sederhana. Untuk menggunakan kamera tambahan secara bermakna untuk meningkatkan gambar (dan tidak hanya beralih ke kamera dengan lensa yang berbeda), kami berkewajiban untuk membangun apa yang disebut peta disparitas, yang secara langsung dikonversi ke peta kedalaman. Dan ini adalah tugas yang sangat sepele, untuk solusi yang kekuatan smartphone baru saja datang. Dan bahkan sekarang, peta kedalaman seringkali kualitasnya agak meragukan. Artinya, sebelum pencocokan tepat "piksel pada gambar kanan ke piksel di sebelah kiri" masih harus bertahan. Sebagai contoh, berikut adalah contoh nyata dari peta kedalaman untuk iPhone:


Sumber: Perbandingan Peta Kedalaman XS & XR iPhone

Bahkan dengan mata, masalah massa terlihat jelas di latar belakang, di perbatasan, saya diam tentang rambut transparan . Oleh karena itu ada banyak masalah yang muncul saat mentransfer warna dari kamera hitam-putih ke kamera warna, dan selama pemrosesan lebih lanjut.

Sebagai contoh, berikut adalah contoh yang cukup bagus dari laporan tentang "Membuat Efek Foto dan Video Menggunakan Kedalaman" dari Apple:


Sumber: Membuat Efek Foto dan Video • Menggunakan Kedalaman, Apple, WWDC18

Anda dapat melihat dengan jelas bagaimana kedalaman buggy di bawah rambut, dan memang dengan latar belakang yang kurang lebih seragam, tetapi yang lebih penting, pada peta anyaman kanan kerah masuk ke latar belakang (mis. Itu akan kabur). Masalah lain adalah resolusi kedalaman yang sebenarnya dan peta anyaman secara signifikan lebih rendah daripada resolusi gambar, yang juga mempengaruhi kualitas selama pemrosesan:



Namun, semua ini adalah masalah pertumbuhan. Jika 4 tahun yang lalu tidak ada pertanyaan tentang efek serius pada video, telepon hanya "tidak menariknya", tetapi hari ini pemrosesan video dengan kedalaman ditunjukkan dengan sendirinya pada ponsel seri teratas (itu dalam presentasi yang sama oleh Apple):


Sumber: Membuat Efek Foto dan Video • Menggunakan Kedalaman, Apple, WWDC18

Secara umum, topik ponsel multi-sel, dan, sebagai hasilnya, topik mendapatkan kedalaman dari stereo di ponsel - menaklukkan massa tanpa perlawanan:


Sumber: “ditemukan di internet Anda ini”

Temuan kunci:

  • Kedalaman dari stereo - dalam hal biaya peralatan - cara termurah untuk mendapatkan kedalaman, karena kamera sekarang murah dan terus menjadi lebih murah dengan cepat. Kesulitannya adalah bahwa pemrosesan lebih lanjut jauh lebih banyak sumber daya daripada metode lainnya.
  • Pada ponsel Anda tidak dapat meningkatkan diameter lensa, sementara resolusinya berkembang pesat. Akibatnya, penggunaan dua kamera atau lebih dapat secara signifikan meningkatkan kualitas foto, mengurangi noise dalam kondisi cahaya rendah, dan meningkatkan resolusi. Karena hari ini ponsel sering dipilih untuk kualitas kamera, ini merupakan nilai tambah yang sangat nyata. Membangun peta mendalam merupakan bonus samping yang tidak mencolok.
  • Kerugian utama dari kedalaman bangunan dari stereo:
    • Segera setelah tekstur menghilang atau hanya menjadi kurang kontras, kebisingan meningkat tajam dalam, akibatnya, bahkan pada objek biasa, kedalaman sering digunakan dengan buruk (kesalahan serius mungkin terjadi).
    • Juga, kedalamannya ditentukan dengan buruk pada benda tipis dan berukuran kecil (jari "potong", atau bahkan tangan, kolom yang hangus, dll.)
  • Begitu kekuatan besi memungkinkan Anda untuk membangun peta kedalaman untuk video, kedalaman pada smartphone akan memberikan dorongan kuat untuk pengembangan AR (di beberapa titik, benar-benar secara tak terduga untuk publik, kualitas aplikasi AR pada semua model ponsel baru, termasuk yang anggaran, tiba-tiba akan menjadi lebih tinggi dan gelombang baru akan pergi) . Benar-benar tak terduga!

Metode selanjutnya kurang sepele dan terkenal, tetapi sangat keren. Temui aku!

Metode 4: Kamera Kedalaman Lapangan Ringan


Topik plenoptik (dari bahasa Latin plenus - penuh dan optikos - visual) atau bidang cahaya masih relatif kurang dikenal oleh massa, meskipun para profesional mulai mempelajarinya dengan sangat padat. Bagian terpisah dialokasikan untuk artikel tentang Lapangan Cahaya di banyak konferensi top (penulis pernah dikejutkan oleh sejumlah peneliti Asia di Konferensi Internasional IEEE tentang Multimedia dan Expo yang terlibat erat dalam topik ini).

Google Trends mengatakan bahwa Amerika Serikat, Australia memimpin dalam bidang Light Field, diikuti oleh Singapura dan Korea. Inggris Raya Rusia ada di 32 tempat ... Kami akan memperbaiki simpanan dari India dan Afrika Selatan:


Sumber: Google Trends

Pembantu Anda yang rendah hati beberapa waktu lalu melakukan artikel terperinci tentang Habré dengan deskripsi terperinci tentang cara kerjanya dan apa yang memberi, jadi mari kita bahas secara singkat.

Gagasan utamanya adalah mencoba memperbaiki pada setiap titik, tidak hanya cahaya, tetapi juga array dua dimensi sinar, membuat setiap frame empat dimensi. Dalam praktiknya, ini dilakukan dengan menggunakan berbagai mikrolensa:


Sumber: plenoptic.inf (disarankan untuk mengklik dan melihat dalam resolusi penuh)

Akibatnya, kami memiliki banyak peluang baru , tetapi resolusinya sangat menurun. Setelah menyelesaikan banyak masalah teknis yang rumit, mereka secara radikal meningkatkan resolusi di Lytro (dibeli oleh Google), di mana di Lytro Cinema resolusi sensor kamera ditingkatkan menjadi 755 megapiksel data RAW, dan itu tampak besar seperti kamera pertama:


Sumber: NAB: Kamera Lytro Light-Field Baru Yang Dapat Membawa Perubahan Besar pada Pekerjaan Efek Visual Diluncurkan

Sangat menarik bahwa bahkan para profesional secara rutin salah menilai penurunan resolusi kamera plenoptik, karena mereka meremehkan seberapa baik mereka dapat bekerja pada algoritma Resolusi Super yang benar-benar mengembalikan banyak detail gambar mikro-shift di bidang cahaya (perhatikan jarum rajut kabur dan ayunan yang bergerak di latar belakang) :


Sumber: Pemulihan bingkai plenoptik naif, cerdas, dan Super Resolution dari Adobe Technical Report “Superresolution with Plenoptic Camera 2.0”

Semua ini akan menjadi kepentingan yang relatif teoretis jika Google tidak menerapkan plenoptik di Pixel 2 dengan menutupi dengan lensa 2 piksel :


Sumber: AI Google Blog

Sebagai hasilnya, sebuah stereopair mikro dibentuk, yang memungkinkan untuk MENGUKUR kedalaman di mana Google, yang setia pada tradisi baru, menambahkan jaringan saraf, dan ternyata secara umum luar biasa:




Lebih banyak contoh kedalaman dalam resolusi penuh di galeri khusus .

Menariknya, kedalamannya disimpan oleh Google (seperti Huawei, dan lainnya) di gambar itu sendiri, sehingga Anda dapat mengekstraknya dari sana dan melihat:


Sumber: Tiga Fitur Rahasia Aplikasi Kamera Baru Google yang Akan Memukau Anda

Dan kemudian Anda dapat mengubah foto menjadi tiga dimensi:


Sumber: Tiga Fitur Rahasia Aplikasi Kamera Baru Google yang Akan Memukau Anda

Anda dapat bereksperimen secara independen dengan ini di situs http://depthy.me , tempat Anda dapat mengunggah foto Anda. Menariknya, situs ini tersedia dalam sumber , mis. pemrosesan mendalam dapat ditingkatkan, ada banyak peluang untuk ini, sekarang algoritma pemrosesan paling sederhana diterapkan di sana.

Poin-poin penting:

  • Di salah satu konferensi Google, diumumkan bahwa, mungkin, 4 piksel akan ditutupi dengan lensa. Ini akan mengurangi resolusi langsung dari sensor, tetapi akan secara dramatis meningkatkan kedalaman peta. Pertama, karena penampilan stereopairs dalam dua arah tegak lurus, dan kedua, karena fakta bahwa basis stereo akan meningkat secara bersyarat sebesar 1,4 kali (dua diagonal). Ini juga berarti peningkatan yang ditandai dalam akurasi kedalaman di kejauhan.
  • Plenoptik itu sendiri (ini juga merupakan foto yang dihitung) memungkinkan untuk:
    • "Jujur" mengubah fokus dan kedalaman bidang setelah pemotretan adalah kemampuan sensor plenoptik yang paling dikenal.
    • Hitung bentuk bukaan.
    • Hitung pencahayaan pemandangan.
    • Geser titik pengambilan gambar, termasuk menerima stereo (atau bingkai multi-sudut) dengan satu lensa.
    • Hitung resolusi, karena menggunakan kompleksitas komputasi algoritma Super Resolusi tinggi, Anda benar-benar dapat mengembalikan frame.
    • Hitung peta transparansi untuk batas transparan.
    • Dan akhirnya, bangun peta mendalam, yang penting hari ini.
  • Berpotensi, ketika kamera utama ponsel dapat membangun peta kedalaman berkualitas tinggi secara real time bersamaan dengan pemotretan, ini akan menciptakan revolusi . Ini sangat tergantung pada daya komputasi di papan (ini yang mencegah kita melakukan peta kedalaman resolusi lebih baik dan lebih tinggi secara real time hari ini). Ini paling menarik untuk AR, tentu saja, tetapi akan ada banyak peluang untuk mengubah foto.

Dan akhirnya, kami beralih ke yang terakhir dalam metode pengukuran kedalaman ini.

Metode 5: Kamera pada teknologi LIDAR


Secara umum, pengukur jarak laser tertanam kuat dalam kehidupan kita, tidak mahal dan memberikan akurasi tinggi. Larsar pertama (dari LIDaR - Deteksi dan Mulai Identifikasi Cahaya ), dibangun sebagai bundel perangkat serupa yang berputar di sekitar sumbu horizontal, pertama kali digunakan oleh militer, kemudian diuji dalam autopilot mobil. Mereka terbukti cukup baik di sana, yang menyebabkan lonjakan investasi yang kuat di wilayah tersebut. Awalnya, sungkup diputar, memberikan gambar yang sama beberapa kali per detik:


Sumber: Pengantar LIDAR: Sensor Kunci Mobil Mandiri

Itu tidak nyaman, tidak dapat diandalkan karena bagian yang bergerak dan cukup mahal. Tony Ceba dalam kuliahnya memberikan data menarik tentang tingkat penurunan biaya kapar. Jika lidar berharga $ 70 ribu untuk mesin Google otonom pertama (misalnya, HDL-64E khusus yang digunakan pada mesin pertama harganya 75 ribu):

Sumber: Ini dan Selanjutnya Dari Parkir ke Taman – Belanda & Gangguan Transportasi

Kemudian, dalam produksi massal, model-model baru dari generasi berikutnya mengancam akan menurunkan harga secara signifikan kurang dari $ 1000:


Orang dapat berdebat tentang contoh Tony (janji startup bukanlah biaya akhir), tetapi bahwa ada booming dalam penelitian di bidang ini, peningkatan pesat dalam produksi berjalan, penampilan produk yang sama sekali baru dan penurunan harga secara umum tidak dapat dibantah. Beberapa saat kemudian di 2017, perkiraan untuk penurunan harga adalah sebagai berikut (dan saat kebenaran akan datang ketika mereka akan dimasukkan ke dalam mobil secara besar-besaran):


Sumber: LiDAR Menyelesaikan Sensing Triumvirate

Secara khusus, relatif baru-baru ini, beberapa produsen segera meluncurkan apa yang disebut Solid State Lidar , yang pada dasarnya tidak memiliki komponen bergerak yang menunjukkan keandalan yang secara radikal lebih tinggi, terutama ketika bergetar, biaya lebih rendah , dll. Saya sarankan menonton video ini, di mana perangkat mereka dijelaskan dalam 84 detik dengan sangat jelas:


Sumber: Sensor Lidar Solid State

Yang penting bagi kami adalah bahwa Solid State Lidar memberikan gambar persegi panjang, mis. bahkan, itu mulai bekerja seperti kamera dengan kedalaman "normal":


Sumber: Innoviz Membayangkan Mobil Self-Driving Mass Produksi Dengan Solid State LiDAR

Contoh di atas memberikan video sekitar 1024x256, 25 FPS, 12 bit per komponen. Lidar tersebut akan dipasang di bawah panggangan kap (karena perangkat memanas dengan baik):


Sumber: Solid-State LiDAR Magna Electronics

Seperti biasa, orang-orang Cina menyala, yang saat ini berada di tempat pertama di dunia dalam produksi kendaraan listrik dan yang dengan jelas mengincar yang pertama di dunia dengan mobil otonom:


Sumber: Alibaba, RoboSense meluncurkan kendaraan tak berawak menggunakan LIDAR solid-state

Secara khusus, percobaan mereka dengan "pixel" kedalaman non-square menarik, jika Anda melakukan pemrosesan bersama dengan kamera RGB, Anda dapat meningkatkan resolusi dan ini adalah kompromi yang agak menarik ("kuadrat" piksel penting, pada kenyataannya, hanya untuk seseorang):


Sumber: MEMS Lidar untuk Kendaraan Tanpa Sopir Membawa Langkah Besar Lainnya

Lidar dipasang di skema yang berbeda tergantung pada biaya kit dan kekuatan sistem on-board, yang akan perlu memproses semua data ini. Dengan demikian, karakteristik umum autopilot juga berubah. Akibatnya, mobil yang lebih mahal akan lebih baik membawa jalan berdebu dan lebih mudah untuk "menghindar" mobil memasuki mobil di persimpangan di samping, yang murah hanya akan membantu mengurangi jumlah (banyak) kemacetan lalu lintas yang bodoh:


Sumber: Deskripsi RoboSense RS-LiDAR-M1

Perhatikan bahwa selain harga rendah Solid-State menjanjikan beberapa daerah lagi di mana kapar berkembang. Memprediksi sesuatu di sini adalah tugas yang tidak berterima kasih, karena terlalu banyak tidak akan bergantung pada karakteristik rekayasa potensial dari teknologi, tetapi, misalnya, pada paten. Hanya saja beberapa perusahaan sudah bergerak di Solid-State, sehingga topiknya terlihat paling menjanjikan. Tetapi untuk mengatakan apa-apa tentang sisanya tidak adil:


Sumber: Bottleneck LiDAR 2017 Ini Menyebabkan Rush Emas Modern

Jika kita berbicara tentang larsar sebagai kamera, ada baiknya menyebutkan fitur penting lain yang signifikan ketika menggunakan larsar keadaan padat. Secara alami, mereka bekerja seperti kamera dengan rana bergerak yang sudah terlupakan, yang memperkenalkan distorsi yang terlihat saat memotret objek bergerak:


Sumber: Apa perbedaan antara rana global (global) dan rana bergulir ?

Mengingat bahwa di jalan, terutama pada autobahn pada kecepatan 150 km / jam, semuanya berubah dengan sangat cepat, fitur kapar ini akan sangat mendistorsi objek, termasuk yang dengan cepat terbang ke arah kita ... Termasuk secara mendalam ... Perhatikan bahwa dua metode sebelumnya mendapatkan kedalaman bukanlah masalah seperti itu.


Sumber: Animasi Wikipedia yang bagus memperlihatkan distorsi mobil

Fitur ini, ditambah dengan FPS rendah, memerlukan adaptasi algoritma pemrosesan, tetapi dalam hal apa pun, karena akurasi yang tinggi, termasuk pada jarak yang jauh, lidar tidak memiliki pesaing tertentu.

Menariknya, berdasarkan sifatnya, lidar bekerja sangat baik di area genap dan lebih buruk di perbatasan, dan sensor stereo buruk di area genap dan relatif bagus di perbatasan. Selain itu, lidar memberikan FPS yang relatif kecil, dan kameranya jauh lebih besar. Sebagai hasilnya, mereka pada dasarnya saling melengkapi, yang juga digunakan dalam kamera Lytro Cinema (di foto dekat kamera ada lensa plenoptic tercerahkan memberikan hingga 300 FPS, dan kotak hitam Malevich Lidar di bawah ):


Sumber: Lytro siap untuk selamanya mengubah pembuatan film : debut prototipe Cinema dan film pendek di NAB

Jika dua sensor kedalaman digabungkan dalam kamera film, maka pada perangkat lain (dari smartphone ke mobil), distribusi massal sensor hybrid dapat diharapkan untuk memastikan kualitas maksimal.

Dalam beberapa hal, kapar masih tentang investasi, yang dalam tiga tahun sebelumnya berjumlah sekitar $ 1,5 miliar (untungnya, pasar ini diperkirakan 10 miliar dalam 6 tahun dan grafik di bawah ini menunjukkan bagaimana ukuran transaksi rata-rata telah tumbuh):


Sumber: Menarik Ulasan Maret tren di pasar Lidar oleh Techcrunch

Siklus pengembangan produk inovatif bahkan di pasar yang sangat kompetitif adalah 1,5-2 tahun, jadi segera kita akan melihat produk yang sangat menarik. Mereka sudah ada sebagai prototipe.

Poin-poin penting:

  • Plus dari kapel:
    • , ,
    • , ,
    • ,
  • :
    • ,
    • ,
    • rana yang sedang berjalan dan kebutuhan untuk mengkompensasinya selama pemrosesan,
    • Lidar di dekatnya saling mengganggu, yang tidak begitu mudah untuk dikompensasi.
  • Namun demikian, kami mengamati bagaimana, secara harfiah dalam 2 tahun, pada dasarnya jenis kamera kedalaman baru dengan prospek luar biasa dan pasar potensial sangat besar telah muncul. Di tahun-tahun mendatang, kita dapat mengharapkan penurunan harga yang serius, termasuk penampilan lidar universal kecil untuk robot industri.

Pemrosesan Video dengan Kedalaman


Singkatnya, pertimbangkan mengapa kedalaman tidak begitu mudah untuk ditangani.

Di bawah ini adalah contoh data mentah secara mendalam dari garis yang sangat baik dari kamera Intel RealSense . Dengan jari-jari dalam video ini, Anda dapat dengan relatif mudah “dengan mata” mengevaluasi operasi kamera dan memproses algoritma:


Sumber: selanjutnya - bahan penulis

Masalah umum kamera kedalaman terlihat jelas:

  • Nilai data tidak stabil, piksel "noise" secara mendalam.
  • Di sepanjang batas dengan lebar yang agak besar, data juga sangat bising (karena alasan ini, nilai kedalaman di sepanjang perbatasan sering kali disembunyikan agar tidak mengganggu pekerjaan).
  • Di sekitar kepala Anda dapat melihat banyak piksel "berjalan" (tampaknya, kedekatan dengan dinding di bagian belakang + rambut mulai mempengaruhi).

Tapi itu belum semuanya. Jika kita melihat data lebih dekat, jelas bahwa di beberapa tempat data yang lebih dalam "bersinar" yang lebih dekat:



Ini karena, untuk kenyamanan pemrosesan, gambar direduksi menjadi gambar dari kamera RGB, dan karena batas tidak ditentukan secara akurat, menjadi perlu untuk memproses "tumpang tindih" seperti itu secara khusus, jika tidak timbul masalah, seperti "lubang" yang mendalam pada lengan:



Saat memproses, ada banyak masalah, misalnya:

  • "Kebocoran" kedalaman dari satu objek ke objek lainnya.
  • Ketidakstabilan kedalaman dari waktu ke waktu.
  • Aliasing (pembentukan "tangga"), ketika penindasan kebisingan di kedalaman mengarah ke diskritisasi nilai kedalaman:



Namun demikian, jelas bahwa gambarnya telah meningkat pesat. Perhatikan bahwa algoritma yang lebih lambat masih dapat meningkatkan kualitas secara signifikan.

Secara umum, pemrosesan video yang mendalam adalah topik besar yang terpisah, yang sejauh ini tidak terlibat dalam begitu banyak orang, tetapi yang dengan cepat mendapatkan popularitas. Pasar sebelumnya, yang benar-benar dia ubah - adalah konversi film dari 2D ke 3D. Hasil konstruksi manual stereo dari video 2D meningkat dengan sangat cepat, menunjukkan hasil yang jauh lebih mudah diprediksi, menyebabkan sakit kepala dan biaya yang lebih sedikit sehingga di bioskop 3D, setelah hampir 100 tahun pemotretan (!), Mereka dengan cepat berhenti memotret hampir sepenuhnya dan hanya mulai mengkonversi . Bahkan ada spesialisasi yang terpisah - seniman yang mendalam , dan stereografer sekolah tua kaget ("ka-ak-a-ak?"). Dan peran kunci dalam revolusi ini dimainkan oleh peningkatan cepat algoritma pemrosesan video. Mungkin suatu hari nanti saya akan menemukan waktu untuk menulis tentang ini serangkaian artikel yang terpisah, karena materi saya dalam jumlah besar.

Kira-kira sama bisa diharapkan dalam waktu dekat untuk kamera robot, ponsel pintar, dan mobil otonom.

Bangun! Revolusi akan datang!

Alih-alih sebuah kesimpulan


Beberapa tahun yang lalu, hamba Anda yang rendah hati membawa perbandingan berbagai pendekatan untuk mendapatkan video dengan kedalaman ke dalam satu piring. Secara umum, selama ini situasinya tidak berubah. Pemisahan di sini agak sewenang-wenang, karena produsen sangat sadar akan kelemahan teknologi dan mencoba untuk mengkompensasi mereka (kadang-kadang sangat berhasil). Namun demikian, secara umum, dapat digunakan untuk membandingkan berbagai pendekatan:


Sumber: bahan penulis

Mari kita bahas:

  • Dengan resolusi, kedalaman dari stereo ada di depan, tetapi semuanya sangat tergantung pada adegan (jika monofonik, masalahnya adalah pipa).
  • Dalam hal akurasi , lidar berada di luar persaingan, situasi dengan plenoptik adalah yang terburuk.
  • Dengan kerumitan pemrosesan - hanya ToF dan lidar yang mendapatkan "kedalaman" secara langsung, memperoleh kedalaman dari stereo dan plenoptik membutuhkan banyak perhitungan yang sangat tidak sepele.
  • Menurut FPS, kamera ToF secara struktural bagus dan dalam waktu dekat, ketika setrika berhenti, mereka akan terjebak dengan kamera stereo (mampu menghasilkan hingga 300 fps). Lidaram sejauh ini hanya bermimpi.
  • Menurut hasil dalam kondisi cahaya rendah, stereo dan plenoptik diperkirakan akan hilang.
  • Saat bekerja di luar ruangan - ToF dan kamera lampu terstruktur tidak berfungsi dengan baik.

Penting untuk memahami situasi di pasar tertentu dengan baik. Sebagai contoh, pendekatan plenoptik tampak jelas tertinggal. Namun, jika ternyata menjadi yang terbaik untuk AR (dan ini akan menjadi jelas dalam 3-4 tahun ke depan), maka itu akan mengambil tempat yang selayaknya di setiap ponsel dan tablet. Terlihat juga bahwa solid-state lidars terlihat terbaik (yang "paling hijau"), tetapi ini adalah teknologi termuda, dan ini adalah risiko mereka sendiri, terutama yang paten (di lapangan ada sejumlah besar paten baru yang tidak akan segera kedaluwarsa):

Sumber: LiDAR: Gambaran Umum Lansekap Paten

Namun demikian, kami tidak lupa - pasar untuk sensor kedalaman untuk smartphone direncanakan pada $ 6 miliar tahun depan , dan tidak bisa kurang dari 4, karena tahun lalu jumlahnya lebih dari 3 miliar. Ini adalah sejumlah besar uang yang tidak hanya akan kembali untuk investasi (untuk investor paling sukses), tetapi juga untuk mengembangkan sensor generasi baru. Belum ada pertumbuhan yang serupa dalam kapar, tetapi dengan semua indikasi itu akan berjalan secara harfiah dalam 3 tahun ke depan. Dan kemudian ini adalah proses eksponensial seperti longsoran salju biasa, yang telah terjadi lebih dari sekali.

Masa depan kamera kedalaman yang dekat terlihat sangat menarik!

Kartago harus dipatahkan ... Seluruh video akan menjadi tiga dimensi pada akhir abad ini!

Tetap disini!

Siapa yang belum membaca - bagian pertama dari teks !

Ucapan Terima Kasih
Saya ingin mengucapkan terima kasih:
  • Laboratorium Grafik Komputer VMK Moscow State University MV Lomonosov untuk kontribusinya pada pengembangan grafik komputer di Rusia dan tidak hanya
  • Google, Apple dan Intel untuk solusi ringkas yang hebat, dan semua produsen Lidar untuk kemajuan cepat,
  • secara pribadi Konstantin Kozhemyakov, yang melakukan banyak hal untuk membuat artikel ini lebih baik dan lebih visual,
  • dan akhirnya, terima kasih banyak kepada Roman Kazantsev, Eugene Lyapustin dan Yegor Sklyarov untuk sejumlah besar komentar dan koreksi yang masuk akal yang membuat teks ini jauh lebih baik!

Source: https://habr.com/ru/post/id458458/


All Articles