Jaringan saraf untuk pemrosesan gambar. Kata Alexander Savsunenko dari Skylum Software

Alexander Savsunenko telah mengembangkan sistem cerdas selama enam tahun, dua di antaranya adalah peneliti senior di New York State University di Stony Brook. Dia mengembangkan sistem cerdas untuk analisis, pencitraan, dan pemasaran DNA.

Sekarang Alexander memimpin Lab AI di Skylum Software, di mana ia terlibat dalam editor grafis berdasarkan jaringan saraf. Kami bertanya layanan mana yang ia banggakan dan mengapa menggunakan jaringan saraf dalam pengujian A / B.


Alexander, ceritakan tentang pekerjaan riset Anda di Universitas New York di Stony Brook. Proyek apa yang Anda miliki di sana dan apakah itu terkait dengan kecerdasan buatan atau Pembelajaran Mesin?

Tidak, mereka tidak terkait langsung dengan AI dan pembelajaran mesin. Saya sedang meneliti bahan-bahan baru berdasarkan graphene. Kami mengembangkan bahan baru untuk pencetakan 3D yang akan menghantarkan listrik. Kemudian, dengan menggunakan printer dengan dua nozel, dimungkinkan untuk mencetak kasing dan kabel elektronik pada papan sekaligus. Kami akhirnya menciptakan materi, dan sekarang dijual.

Setelah Anda memiliki proyek yang menarik di bidang pembelajaran mesin - Let's Enhance, layanan untuk meningkatkan kualitas foto. Beri tahu kami, bagaimana Anda bisa mengajarkan mesin cara memulihkan gambar yang dikompresi?

Kami mengambil gambar dalam kualitas yang baik, dikompresi dan berisik dari mereka, dan kemudian melatih jaringan saraf sehingga bisa belajar cara mengembalikan gambar dalam kualitas yang baik. Setelah pelatihan pada pasangan semacam itu, jaringan saraf mampu secara mandiri meningkatkan kualitas gambar: menghilangkan pixelasi, artefak kompresi dan cacat lainnya.


Sumber Foto

Apa yang paling sulit dalam proyek ini?

Saya pikir untuk mendukung sistem ini dalam produksi. Ketika artikel muncul di TechCrunch, Mashable tentang layanan kami, banyak lalu lintas mengalir kepada kami, dan dalam sehari kami memproses sekitar 200 ribu gambar. Saya harus bekerja untuk memastikan bahwa server kami bertahan selama ini.

Tahun lalu, Let's Enhance 2.0 dirilis. Apa yang baru di dalamnya?

Kami telah mengubah metodologi pelatihan, fungsi-hilang, arsitektur jaringan. Jika Anda ingin meningkatkan kualitas produk, aspek-aspek ini dapat diubah tanpa henti.

Apa khalayak layanan hari ini? Apakah Anda berhasil menguangkannya?

Saya meninggalkan Let's Enhance.io hampir setahun yang lalu. Setelah itu, pada Juli 2018, startup masuk ke program Techstars London dan menerima investasi dari akselerator. Proyek ini segera menghasilkan uang dan menghasilkan keuntungan.

Perkembangan AI apa yang Anda ikuti? Siapa di antara mereka yang paling dibanggakan?

Rekan-rekan saya dan saya memiliki proyek nutrigenetics Titanovo yang menganalisis DNA. Menggunakan pembelajaran mesin, kami belajar untuk memprediksi penanda fisiologis dan kecenderungan berdasarkan analisis genom-lebar dan genotip chip. Kami mengumpulkan data dari artikel ilmiah, statistik, kumpulan data yang terbentuk, model yang diajarkan, berdasarkan pada mereka merumuskan rekomendasi untuk orang-orang dan prediksi tentang kesehatan mereka di masa depan - semua ini dibangun di atas logika fuzzy, pengklasifikasi yang berbeda. Sekarang ada banyak proyek menggunakan AI dan ML pada nutrigenetika, pada genetika olahraga. Tapi kami termasuk yang pertama. Materi tentang perkembangan ini dapat ditemukan di blog saya di Medium.

Saya bereksperimen dengan optimalisasi dinamis halaman arahan untuk tim pemasaran, menggeser teori bandit multi-bersenjata ke jaringan saraf. Dia membuat skrip pembelajaran mesin untuk mengoptimalkan pembelian lalu lintas. Dan karya gambar yang saya lakukan sekarang juga terkait dengan kecerdasan buatan. Dan aku juga bangga padanya.

Anda sedang mengerjakan layanan pengeditan gambar. Apa fungsi dari jaringan saraf di sini?

Pertama-tama, pengenalan pola. Peran terbesar AI dalam program Photolemur dari Skylum Software: berkat visi mesin, program ini dapat meningkatkan foto dalam satu klik.

Bagaimana kabarnya?

Kami mengunggah foto, dan layanan secara otomatis memperbaikinya - Anda hanya perlu menyimpannya. Tidak ada pop-up, slider, atau mode.

Untuk melakukan ini, pertama-tama, program perlu mengenali jenis gambar: potret, lansekap, lanskap kota. Dan juga orang-orang dalam gambar, bangunan dan benda-benda lain, waktu, tahun (jika foto diambil di jalan). Maka Anda perlu mengelompokkan gambar, pilih zona yang sesuai. Dalam potret itu, misalnya, bagian wajah tertentu menonjol: mata, telinga, lubang hidung, dan lain-lain.

Maka semua ini perlu diperbaiki, dan di sini kecerdasan buatan tidak lagi digunakan. Gambar ditingkatkan oleh algoritma berkabel, mengikuti cara fotografer memproses gambar tersebut. Misalnya, menghaluskan kulit, menambah kontras untuk langit-langit, menjadikan putih mata lebih terang. Tapi ini semua sekunder. Pertama-tama, Anda perlu mengelompokkan gambar.



Database dan algoritma apa yang digunakan untuk melatih sistem?

Berbicara tentang kerangka kerja untuk mengembangkan jaringan saraf, saya lebih suka MXNet - pilihan yang agak eksotis untuk hari ini, tetapi secara bertahap mendapatkan popularitas. Keuntungan utama adalah kecepatan perhitungan dan mode hibrida untuk beralih antara mode imperatif dan simbolik pemrograman jaringan saraf, ini nyaman. Tetapi nama dataset dan algoritme, saya tidak bisa memberi tahu Anda, ini adalah rahasia dagang proyek.

Kesulitan apa yang Anda temui saat membuat editor grafis yang cerdas?

Teknologi belum matang, jaringan saraf sering membuat kesalahan: dalam pengenalan pola dan terutama dalam segmentasi ketika datang ke gambar yang kompleks. Karena itu, saya harus menganalisis hasil dan mengedit menggunakan metode tradisional dan algoritma standar. Belum dimungkinkan untuk membangun sistem yang, dari awal hingga akhir, melakukan semuanya secara eksklusif dengan bantuan jaringan saraf. Yah, tentu saja, ketika bekerja pada perangkat akhir pengguna, Anda harus memperhitungkan kompleksitas jaringan - perhitungan CPU agak lambat, tidak semua orang memiliki GPU yang mendukung CUDA, dan OpenCL tidak didukung dengan baik.

Gambar mana yang diambil untuk opsi yang sempurna?

Tim Jaminan Kualitas kami bekerja pada ini dan memberikan perhatian khusus pada kualitas gambar akhir. Karena editor foto dan kamera kami terus berubah, mustahil untuk memperbaiki beberapa opsi ideal, karena terus berubah.

Apa audiens produk ini? Apakah Anda dapat "memikat" pengguna Adobe?

Produk Luminar andalan kami adalah alternatif baru untuk Adobe Lightroom. Karena tim kecil dan erat, adalah mungkin untuk memperkenalkan teknologi baru ke dalam produk lebih cepat dan terus-menerus menarik pengguna baru. Luminar sangat bagus untuk fotografer pemula dan profesional, karena ia menggabungkan alat pengeditan satu-klik dan berbagai fungsi untuk pekerjaan yang lebih rinci dengan foto.


Antarmuka Luminar Artikel tersebut membandingkan karya di Luminar dan Photoshop

Tapi Photolemur adalah produk yang unik dan cukup muda, sedikit lebih dari setahun. Target audiensnya adalah orang-orang yang tidak ingin memahami semua slider dan tombol Photoshop, tetapi hanya ingin foto liburan mereka dengan cepat menjadi cantik. Kami berhasil menemukan pemirsa kami: penjualan aktif dan produk digunakan secara aktif.

Anda juga terlibat dalam proyek yang mengembangkan jaringan saraf untuk mengoptimalkan halaman arahan. Ceritakan lebih banyak tentang pekerjaan ini kepada kami.

Ini adalah tugas klasik ketika Anda perlu melakukan pengujian A / B dari halaman arahan. Jika Anda membuat halaman terpisah untuk semua opsi dasar yang mungkin, mereka dapat menghasilkan jutaan versi. Dan untuk mendapatkan hasil yang signifikan secara statistik dengan pendekatan klasik, Anda perlu melakukan pengujian A / B berpasangan dari semua opsi ini. Ini membutuhkan jumlah lalu lintas yang luar biasa. Pengujian berskala besar seperti itu hanya mampu membeli perusahaan dengan sumber daya yang sangat besar, Amazon, misalnya.

Dan jika perusahaan kecil ingin menguji banyak opsi, maka Anda dapat melakukan pengujian A / B menggunakan jaringan saraf yang bekerja dengan pelatihan penguatan. Kemudian, pada kenyataannya, mengisi halaman dengan elemen diberikan ke tangan jaringan saraf dan menugaskannya sebagai tugas untuk meningkatkan konversi halaman. Dalam versi pekerjaan ini, jaringan saraf berputar di server dan belajar secara paralel dengan bagaimana lalu lintas berjalan. Dan pada akhirnya, ia menemukan opsi pendaratan yang optimal jauh lebih cepat.

Jika sedikit lebih rumit, maka AI akan belajar untuk menunjukkan versi halaman arahan yang dipersonalisasi untuk pengguna tertentu. Karena kami juga memberikan informasi tambahan: browser, waktu, sistem operasi. Oleh karena itu, pengguna melihat halaman yang ditunjukkan oleh jaringan sarafnya, dan lalu lintas dengan metode ini perlu dikurangi secara signifikan. Tentu saja, klik yang sempurna tidak dijamin, tetapi halaman tersebut akan memberikan hasil yang baik lebih cepat.

Alexander akan berbicara tentang penggunaan jaringan saraf untuk konten visual dan optimalisasi halaman arahan pada 14 November di AI Conference Kyiv . Daftar pembicara lain dan program acara ada di situs resmi .

Source: https://habr.com/ru/post/id426559/


All Articles