Sekelompok peneliti dari Berkeley merilis dua video tahun ini. Di salah satu dari mereka, seekor kuda berlari di belakang pagar. Yang kedua, dia tiba-tiba mendapat pola zebra hitam dan putih. Hasilnya tidak sempurna, tetapi potongannya pas dengan kuda dengan sangat jelas, seolah-olah silsilah hewan-hewan ini terjerumus ke dalam kekacauan. Trik serupa adalah indikator kemampuan yang berkembang dari algoritma pembelajaran mesin untuk mengubah kenyataan.
Beberapa peneliti lain menggunakan jaringan saraf untuk
mengubah foto beruang hitam menjadi gambar panda yang dapat dipercaya, apel menjadi jeruk, dan kucing menjadi anjing. Seorang pengguna Reddit menggunakan algoritma pembelajaran mesin lainnya untuk mengedit video porno, dan
memasukkan wajah selebritas di sana . Startup Lyrebird
mensintesis ucapan yang cukup meyakinkan berdasarkan rekaman satu menit dari suara seseorang. Dan para insinyur Adobe, yang mengembangkan platform kecerdasan buatan Sensei, memperkenalkan
pembelajaran mesin ke dalam alat inovatif untuk mengedit video, foto, dan audio. Proyek-proyek ini sangat berbeda dalam asal dan tujuannya, tetapi mereka memiliki satu kesamaan: mereka mensintesis gambar dan suara yang ternyata sangat mirip dengan yang asli. Tidak seperti percobaan sebelumnya, kreasi AI ini terlihat dan terdengar realistis.
Teknologi yang mendasari perubahan ini akan segera mendorong kita ke bidang kreatif baru, meningkatkan kemampuan seniman kontemporer dan membuat profesional amatir biasa. Kami akan mencari definisi baru dari konsep kreativitas, yang akan memperluas cakrawala dan termasuk kreasi mesin. Namun booming ini akan memiliki downside. Bagian dari konten yang dibuat oleh kecerdasan buatan akan digunakan untuk menipu, menghasilkan ketakutan akan longsoran
berita palsu yang tak ada habisnya. Perdebatan lama tentang apakah gambar itu diubah akan memberi jalan ke yang baru - tentang asal-usul semua jenis konten, termasuk teks. Anda akan mulai bertanya-tanya: apa peran yang dimainkan orang (jika ada) dalam pembuatan album / seri / artikel ini?
Sebelumnya, ada dua cara untuk membuat audio atau video yang mirip dengan yang asli. Yang pertama adalah menggunakan kamera dan mikrofon untuk merekam adegan produksi. Yang kedua adalah memaksimalkan penggunaan bakat manusia, seringkali untuk banyak uang, untuk membuat salinan yang tepat. Sekarang algoritma pembelajaran mesin menawarkan opsi ketiga, yang memungkinkan siapa pun dengan pengetahuan teknis minimal untuk memodifikasi konten yang ada untuk membuat materi baru.
The Birth of Venus - versi Deep DreamsPada awalnya, konten yang dihasilkan oleh jaringan saraf tidak berorientasi pada realisme. Google's Deep Dreams, dirilis pada 2015, adalah contoh awal menggunakan pembelajaran mendalam untuk membasmi lanskap psikedelik dan karya seni aneh multi-mata. Aplikasi hit 2016, Prisma, menggunakan pembelajaran mendalam untuk meningkatkan filter foto, seperti menata gambar dengan lukisan Mondrian atau Munch. Teknik ini dikenal sebagai transfer gaya: ambil gaya satu gambar (misalnya, "Scream") dan terapkan ke bingkai kedua.
Sekarang algoritma transfer gaya terus ditingkatkan. Ambil, misalnya,
karya laboratorium Kavita Bala dari Cornell University. Ini menunjukkan betapa pembelajaran yang mendalam dapat mentransfer gaya satu foto (suasana malam yang berkedip-kedip) ke gambar kota metropolis yang suram - dan menipu pengulas yang akan berpikir bahwa tempat ini nyata. Terinspirasi oleh potensi kecerdasan buatan untuk mengenali sifat estetika, Profesor Bala ikut mendirikan
GrokStyle . Bayangkan Anda suka bantal dekoratif di sofa teman atau selimut di majalah. Perlihatkan algoritma GrokStyle gambar ini dan ia akan menemukan gambar hal-hal dengan gaya yang sama.
Profesor Bala berkata: βYang saya sukai dari teknologi ini adalah bagaimana mereka mendemokratisasikan desain dan gaya. Saya seorang teknolog: Saya menghargai keindahan dan gaya, tetapi saya bahkan tidak bisa membuatnya dekat. Dan pekerjaan ini membuat hal-hal seperti itu tersedia bagi saya. Juga sangat senang bisa membuat ini tersedia untuk orang lain. Fakta bahwa kita tidak berbakat di bidang ini tidak berarti kita harus hidup di lingkungan yang membosankan. β
Di Adobe, pembelajaran mesin telah menjadi bagian dari menciptakan produk kreatif selama lebih dari satu dekade, tetapi perusahaan baru-baru ini mengambil langkah besar ke depan. Pada bulan Oktober, para insinyur yang mengerjakan Sensei mendemonstrasikan alat pengeditan video yang menjanjikan bernama Adobe Cloak. Ini memungkinkan pengguna untuk dengan mudah menghapus, katakanlah, tiang lampu dari klip video - tugas yang akan sangat menyakitkan bahkan untuk editor berpengalaman. Proyek lain, yang disebut Project Puppetron, menerapkan gaya artistik khusus untuk video waktu-nyata. Hal ini memungkinkan Anda untuk menampilkan seseorang dalam bentuk patung perunggu animasi atau karakter kartun yang ditarik. "Anda bisa melakukan sesuatu di depan kamera dan mengubahnya menjadi animasi real-time," kata John Brandt, ilmuwan senior dan direktur Adobe Research.
Pembelajaran mesin memungkinkan proyek-proyek ini dimungkinkan karena dapat membedakan bagian-bagian wajah dan melihat perbedaan antara latar belakang depan dan belakang lebih baik daripada pendekatan sebelumnya untuk visi komputer. Alat Sensei memungkinkan seniman untuk bekerja bukan dengan bahan, tetapi dengan konsep. "Photoshop melakukan pekerjaan yang baik untuk mengelola piksel, tetapi orang-orang sebenarnya mencoba memanipulasi konten yang ditampilkan oleh piksel ini," jelas Brandt.
Ini adalah bagian yang baik dari berita ini. Ketika artis tidak perlu lagi menghabiskan waktu menggambar poin individu di layar, produktivitas mereka meningkat. Menurut Brandt, dia sangat senang tentang kemungkinan munculnya bentuk seni baru dan sedang menunggu mereka untuk datang.
Demonstrasi Adobe CloakTetapi tidak sulit membayangkan bagaimana ledakan kreatif ini membawa konsekuensi yang sangat buruk. Yanshun Yao, lulusan University of Chicago, melihat video palsu yang dibuat oleh AI, dan memutuskan untuk memulai sebuah proyek yang mengeksplorasi bahaya pembelajaran mesin. Dalam video yang dia lihat, Barack Obama yang dihasilkan membuat pidato. Yao ingin memeriksa apakah mungkin untuk melakukan engkol yang mirip dengan materi teks?
Struktur teks harus hampir tanpa cacat, sehingga sebagian besar pembaca akan diyakinkan tentang "asal usul manusia." Yao memulai dengan tugas yang relatif sederhana - menghasilkan ulasan palsu untuk Yelp dan Amazon. Teks semacam itu dapat terdiri dari hanya beberapa kalimat dan pembaca tidak mengharapkan tingkat kemahiran bahasa yang tinggi. Dia dan rekan-rekannya menciptakan
jaringan saraf, membuat teks pada subjek panjang Yelp dari 5 kalimat. Ulasan yang diterima termasuk pernyataan seperti "Sekarang ini adalah tempat favorit kami!" dan "Pergi ke sana bersama kakakku, memesan pasta vegetarian - sangat lezat." Lebih lanjut, Yao bertanya kepada orang-orang apakah teks-teks ini asli atau palsu - dan tentu saja, orang sering keliru.
Biaya penulisan ulasan tersebut berkisar antara $ 10 hingga $ 50, dan Yao mengklaim bahwa hanya masalah waktu sebelum seseorang mencoba mengotomatiskan proses dengan menurunkan harga dan membanjiri situs dengan ulasan palsu. Dia juga mengeksplorasi kemampuan jaringan saraf untuk melindungi Yelp dari konten palsu - dan mencapai beberapa keberhasilan. Tujuannya berikutnya adalah menghasilkan artikel berita yang dapat dipercaya.
Sedangkan untuk konten video, maka progres bisa bergerak lebih cepat. Hani Farid, seorang ahli pendeteksi foto dan video palsu dan profesor di Dartmouth College, prihatin tentang seberapa cepat konten viral menyebar dan bagaimana proses mengenali keasliannya tertinggal. Dia mengakui bahwa dalam waktu dekat akan ada video yang dapat dipercaya di mana Donald Trump memberikan perintah untuk serangan nuklir di Korea Utara. Itu akan menjadi viral dan menabur kepanikan - sama seperti yang pernah
menyebabkan acara radio di "War of the Worlds". "Saya tidak ingin membuat asumsi histeris, tetapi saya tidak berpikir ketakutan itu tidak berdasar," katanya.
Namun, penampilan Trump yang dihasilkan sudah berjalan di Web. Mereka adalah produk dari Lyrebird, sebuah startup synthesizer suara. Jose Sotelo, salah satu pendiri dan CEO perusahaan, yakin bahwa keberadaan teknologi ini tidak dapat dihindari, sehingga ia dan rekan-rekannya akan terus mengembangkannya - tanpa melupakan, tentu saja, etika. Dia yakin bahwa pertahanan terbaik untuk hari ini adalah meningkatkan kesadaran tentang kemungkinan pembelajaran mesin. Sotelo mencatat: "Jika Anda melihat foto saya di bulan, Anda hampir pasti akan memutuskan bahwa itu dibuat dalam editor grafis. Tetapi jika Anda mendengar rekaman audio di mana sahabat berbicara hal-hal buruk tentang Anda, kemungkinan besar Anda akan khawatir. Ini benar-benar teknologi baru, dan menghadirkan tantangan baru bagi umat manusia. β
Tidak mungkin bahwa sesuatu akan dapat menghentikan gelombang konten AI yang dihasilkan. Sebuah skenario dimungkinkan di mana penipu dan politisi yang tidak jujur ββakan menggunakan teknologi untuk membuat informasi yang menyesatkan.
Sisi positifnya adalah bahwa konten AI yang dihasilkan juga dapat memberikan layanan yang sangat besar bagi masyarakat. Sotelo dari Lyrebird bermimpi bahwa teknologinya akan mampu mendapatkan kembali kemampuan berbicara kepada orang-orang yang kehilangan suaranya karena sklerosis lateral amyotrophic atau kanker. Dan video dengan kuda dan zebra, yang disebutkan di awal, adalah produk sampingan dari pekerjaan untuk meningkatkan visi kendaraan tak berawak. Perangkat lunak untuk mesin tersebut pertama kali dilatih dalam lingkungan virtual. Tapi dunia seperti Grand Theft Auto sangat mirip dengan kenyataan. Algoritma Zebrification diciptakan untuk mempersempit kesenjangan antara lingkungan virtual dan dunia nyata, dan pada akhirnya membuat kendaraan tak berawak lebih aman.