🧜 📊 ✊🏻 Saya membuat dipfake saya sendiri dalam dua minggu dan $ 552 👰 👶🏻 👩🏻‍🔬

Dengan membuat video ini, saya belajar banyak

Teknologi Dipfake menggunakan jaringan saraf yang dalam untuk secara meyakinkan mengganti satu orang dengan orang lain dalam video. Teknologi ini memiliki potensi yang jelas untuk penggunaan jahat, dan itu menjadi lebih umum. Mengenai konsekuensi sosial dan politik dari tren ini, banyak artikel bagus telah ditulis.

Dan ini bukan salah satunya. Sebaliknya, saya akan melihat lebih dekat pada teknologi ini: bagaimana cara kerja perangkat lunak diphey? Seberapa sulitkah membuatnya, dan seberapa bagus hasilnya?

Saya memutuskan yang terbaik untuk menjawab pertanyaan-pertanyaan ini dengan membuat video-dip saya sendiri. Para editor memberi saya waktu beberapa hari untuk bermain dengan perangkat lunak dan $ 1000 untuk membayar cloud computing. Setelah beberapa minggu, saya mendapatkan hasil yang disajikan dalam video di awal artikel. Saya mulai dengan video Mark Zuckerberg berbicara kepada Kongres dan mengganti wajahnya dengan Letnan Komandan Data (Brent Spiner) dari Star Trek: The Next Generation. Total $ 552 dihabiskan.

Video itu tidak sempurna. Semua detail wajah Data tidak ditransmisikan, dan jika Anda perhatikan lebih dekat, artefak terlihat di tepinya.

Tetap saja, sangat luar biasa bahwa pendatang baru seperti saya dapat membuat video yang meyakinkan, dan begitu cepat dan murah. Ada banyak alasan untuk meyakini bahwa teknologi dipfeyk di tahun-tahun mendatang hanya akan menjadi lebih baik, lebih cepat, dan lebih murah.

Dalam artikel ini, saya akan memandu Anda dengan tangan di jalur dipfake saya. Saya akan menjelaskan setiap langkah yang perlu Anda ambil untuk membuat video deepfake. Sepanjang jalan, saya akan menjelaskan bagaimana teknologi ini bekerja dan keterbatasan apa yang dimilikinya.

Dipfeyks membutuhkan banyak daya komputasi dan data

Kami menyebut video ini diphake ["deep fakes"] karena dibuat menggunakan jaringan saraf yang dalam. Selama dekade terakhir, para ilmuwan komputer telah menemukan bahwa jaringan saraf menjadi lebih kuat dengan penambahan lapisan neuron tambahan. Tetapi untuk mengeluarkan potensi penuh dari jaringan saraf yang dalam, Anda membutuhkan banyak data dan daya komputasi yang besar.

Hal yang sama berlaku untuk dipfake. Untuk proyek ini, saya menyewa mesin virtual dengan empat kartu grafis yang kuat. Dan bahkan dengan semua kuda ini, saya butuh hampir satu minggu untuk melatih model saya.

Saya juga membutuhkan segunung gambar Mark Zuckerberg dan Data. Saya mendapatkan video berdurasi 38 detik, tetapi untuk pelatihan saya membutuhkan video yang lebih lama, baik Zuckerberg dan Data.

Untuk melakukan ini, saya mengunduh banyak video yang berisi wajah mereka: 14 klip dengan klip dari Star Trek dan sembilan klip dengan Mark Zuckerberg. Di antara yang terakhir adalah laporan resmi, beberapa wawancara di TV, dan bahkan sebuah video di mana Zuckerberg sedang mempersiapkan barbekyu di halaman rumahnya.

Saya mengunggah semua klip ini ke iMovie dan menghapus bingkai yang tidak mengandung wajah Zuckerberg dan Data. Saya juga memotong bagian yang terpanjang. Program dipfake tidak hanya membutuhkan sejumlah besar gambar, tetapi sejumlah besar gambar yang berbeda. Kami membutuhkan pemotretan wajah dari sudut yang berbeda, dengan ekspresi berbeda dan pencahayaan yang berbeda. Video berdurasi satu jam di mana Zuckerberg membaca laporan tidak dapat menghasilkan bidikan yang lebih berharga daripada segmen lima menit, karena bidikan tersebut diambil dari sudut yang sama, dalam cahaya yang sama dan menunjukkan ekspresi wajah yang sama. Jadi saya memotong beberapa jam video hingga 9 menit dengan Data dan hingga 7 menit dengan Zuckerberg.

Faceswap: paket perangkat lunak untuk membuat dipfake

Maka sudah saatnya menggunakan perangkat lunak untuk dipheyka. Awalnya saya mencoba menggunakan program DeepFaceLab dan saya bisa membuat video yang agak kasar. Kemudian saya meminta saran di forum SFWdeepfakes, dan kemudian beberapa orang menyarankan saya di Faceswap. Orang-orang mencatat bahwa program ini memiliki lebih banyak fitur, dokumentasi yang lebih baik, dan dukungan online yang lebih baik. Saya memutuskan untuk mengikuti saran mereka.

Faceswap berjalan di Linux, Windows, dan Mac. Paket ini memiliki alat untuk bekerja pada semua tahap pembuatan dipfake, dari mengimpor video asli ke membuat video dipfake selesai. Perangkat lunak ini tidak intuitif, tetapi disertai dengan materi pelatihan terperinci yang mencakup semua langkah proses. Materi ini ditulis oleh pencipta Faceswap Matt Torah, yang juga banyak membantu saya dalam mengobrol di saluran Deepfake Discord.

Faceswap membutuhkan kartu grafis yang kuat. Saya tahu bahwa MacBook Pro saya tidak bisa mengatasinya. Saya meminta teknisi kantor editorial kami untuk menyewa saya mesin virtual untuk Linux dari penyedia layanan cloud terkemuka. Saya mulai dengan mesin virtual dengan GPU Nvidia K80 dan memori video 12GB. Beberapa hari kemudian saya beralih ke model dengan dua GPU, dan kemudian ke 4 GPU. Dia memiliki empat GPU Nvidia T4 Tensor Core dengan masing-masing 16 Gb memori (dan 48 CPU dan 192 RAM, yang sebagian besar tidak digunakan).

Setelah dua minggu bekerja, saya menerima faktur $ 522. Tentu, saya menghabiskan cukup banyak untuk kenyamanan menyewa komputer. Torah mengatakan kepada saya bahwa saat ini, opsi perangkat keras yang paling menguntungkan untuk dipfake adalah kartu Nvidia GTX 1070 atau 1080 dengan memori 8 GB. Kartu bekas semacam itu bernilai beberapa ratus dolar. Satu kartu 1080 tidak mengajarkan jaringan saraf secepat empat GPU saya, tetapi jika Anda siap menunggu beberapa minggu, Anda akan mendapatkan hasil yang sama.

Alur kerja di Faceswap terdiri dari tiga langkah dasar:

Ekstraksi: memotong video menjadi bingkai, menemukan wajah di setiap bingkai, menampilkan gambar yang selaras dan dipotong dengan cermat dari setiap wajah.
Pelatihan: gunakan gambar yang diperoleh untuk melatih jaringan saraf dipfake. Dibutuhkan gambar wajah satu orang dan menghasilkan gambar wajah orang lain dengan ekspresi, pencahayaan, dan posisi yang sama.
Transformasi: terapkan model yang dilatih pada langkah sebelumnya ke video tertentu untuk memberikan dipfake. Setelah melatih model, itu dapat diterapkan ke video di mana orang-orang itu hadir di wajah siapa itu dilatih.

Untuk masing-masing dari tiga langkah, jumlah waktu yang sama sekali berbeda diperlukan dari orang dan mesin. Perangkat lunak pengambilan gambar berjalan selama beberapa menit, tetapi mungkin perlu berjam-jam bagi seseorang untuk memverifikasi hasilnya. Perangkat lunak ini mencatat semua wajah di setiap gambar, serta beberapa positif palsu. Untuk mendapatkan hasil yang baik, seseorang harus melalui semua hasil, menghilangkan wajah yang tidak perlu dan semua yang diperlukan oleh perangkat lunak untuk seseorang.

Belajar itu mudah diatur, dan hampir tidak memerlukan keterlibatan manusia. Namun, mungkin butuh berhari-hari atau bahkan berminggu-minggu waktu komputer untuk mendapatkan hasil yang baik. Saya mulai melatih model terakhir saya pada 7 Desember, dan itu berhasil hingga 13 Desember. Mungkin saja setelah seminggu kerja lagi, kualitas dipfake saya akan meningkat. Dan saya juga menggunakan rakasa cloud saya dengan empat kartu grafis canggih. Jika Anda bekerja pada komputer Anda dengan GPU tunggal dengan daya lebih rendah, perlu waktu berminggu-minggu untuk melatih model yang bagus.

Langkah terakhir, transformasi, adalah cepat untuk seseorang dan komputer. Dengan menerima model yang terlatih, Anda dapat mengirimkan video dipfake dalam waktu kurang dari satu menit.

Bagaimana cara kerja diphakes

Sebelum menjelaskan proses pembelajaran Faceswap, Anda perlu menjelaskan cara kerja teknologi yang mendasarinya.

Inti dari Faceswap - dan paket perangkat lunak terkemuka lainnya untuk membuat diphake - adalah auto-encoder. Ini adalah jaringan saraf yang dilatih untuk menerima gambar input dan menghasilkan gambar yang identik. Keterampilan ini sendiri mungkin tidak begitu berguna, tetapi, seperti yang akan kita lihat nanti, itu adalah blok bangunan kunci dalam proses menciptakan dipfake.

Encoder otomatis disusun berdasarkan prinsip dua corong yang dihubungkan oleh ujung sempit. Di satu sisi jaringan adalah encoder yang menerima gambar dan mengompresnya ke sejumlah kecil variabel. Dalam model yang saya gunakan dalam Faceswap, ini adalah 1024 angka floating point 32-bit. Di sisi lain dari jaringan saraf adalah decoder. Dia mengambil representasi ringkas ini, yang dikenal sebagai "ruang laten", dan mencoba memperluasnya, setelah menerima gambar awal.

Membatasi jumlah data yang dikirim dari pembuat kode ke pembuat kode secara artifisial membuat dua jaringan ini mengembangkan representasi wajah manusia yang kompak. Encoder adalah sesuatu seperti algoritma kompresi lossy yang mencoba menyimpan sebanyak mungkin informasi tentang wajah sambil membatasi jumlah penyimpanan. Ruang laten entah bagaimana harus mengekstrak detail penting, misalnya, ke arah mana subjek melihat, matanya terbuka atau tertutup, dia tersenyum atau mengerutkan kening.

Adalah penting bahwa auto-encoder hanya perlu menyimpan fitur wajah yang berubah seiring waktu. Dia tidak perlu menyimpan hal-hal yang tidak berubah seperti warna mata atau bentuk hidung. Jika dia memiliki mata biru di setiap foto Zuckerberg, maka decoder jaringannya akan belajar menggambar wajahnya secara otomatis dengan mata biru. Tidak perlu menjejalkan informasi ke ruang laten yang ketat yang tidak berubah selama transisi dari satu gambar ke yang lain. Seperti yang akan kita lihat nanti, fakta bahwa auto-encoders memiliki sikap yang berbeda terhadap fitur wajah yang konstan dan berubah sangat penting bagi kemampuan mereka untuk mengeluarkan diphfake.

Setiap algoritma untuk pelatihan jaringan saraf membutuhkan beberapa cara untuk mengevaluasi kualitas jaringan sehingga dapat ditingkatkan. Dalam banyak kasus, ini dilakukan melalui pelatihan dengan guru, ketika orang tersebut memberikan jawaban yang benar untuk setiap elemen dari set data pelatihan. Pengkode otomatis bekerja secara berbeda. Karena mereka hanya mencoba mereproduksi data input mereka sendiri, perangkat lunak pelatihan dapat menilai kualitas kerja mereka secara otomatis. Dalam jargon pembelajaran mesin, ini disebut belajar tanpa guru.

Seperti halnya jaringan saraf, autoencoder di Faceswap dilatih menggunakan backpropagation. Algoritma pelatihan memasukkan gambar tertentu ke jaringan saraf dan melihat piksel mana dalam output yang tidak cocok dengan input. Kemudian dia menghitung neuron mana dari lapisan terakhir yang memberikan kontribusi terbesar terhadap kesalahan dan sedikit mengoreksi parameter masing-masing neuron sehingga memberikan hasil yang lebih baik.

Kemudian kesalahan ini merambat kembali ke lapisan sebelumnya, di mana parameter dari masing-masing neuron diperbaiki kembali. Kesalahan menyebar dengan cara ini lebih jauh ke belakang sampai masing-masing parameter jaringan saraf - baik encoder dan decoder - dikoreksi.

Kemudian algoritma pelatihan memberi makan gambar lain dari jaringan, dan seluruh proses diulangi lagi. Ratusan ribu pengulangan seperti itu mungkin diperlukan untuk membuat pembuat enkode otomatis yang mereproduksi inputnya sendiri dengan baik.

Perangkat lunak Dipfake bekerja secara bersamaan dengan melatih dua enkoder otomatis, satu untuk wajah asli, dan yang kedua untuk yang baru. Selama proses pelatihan, setiap pembuat enkode otomatis hanya diberikan gambar dari satu orang, dan ia dilatih untuk menghasilkan gambar yang sangat mirip dengan aslinya.

Namun, ada tangkapan: kedua jaringan menggunakan encoder yang sama. Decoder - neuron di sisi kanan jaringan - tetap terpisah, dan masing-masing dilatih untuk memberikan wajah yang berbeda. Tetapi neuron di sisi kiri jaringan memiliki parameter umum yang berubah setiap kali autodode dilatih. Ketika jaringan Zuckerberg dilatih pada wajah Zuckerberg, ini mengubah setengah dari jaringan milik encoder dan di jaringan untuk Data. Setiap kali jaringan Data dilatih pada wajah Data, encoder Zuckerberg mewarisi perubahan ini.

Akibatnya, dua penyandi otomatis memiliki satu penyandi umum yang dapat "membaca" wajah Zuckerberg atau wajah Data. Tujuan pembuat enkode adalah untuk menggunakan representasi yang sama dari hal-hal seperti sudut kepala atau lokasi alis, apakah ia menerima foto Zuckerberg atau foto Data pada input. Dan ini, pada gilirannya, berarti bahwa ketika Anda meremas wajah Anda dengan encoder, Anda dapat membukanya menggunakan decoder apa pun.

Jadi, setelah melatih beberapa enkoder otomatis dengan cara ini, masih ada langkah sederhana untuk membuat dip-palsu: Anda menukar decoder. Anda sedang meng-encode foto Zuckerberg, tetapi menggunakan decoder Data pada langkah decoding. Hasilnya adalah foto Data yang direkonstruksi - tetapi dengan posisi kepala dan ekspresi wajah yang sama dengan foto asli Zuckerberg.

Ingat, saya menyebutkan bahwa ruang laten menangkap fitur wajah variabel seseorang - ekspresi, arah pandang, lokasi alis - dan hal-hal konstan seperti warna mata atau bentuk mulut memberikan decoder. Ini berarti bahwa jika Anda menyandikan gambar Zuckerberg, dan kemudian mendekode menggunakan data decoder, Anda akan mendapatkan wajah dengan fitur Data permanen - misalnya, bentuk wajah - tetapi dengan ekspresi dan orientasi wajah Zuckerberg asli.

Menerapkan teknik ini ke frame video berturut-turut dengan Zuckerberg, Anda mendapatkan video baru di mana wajah Data melakukan gerakan yang sama - tersenyum, berkedip, memutar kepalanya - yang dilakukan Zuckerberg dalam video asli.

Situasi ini simetris. Ketika Anda melatih jaringan saraf untuk menerima foto Zuckerberg dan mengeluarkan foto Data, Anda secara bersamaan melatihnya untuk menerima foto Data dan mengeluarkan foto Zuckerberg. Alat untuk mengkonversi video dari Faceswap - langkah terakhir dalam proses membuat dipfake - termasuk kotak centang yang berguna "model swap", yang memungkinkan pengguna untuk menukar decoder. Akibatnya, alih-alih mengganti wajah Data sebagai ganti wajah Zuckerberg, program justru sebaliknya, menghasilkan video yang sangat lucu seperti ini:

Data pelatihan

Dalam praktiknya, mendapatkan hasil yang baik saat membuat dipfake tidaklah mudah.

Seperti yang saya sebutkan, saya mendapat tujuh menit video untuk Data dan sembilan menit untuk Zuckerberg. Lalu saya menggunakan alat ekstraksi gambar Faceswap untuk memotong video dan memotong gambar wajah kedua pria. Video ini memuat sekitar 30 frame per detik, tetapi saya mengekstraksi hanya setiap keenam - praktik ini direkomendasikan dalam dokumentasi Faceswap. Ini karena berbagai gambar berarti lebih dari sekadar jumlah mereka, dan menyimpan setiap bingkai akan menghasilkan sejumlah besar gambar yang sangat mirip.

Alat ekstraksi Faceswap menghasilkan cukup banyak kesalahan positif. Dia juga menemukan wajah asli di latar belakang beberapa bidikan. Selama beberapa jam, saya secara manual menghapus semua foto yang diekstraksi yang bukan milik salah satu dari dua subjek eksperimental saya. Hasilnya, saya mendapat 2598 gambar wajah Data dan 2224 gambar wajah Zuckerberg.

Dan pada saat itu, akhirnya, tiba saatnya untuk beralih ke pelatihan model nyata. Sekarang Faceswap hadir dengan 10 algoritma dipfake berbeda yang mendukung ukuran gambar yang berbeda dan membutuhkan kekuatan komputasi yang berbeda. Di antara yang paling bersahaja ada model "ringan" yang bekerja dengan gambar wajah dengan ukuran tidak lebih dari 64 piksel. Itu dapat dijalankan pada mesin dengan memori video tidak lebih dari 2 GB. Model lain berfungsi dengan gambar berukuran 128, 256, atau bahkan 512 piksel - namun, mereka membutuhkan lebih banyak memori video, serta lebih banyak waktu pelatihan.

Saya mulai melatih model DFL-SAE, yang berasal dari algoritma dari DeepFaceLab. Namun, ada peringatan dalam dokumentasi Faceswap bahwa model ini menderita "kebocoran identitas" di mana beberapa fitur dari satu wajah dapat meresap ke wajah lainnya. Tampak bagi saya bahwa saya melihat sesuatu seperti ini di beberapa video uji pertama, jadi sehari kemudian saya beralih ke model Penjahat, yang bekerja dengan gambar 128-pixel. Manual Faceswap menggambarkannya sebagai sangat menuntut VRAM, dan sebagai "pilihan yang baik bagi mereka yang ingin mendapatkan model resolusi yang lebih tinggi tanpa menyesuaikan parameter apa pun."

Lalu saya menunggu. Dan dia menunggu. Proses pembelajaran masih belum berakhir ketika tenggat waktu saya datang pada hari Jumat - dan ini setelah enam hari pelatihan. Saat itu, model saya menghasilkan dipfake yang cukup bagus. Kecepatan kemajuan melambat, tetapi ada kemungkinan bahwa saya akan mendapatkan hasil yang lebih baik jika saya memiliki waktu komputer seminggu lagi.

Faceswap disesuaikan dengan baik untuk pekerjaan komputasi yang lama. Jika Anda menjalankan perintah pelatihan dari antarmuka grafis, antarmuka program secara teratur memperbarui layar pratinjau, tempat Anda dapat melihat contoh bagaimana perangkat lunak menciptakan potret Data dan Zuckerberg. Jika Anda lebih suka melakukan pelatihan dari baris perintah, ini juga memungkinkan. Antarmuka Faceswap memiliki tombol “menghasilkan” yang berguna yang memberikan perintah tepat yang perlu Anda lakukan untuk melatih model dengan pengaturan saat ini yang dibuat dalam antarmuka.

Seberapa baik dipfake itu?

Dalam proses pembelajaran, Faceswap terus-menerus menampilkan perkiraan numerik dari "kehilangan" untuk masing-masing dari dua penyandi-otomatis. Perkiraan ini menunjukkan seberapa baik encoder otomatis Zuckerberg dapat memainkan foto Zuckerberg - dan seberapa baik encoder otomatis Data dapat memainkan foto Data. Dan angka-angka ini masih menurun ketika saya berhenti belajar pada hari Jumat, meskipun kecepatan kemajuan melambat secara signifikan.

Tentu saja, penting bagi kita seberapa baik dekoder Data dapat mengubah wajah Zuckerberg menjadi Data. Kami tidak tahu seperti apa "hasil akhir" seharusnya, oleh karena itu tidak mungkin untuk mengukur kualitas pekerjaan dalam jumlah yang tepat. Yang terbaik yang bisa kita lakukan adalah meninjau video dan memutuskan apakah itu terlihat realistis.

Video di atas menunjukkan kualitas dipfake pada empat tahap proses pembelajaran. Video 10 dan 12 Desember menunjukkan model Penjahat yang sebagian terlatih. Video 6 Desember di kiri atas adalah tes awal dengan model yang berbeda. Kanan bawah adalah hasil akhir. Dalam proses pelatihan, detail wajahnya menjadi lebih jelas dan lebih dapat dipercaya.

Pada 9 Desember, setelah tiga hari pelatihan, saya menerbitkan video pendahuluan di saluran internal kantor editorial di Slak. Video itu mirip dengan apa yang terletak di sudut kiri atas. Guru desain kami, Aurich Lawson, bereaksi dengan sinis kepadanya.

"Secara umum, itu terlihat buruk," tulisnya, menambahkan bahwa itu "tidak terlihat meyakinkan. Saya menunggu salah satu video yang tidak terlihat palsu. "

Saya pikir dalam kritiknya ada kernel yang rasional. Saya terkejut melihat betapa cepatnya Faceswap mampu membuat gambar wajah yang sangat mirip dengan Brent Spiner, lebih dari Zuckerberg. Namun, jika Anda melihat lebih dekat, Anda akan melihat tanda-tanda khas penipuan digital.

Pada beberapa bingkai, perbatasan antara wajah palsu Data dan kepala Zuckerberg tidak terlihat benar. Terkadang alis Zuckerberg mengintip dari bawah wajah Data. Di tempat lain, tepi wajah palsu ditutupi dengan beberapa piksel di telinga Zuckerberg. Dimungkinkan untuk memperbaiki masalah ini dengan komposisi dalam pemrosesan pasca manual oleh seseorang - tetapi seseorang akan perlu untuk menggulir bingkai video dengan bingkai dan menyesuaikan topeng untuk masing-masing.

Namun, masalah yang lebih mendasar adalah bahwa algoritma diphfake belum dapat mereproduksi detail terkecil dari wajah manusia dengan cukup baik. Ini cukup jelas ketika Anda melihat video awal dan akhir secara paralel. Secara mengejutkan, Faceswap menyampaikan struktur wajah Data secara keseluruhan. Tetapi bahkan setelah satu minggu pelatihan, wajah terlihat buram, dan tidak ada rincian penting yang cukup di dalamnya. Misalnya, perangkat lunak untuk dipheykas hampir tidak dapat mengatasi gambar gigi manusia. Kadang-kadang gigi menjadi terlihat jelas, dan pada frame berikutnya menghilang, meninggalkan kegelapan.

Salah satu alasan utama untuk ini adalah karena tugas Faceswap secara eksponensial menjadi lebih rumit dengan resolusi yang lebih tinggi. Pengkode otomatis melakukan pekerjaan dengan baik dengan gambar 64x64 piksel. Tetapi mereproduksi detail yang lebih baik dari gambar 128x128 piksel - belum lagi gambar 256 piksel atau lebih - sudah jauh lebih sulit. Mungkin ini adalah salah satu alasan mengapa diphfes paling mengesankan memiliki sudut pandang yang cukup lebar, tanpa close-up wajah.

Namun, Anda tidak boleh menganggap ini sebagai batasan mendasar dari teknologi diphake. Di tahun-tahun mendatang, para peneliti mungkin dapat mengembangkan teknologi yang dapat mengatasi keterbatasan ini.

Seringkali basis perangkat lunak untuk sebuah dipheyka secara keliru digambarkan sebagai jaringan generatif-adversarial (GSS), atau jaringan saraf yang memungkinkan perangkat lunak untuk “mewakili”orang , benda, atau bentang alam yang tidak ada. Bahkan, dipfeyki bekerja menggunakan autoencoder. Namun, kemajuan terbaru dalam teknologi GSS menunjukkan bahwa dipfake masih memiliki ruang untuk perbaikan.

GSS, yang pertama kali muncul pada tahun 2014, hanya dapat menghasilkan gambar kasar dan beresolusi rendah. Namun baru-baru ini, para peneliti telah menemukan cara untuk membuat GSS yang menghasilkan gambar fotorealistik hingga 1024 piksel. Teknik khusus yang digunakan dalam karya ilmiah ini mungkin tidak dapat diterapkan untuk membuat diphake, tetapi mudah untuk membayangkan bagaimana seseorang akan mengembangkan teknologi serupa untuk penyandi-otomatis - atau mungkin arsitektur jaringan saraf yang sama sekali baru yang dirancang untuk menggantikan wajah.

Perspektif Dipfake

Meningkatnya popularitas dipfake jelas mengkhawatirkan. Sampai baru-baru ini, orang dapat dengan mudah mengambil video dengan seseorang pada nilai nominal. Munculnya perangkat lunak dipheyka dan alat digital lainnya telah membuat kami skeptis terhadap video sekarang. Jika kita melihat video di mana seseorang mengklaim sesuatu yang memalukan - atau menanggalkan - kita harus mempertimbangkan kemungkinan seseorang memalsukan video ini untuk mendiskreditkan orang tersebut.

Namun, percobaan saya menekankan keterbatasan teknologi dipfake - setidaknya dalam bentuk saat ini. Pengetahuan dan upaya yang luas diperlukan untuk menciptakan wajah virtual yang sepenuhnya meyakinkan. Saya tidak berhasil, dan saya tidak yakin seseorang sudah dapat menghasilkan video dipfake yang benar-benar tidak dapat dibedakan dari yang asli.

Selain itu, alat hari ini seperti Faceswap hanya berurusan dengan perubahan wajah. Mereka tidak mengubah dahi, rambut, lengan, dan kaki. Dan bahkan jika wajahnya sempurna, akan mungkin untuk menentukan video dipfake berdasarkan elemen yang tidak terlihat benar.

Namun, keterbatasan teknologi dipfake ini dapat hilang. Dalam beberapa tahun, perangkat lunak dapat belajar untuk menghasilkan video yang tidak dapat dibedakan dari yang asli. Lalu apa?

Dalam hal ini, akan berguna untuk mengingat bahwa jenis media lain telah lama mudah dipalsukan. Tugas sepele adalah mengambil screenshot dari email, di mana seseorang menulis sesuatu yang sebenarnya tidak ditulisnya. Dan ini tidak mengarah pada peningkatan jumlah tambang yang rusak karena email penipuan, juga tidak mendiskreditkan tangkapan layar surat sebagai bukti yang digunakan dalam diskusi publik.

Tetapi orang-orang tahu bahwa email dapat dipalsukan, dan sedang mencari konfirmasi tambahan dalam kasus tersebut. Apa rangkaian peristiwa yang menarik perhatian publik untuk surat-surat itu? Sudahkah orang lain menerima salinan email ini pada saat itu seharusnya ditulis? Apakah dugaan penulis surat itu mengakui kepengarangannya, atau mengklaim pemalsuan? Jawaban atas pertanyaan semacam itu membantu orang memutuskan seberapa serius mereka dapat menerima surat yang diterbitkan.

Anda bisa dibodohi sekali

Begitu juga dengan video. Mungkin akan ada periode waktu singkat ketika penyesat dapat menghancurkan karier seseorang dengan memposting video di mana ia mengatakan atau melakukan sesuatu yang keterlaluan. Tetapi masyarakat akan segera belajar memperlakukan video dengan skeptis, kecuali jika klip video tersebut memiliki bukti dokumenter, saksi atau faktor pendukung lainnya.

Saya pikir ini akan berhasil bahkan dalam kasus penyalahgunaan teknologi diphey yang paling keterlaluan: memasukkan wajah seseorang ke video porno. Ini jelas tidak sopan dan tidak bisa diterima. Tetapi orang-orang khawatir bahwa video semacam itu dapat merusak reputasi dan karier mereka. Saya pikir ini tidak benar.

Memang, di Internet Anda dapat menemukan gambar lengkap dari kepribadian terkenal (terutama wanita) yang kepalanya melekat pada tubuh bintang porno dengan bantuan Photoshop. Penderitaan wanita bisa dimengerti. Tetapi publik tidak secara otomatis menyimpulkan bahwa para wanita ini berpose telanjang - kita tahu tentang keberadaan Photoshop dan tentang kemungkinan membuat foto palsu.

Hal yang sama berlaku untuk pornografi mendalam. Jelas, tidak baik membuat video porno palsu dengan partisipasi Anda. Tetapi rilis video dipfake dengan beberapa jenis orang tidak akan memiliki efek yang menghancurkan seperti video seks nyata. Dengan tidak adanya bukti keaslian video, publik akan menyimpulkan bahwa itu palsu.

Matt Torah, penulis Faceswap, memberi tahu saya bahwa pertimbangan ini adalah salah satu komponen motivasi untuk membuat paket. Dia percaya bahwa perangkat lunak untuk mengubah orang pasti akan dikembangkan. Dia berharap bahwa dengan menciptakan alat yang ramah pengguna untuk menggantikan orang-orang open-source, dia akan membantu menghilangkan tabir kerahasiaan dengan teknologi ini dan memberi tahu publik tentang kemampuan dan keterbatasannya. Dan ini, pada gilirannya, akan membantu kita dengan cepat sampai pada titik di mana publik akan skeptis tentang video yang mungkin palsu.

Dalam jangka panjang, kami mengambil risiko bahwa pendulum hubungan masyarakat berayun terlalu banyak ke arah lain, dan kemungkinan menciptakan dipfake akan menghancurkan kepercayaan pada kekuatan bukti video. Beberapa politisi sudah terbiasa menolak kritik media sebagai "berita palsu." Taktik ini akan menjadi lebih efektif dengan meningkatnya kesadaran masyarakat tentang teknologi dipfake.

Saya membuat dipfake saya sendiri dalam dua minggu dan $ 552