WaveNet: pidato mirip manusia yang disintesis komputer
DeepMind adalah divisi mandiri dari Google yang bergerak dalam pengembangan kecerdasan buatan. Perusahaan ini mengembangkan AlphaGo , sistem yang mengalahkan Go Lee Sedol, juara dunia.Tapi DeepMind bukan hanya tentang game. Sekarang karyawan perusahaan sedang mengembangkan sistem sintesis bicara berbasis komputer. Seperti dalam semua proyek DeepMind lainnya, bentuk kecerdasan buatan yang lemah terlibat di sini. Dia, menurut para ahli, dapat secara dramatis memperbaiki situasi dengan pidato yang disintesis.Menggunakan komputer untuk mensintesis ucapan bukanlah ide baru sama sekali. Solusi paling sederhana adalah dengan menggunakan fragmen pidato orang sungguhan yang diterjemahkan ke dalam angka. Kita berbicara tentang suara individu yang membentuk frasa, kata, dan kalimat suara yang lebih kompleks. Tetapi metode ini tidak bisa disebut ideal. Di sini, siapa pun segera memperhatikan masalah dengan pengucapan dan intonasi.Dalam kasus lain, berbagai model matematika digunakan untuk mensintesis suara dari mana kata-kata dan kalimat dapat disusun. Masalahnya hampir sama seperti pada kasus sebelumnya. Dan segera jelas apa yang dikatakan mesin, bukan orangnya.
Kedua metode ini serupa dalam hal yang lebih besar dan lebih kompleks yang dikumpulkan dari fragmen-fragmen kecil. Sebagai hasil dari kompilasi semacam itu, komputer mengucapkan kata-kata dan frasa yang rumit.Metode ketiga, WaveNet, yang diusulkan oleh DeepMind, menggabungkan manfaat dari dua sebelumnya. Metode ini menggunakan pelatihan jaringan saraf menggunakan fragmen suara manusia nyata. Sistem ini juga menerima informasi tentang aturan linguistik dan fonetik yang sesuai dengan masing-masing kasus. Dalam prosesnya, sistem menunjukkan satu baris teks dan memungkinkan Anda untuk "mendengarkan" kumpulan suara yang sesuai. Setelah itu, sistem mencoba mensintesis ucapan manusia menggunakan sejumlah fragmen. Ini dilakukan langkah demi langkah, dengan pelatihan pada contoh masing-masing fragmen spesifik. Pengembangan dilakukan sedemikian rupa sehingga masing-masing "materi berlalu" sebelumnya memberikan jaringan saraf gagasan tentang tugas baru.Analog dari apa yang bisa dilakukan oleh WaveNet dan sistem sintesis ucapan konvensional adalah membuat cangkir. Sistem sintesis bicara berbasis komputer konvensional menggunakan batu bata Lego untuk membuat cangkir. Hasilnya, cawan terlihat bagus, tetapi bukan cawan, tetapi tiruannya. Tapi WaveNet menggunakan tanah liat untuk membuat cangkir. Pekerjaan dilakukan secara manual, tanpa roda tembikar, tetapi cawan itu ternyata terlihat seperti cawan. Begitu juga dengan ucapan. WaveNet mensintesis pembicaraan manusia, yang sedikit berbeda dari yang biasa kita lakukan, tetapi tidak terlalu signifikan.Hasilnya mengesankan. Anda dapat mendengarkan apa yang terjadi di sini . Itu sudah terdengar sangat manusiawi. Tentu saja, ada perbedaan, tetapi mereka tidak lagi sepenting dalam kasus lain.
Satu-satunya masalah adalah bahwa metode ini membutuhkan banyak waktu dan sumber daya komputer. Suatu sistem yang dapat menghasilkan ucapan manusia yang dapat dipahami harus sangat kuat. Faktanya adalah bahwa WaveNet, untuk mensintesis ucapan manusia, memproses 16.000 sampel audio setiap detik. Dan bahkan dalam kasus ini, hasilnya adalah kualitas rata-rata. Namun, dalam tes untuk definisi "manusia atau mesin" hasilnya adalah sekitar 50%. Yaitu, setengah dari sukarelawan yang mendengarkan sampel audio yang dibuat oleh mesin berpikir bahwa ini dikatakan oleh seseorang.Para peneliti dari DeepMind telah mengunduh lebih dari 44 jam bicara ke dalam sistem. Kata-kata, suara, dan frasa yang dimasukkan ke dalam sistem adalah milik 109 peserta dalam percobaan yang berbicara bahasa Inggris. Ternyata, WaveNet dapat mensimulasikan pidato hampir setiap peserta dalam percobaan. Sistem ini mereproduksi bahkan aspirasi dan cacat bicara dari "pembicara" yang asli.Terlepas dari kenyataan bahwa sistem sudah berbicara dengan cukup baik, masih jauh dari kesempurnaan nyata. Masalah lainnya adalah lemahnya bentuk AI belum bisa memahami bahasa. IBM telah mencapai keberhasilan maksimum di bidang ini dengan sistem kognitif IBM Watson. Namun di sini, sejauh ini, kita berbicara tentang mengenali perintah verbal dan tertulis yang tidak terlalu rumit, serta jawaban atas pertanyaan sederhana. Sistem kognitif belum dapat mempertahankan percakapan. Namun demikian, teknologi sedang berkembang, dan para ahli mengatakan bahwa dalam 5-10 tahun situasinya dapat berubah secara dramatis.Sejumlah ilmuwan berpendapat bahwa sekarang bentuk lemah AI masih kekurangan komponen spesifik dari pikiran. Dan itu tidak tergantung pada ukuran jaringan itu sendiri. "Bahasa ini dibangun di atas kemungkinan lain, mungkin terletak lebih dalam dan ada pada bayi bahkan sebelum mereka mulai menguasai bahasa: persepsi visual tentang dunia, bekerja dengan peralatan motorik kami, memahami fisika dunia dan niat makhluk lain," kata Tenenbaum.
DeepMind dan tim peneliti dari Universitas Oxford saat ini sedang mengerjakan proyek lain. Ini adalah penciptaan "tombol merah" bersyarat untuk bentuk AI yang kuat, yang, mungkin, bisa keluar dari kendali seseorang setelah seseorang menciptakan pikiran buatan.Source: https://habr.com/ru/post/id397327/
All Articles