Palet memungkinkan seniman untuk mengatur dan mencampur cat dengan warna yang berbeda, membuat lukisan di kanvas di depan mereka. Keberadaan alat serupa yang dapat memungkinkan AI untuk belajar bersama dari berbagai sumber data, seperti percakapan, cerita, gambar, dan pengetahuan, dapat membuka pintu bagi para peneliti dan ilmuwan untuk mengembangkan sistem AI yang lebih komprehensif.
Palet memungkinkan seniman untuk mengoleskan dan mencampur cat dari berbagai warna. SpaceFusion berkomitmen untuk membantu para ilmuwan AI melakukan hal serupa untuk berbagai model yang dilatih pada kumpulan data yang berbeda.Untuk model pembelajaran mendalam modern, set data biasanya diwakili oleh vektor di ruang tersembunyi yang berbeda menggunakan jaringan saraf yang berbeda. Dalam artikel "
Optimalisasi Bersama Keanekaragaman dan Relevansi dalam Generasi Reaksi Saraf ," rekan penulis saya dan saya menyajikan SpaceFusion, sebuah paradigma pelatihan yang dapat "mencampur" berbagai ruang tersembunyi - seperti cat pada palet - sehingga AI dapat menggunakan pola dan pengetahuan yang tertanam di masing-masing mereka. Implementasi dari pekerjaan ini tersedia di
GitHub .
Tangkap warna percakapan manusia
Sebagai upaya pertama, kami menerapkan teknik ini pada AI interaktif saraf. Dalam pengaturan kami, model saraf diharapkan untuk menghasilkan respons yang relevan dan menarik berdasarkan pada riwayat percakapan atau konteks. Terlepas dari kenyataan bahwa keberhasilan yang menjanjikan telah dicapai dalam model komunikasi saraf, model ini, sebagai aturan, berusaha untuk tidak mengambil risiko, mereproduksi jawaban umum dan membosankan. Berbagai pendekatan telah dikembangkan untuk mendiversifikasi tanggapan-tanggapan ini dan lebih baik merefleksikan warna percakapan manusia, tetapi
suatu kompromi sering
muncul dengan penurunan relevansi. .
Gambar 1: Seperti palet yang memudahkan untuk menggabungkan cat, SpaceFusion meluruskan atau mencampur ruang tersembunyi dari seq2seq (S2S, titik merah) dan model autoencoder (AE, titik biru) untuk berbagi dua model dengan lebih efisien.SpaceFusion memecahkan masalah ini dengan menghubungkan ruang tersembunyi yang diekstraksi dari dua model (Gambar 1):
- model urutan-ke-urutan (S2S), yang bertujuan mendapatkan jawaban yang relevan, tetapi mungkin memiliki beberapa perbedaan; juga
- model autoencoder (AE) yang mampu menyajikan jawaban yang berbeda tetapi tidak mencerminkan hubungan mereka dengan percakapan.
Model yang dilatih bersama dapat memanfaatkan kekuatan kedua model dan mengatur titik data dengan cara yang lebih terstruktur.
Gambar 2: Di atas menunjukkan satu konteks dan banyak responsnya dalam ruang tersembunyi yang disebabkan oleh SpaceFusion. Jarak dan arah dari vektor respons yang diprediksi, dengan mempertimbangkan konteksnya, masing-masing kira-kira sesuai dengan signifikansi dan keragaman.Misalnya, seperti yang ditunjukkan pada Gambar 2, dengan mempertimbangkan konteksnya - dalam hal ini, "Apakah ada yang mau memulai permainan ini?" - jawaban positif "Saya ingin memainkannya" dan "Ya, saya bermain" terletak di satu arah. Yang negatif - "Saya tidak tertarik dengan permainan" dan "Tidak, saya tidak tertarik" - dipetakan ke arah yang berbeda. Keragaman jawaban dicapai melalui studi ruang tersembunyi di arah yang berbeda. Selain itu, jarak di ruang tersembunyi juga relevan. Jawaban yang lebih jauh dari konteks - “Ya, saya bermain” dan “Tidak, saya tidak bermain” - biasanya bersifat umum, sedangkan mereka yang lebih dekat lebih relevan dengan konteks tertentu: “Saya tidak tertarik dengan permainan” dan “Ketika apakah kamu akan bermain? "
SpaceFusion memisahkan kriteria relevansi dan keragaman dan menyajikannya dalam dua dimensi independen - arah dan jarak - memfasilitasi optimalisasi gabungan keduanya. Eksperimen dan evaluasi empiris kami pada manusia telah menunjukkan bahwa SpaceFusion berkinerja lebih baik pada dua kriteria ini dibandingkan dengan baseline kompetitif.
Belajar berbagi ruang tersembunyi
Jadi bagaimana sebenarnya SpaceFusion memetakan ruang tersembunyi yang berbeda?
Idenya cukup intuitif: untuk setiap pasangan poin dari dua ruang tersembunyi yang berbeda, pertama-tama kita meminimalkan jarak mereka di ruang tersembunyi yang umum, dan kemudian mempertahankan transisi yang mulus di antara mereka. Ini dilakukan dengan menambahkan dua istilah regularisasi baru - istilah jarak dan istilah kelancaran - ke fungsi target.
Mengambil percakapan sebagai contoh, istilah jarak mengukur jarak Euclidean antara titik dari ruang tersembunyi S2S, yang ditampilkan berdasarkan konteks dan mewakili respons yang diprediksi, dan titik-titik dari ruang tersembunyi AE yang sesuai dengan jawaban targetnya. Meminimalkan jarak ini mendorong model S2S untuk menampilkan konteks sebagai titik dekat dan dikelilingi oleh tanggapannya dalam ruang tersembunyi yang umum, seperti yang ditunjukkan pada Gambar 2.
Istilah smoothness mengukur probabilitas menghasilkan respons target dari interpolasi acak antara titik yang dipetakan dari konteks dan titik yang dipetakan dari respons. Dengan memaksimalkan probabilitas ini, kami mendorong transisi yang lancar dalam nilai respons yang dihasilkan saat Anda menjauh dari konteks. Ini memungkinkan kami untuk menjelajahi lingkungan sekitar titik perkiraan yang dibuat oleh S2S, dan dengan demikian menghasilkan berbagai jawaban yang relevan dengan konteksnya.
Dengan dua peraturan baru ini ditambahkan ke fungsi tujuan, kami menerapkan batasan jarak dan pemerataan untuk mempelajari ruang tersembunyi, sehingga pelatihan tidak hanya akan fokus pada kinerja di setiap ruang tersembunyi, tetapi juga akan mencoba untuk menyelaraskan mereka bersama dengan menambahkan struktur yang diinginkan ini. Pekerjaan kami berfokus pada model interaktif, tetapi kami berharap SpaceFusion untuk menyelaraskan ruang tersembunyi yang dilatih oleh model lain pada kumpulan data yang berbeda. Ini akan menghubungkan berbagai kemampuan dan bidang pengetahuan yang dipelajari oleh setiap sistem AI tertentu, dan merupakan langkah pertama menuju AI yang lebih komprehensif.
Lihat juga: 7 kursus gratis untuk pengembang