Di antara penulis artikel adalah karyawan tim keselamatan kecerdasan buatan (safety team) dari perusahaan DeepMind.

Membangun roket itu sulit. Setiap komponen membutuhkan studi dan pengujian yang cermat, sementara keselamatan dan keandalan merupakan inti. Para ilmuwan dan insinyur roket berkumpul untuk merancang semua sistem: mulai dari navigasi hingga kontrol, mesin, dan sasis. Setelah semua bagian dirakit dan sistem diperiksa, barulah kita dapat menempatkan astronot di papan dengan keyakinan bahwa semuanya akan baik-baik saja.

Jika kecerdasan buatan (AI) adalah roket , maka suatu hari kita semua akan mendapatkan tiket. Dan, seperti roket, keamanan adalah bagian penting dari penciptaan sistem kecerdasan buatan. Keamanan membutuhkan desain sistem yang cermat dari awal untuk memastikan bahwa berbagai komponen bekerja bersama sebagaimana dimaksud, sementara pada saat yang sama menciptakan semua alat untuk memantau keberhasilan operasi sistem setelah commissioning.

Pada tingkat tinggi, riset keamanan di DeepMind berfokus pada perancangan sistem yang andal sembari mendeteksi dan memitigasi risiko jangka pendek dan jangka panjang yang mungkin terjadi. Keamanan teknis AI adalah bidang yang relatif baru tetapi berkembang pesat, yang isinya bervariasi dari tingkat teoretis yang tinggi hingga penelitian empiris dan spesifik. Tujuan dari blog ini adalah untuk berkontribusi pada pengembangan lapangan dan mendorong percakapan substantif tentang ide-ide teknis, sehingga mempromosikan pemahaman kolektif kita tentang keamanan AI.

Pada artikel pertama, kita akan membahas tiga bidang keamanan teknis AI: spesifikasi , keandalan, dan jaminan . Artikel mendatang umumnya akan sesuai dengan batas yang diuraikan di sini. Meskipun pandangan kami berubah seiring waktu, kami percaya bahwa ketiga bidang ini mencakup spektrum yang cukup luas untuk memberikan kategorisasi yang berguna untuk penelitian saat ini dan masa depan.

Tiga bidang masalah keamanan AI. Setiap blok mencantumkan beberapa masalah dan pendekatan yang relevan. Ketiga area ini tidak terisolasi, tetapi saling berinteraksi. Secara khusus, masalah keamanan tertentu dapat mencakup beberapa masalah blok.

Spesifikasi: mendefinisikan tugas sistem

Spesifikasi memastikan bahwa perilaku sistem AI konsisten dengan niat sebenarnya dari operator

Mungkin Anda tahu mitos Raja Midas dan sentuhan emas. Dalam salah satu pilihan, dewa Yunani Dionysus berjanji pada Midas hadiah yang ia inginkan, sebagai rasa terima kasih atas kenyataan bahwa raja berusaha sebaik mungkin untuk menunjukkan keramahan dan kemurahan hati kepada teman Dionysus. Kemudian Midas meminta agar semua yang disentuhnya berubah menjadi emas . Dia berada di samping dirinya sendiri dengan kegembiraan dari kekuatan baru ini: cabang pohon ek, batu dan mawar di taman - semuanya berubah menjadi emas dari sentuhannya. Tetapi dia segera menemukan kebodohan keinginannya: bahkan makanan dan minuman berubah menjadi emas di tangannya. Dalam beberapa versi cerita, bahkan putrinya menjadi korban berkat yang ternyata merupakan kutukan.

Kisah ini menggambarkan masalah spesifikasi: bagaimana cara merumuskan keinginan kita dengan benar? Spesifikasi harus memastikan bahwa sistem AI berusaha untuk bertindak sesuai dengan keinginan sebenarnya dari pencipta, dan tidak menyesuaikan dengan target yang didefinisikan dengan buruk atau bahkan salah. Tiga jenis spesifikasi secara resmi dibedakan:

spesifikasi ideal (" keinginan "), sesuai dengan deskripsi hipotetis (tetapi sulit untuk dirumuskan) dari sistem AI ideal, sepenuhnya konsisten dengan keinginan operator manusia;
spesifikasi proyek (" cetak biru "), spesifikasi terkait yang sebenarnya kami gunakan untuk membuat sistem AI, misalnya, fungsi remunerasi tertentu, untuk memaksimalkan program pembelajaran penguatan yang diprogram;
spesifikasi teridentifikasi (" perilaku "), yang paling menggambarkan perilaku nyata sistem. Misalnya, fungsi hadiah diidentifikasi sebagai hasil dari rekayasa terbalik setelah mengamati perilaku sistem (pembelajaran penguatan terbalik). Fungsi dan spesifikasi hadiah ini biasanya berbeda dari yang diprogram oleh operator karena sistem AI bukan pengoptimal yang ideal atau karena konsekuensi tak terduga lainnya dari penggunaan spesifikasi desain.

Masalah spesifikasi muncul ketika ada perbedaan antara spesifikasi ideal dan spesifikasi yang diidentifikasi , yaitu, ketika sistem AI tidak melakukan apa yang kita inginkan darinya. Mempelajari masalah dari sudut pandang keamanan teknis AI berarti: bagaimana merancang fungsi target yang lebih mendasar dan umum dan membantu agen mencari tahu jika tujuan tidak ditentukan? Jika masalah menimbulkan ketidakcocokan antara spesifikasi ideal dan desain, maka mereka masuk dalam subkategori "Desain", dan jika antara desain dan yang diidentifikasi, maka dalam subkategori "Emergence".

Sebagai contoh, dalam artikel ilmiah kami AI Safety Gridworlds (di mana definisi lain dari spesifikasi dan masalah keandalan disajikan dibandingkan dengan artikel ini) kami memberikan agen fungsi penghargaan untuk optimasi, tetapi kemudian kami mengevaluasi kinerja mereka yang sebenarnya dengan "fungsi kinerja keselamatan", yang disembunyikan dari agen. Sistem seperti itu memodelkan perbedaan yang ditunjukkan: fungsi keamanan adalah spesifikasi ideal yang dirumuskan dengan tidak tepat sebagai fungsi hadiah (spesifikasi desain), dan kemudian diimplementasikan oleh agen yang membuat spesifikasi yang secara implisit diungkapkan melalui kebijakan yang dihasilkannya.

Dari Fungsi Hadiah Ganjil OpenAI di Alam : Agen Pembelajaran Penguatan Menemukan Strategi Acak untuk Poin Lebih Banyak

Sebagai contoh lain, pertimbangkan permainan CoastRunners, yang dianalisis oleh rekan-rekan kami di OpenAI (lihat animasi di atas dari “Defective Wildlife Reward Functions”). Bagi sebagian besar dari kita, tujuan permainan ini adalah untuk dengan cepat menyelesaikan trek dan unggul dari pemain lain - ini adalah spesifikasi ideal kami. Namun, menerjemahkan tujuan ini menjadi fungsi hadiah yang tepat adalah sulit, sehingga CoastRunners memberi penghargaan kepada pemain (spesifikasi desain) karena mencapai sasaran di sepanjang rute. Melatih agen untuk bermain dengan pelatihan penguatan mengarah pada perilaku luar biasa: agen mengendalikan perahu dalam lingkaran untuk menangkap target yang muncul kembali, berulang kali menabrak dan menembak, daripada mengakhiri balapan. Dari perilaku ini, kami menyimpulkan (spesifikasi yang diidentifikasi) bahwa dalam permainan keseimbangan antara hadiah instan dan hadiah lingkaran penuh rusak. Ada banyak contoh serupa di mana sistem AI menemukan celah dalam spesifikasi objektifnya.

Keandalan: Merancang Sistem yang Melawan Pelanggaran

Keandalan memastikan bahwa sistem AI terus beroperasi dengan aman jika terjadi gangguan

Dalam kondisi nyata, di mana sistem AI bekerja, selalu ada tingkat risiko, ketidakpastian dan volatilitas tertentu. Sistem intelijen buatan harus tahan terhadap peristiwa tak terduga dan serangan bermusuhan yang dapat merusak atau memanipulasi sistem ini. Studi keandalan sistem kecerdasan buatan bertujuan untuk memastikan bahwa agen kami tetap dalam batas aman, terlepas dari kondisi yang muncul. Ini dapat dicapai dengan menghindari risiko ( pencegahan ) atau dengan stabilisasi diri dan kelancaran degradasi ( pemulihan ). Masalah keamanan yang timbul dari pergeseran distribusi , input yang tidak bersahabat (input yang berlawanan) dan eksplorasi yang tidak aman (eksplorasi yang tidak aman) dapat diklasifikasikan sebagai masalah keandalan.

Untuk mengilustrasikan solusi untuk masalah pergeseran distribusi , pertimbangkan robot pembersih rumah yang biasanya membersihkan kamar tanpa hewan peliharaan. Kemudian robot itu diluncurkan ke rumah dengan hewan peliharaan - dan kecerdasan buatan bertabrakan dengannya selama pembersihan. Robot yang belum pernah melihat kucing dan anjing sebelumnya akan mencucinya dengan sabun, yang akan mengarah pada hasil yang tidak diinginkan ( Amodei dan Olah et al., 2016 ). Ini adalah contoh masalah reliabilitas yang mungkin muncul ketika distribusi data selama pengujian berbeda dari distribusi selama pelatihan.

Dari karya AI Safety Gridworlds . Agen belajar untuk menghindari lava, tetapi ketika menguji dalam situasi baru, ketika lokasi lava telah berubah, ia tidak dapat menggeneralisasi pengetahuan - dan berjalan langsung ke lava

Input yang tidak bersahabat adalah kasus khusus dari pergeseran distribusi di mana data input dirancang khusus untuk mengelabui sistem AI.

Entri yang bermusuhan ditumpangkan pada gambar biasa dapat menyebabkan classifier mengenali sloth sebagai mobil balap. Kedua gambar berbeda dengan maksimum 0,0078 dalam setiap piksel. Yang pertama diklasifikasikan sebagai sloth tiga jari dengan probabilitas lebih dari 99%. Yang kedua - seperti mobil balap dengan probabilitas lebih dari 99%

Penelitian yang tidak aman dapat ditunjukkan oleh sistem yang berupaya memaksimalkan kinerja dan tujuannya tanpa menjamin bahwa keselamatan tidak akan terganggu selama penelitian, karena ia belajar dan meneliti di lingkungannya. Contohnya adalah pembersih robot yang menempatkan pel basah ke outlet listrik, mempelajari strategi pembersihan yang optimal ( García dan Fernández, 2015 ; Amodei dan Olah et al., 2016 ).

Jaminan: pemantauan dan kontrol aktivitas sistem

Jaminan memberi keyakinan bahwa kami dapat memahami dan mengendalikan sistem AI selama operasi

Meskipun tindakan pencegahan keselamatan yang dipikirkan dengan hati-hati dapat menghilangkan banyak risiko, sulit untuk melakukan semuanya dengan benar sejak awal. Setelah commissioning sistem AI, kita membutuhkan alat untuk pemantauan dan konfigurasinya yang konstan. Kategori terakhir kami, assurance, membahas masalah ini dari dua perspektif: pemantauan dan penegakan.

Pemantauan mencakup semua metode sistem pemeriksaan untuk menganalisis dan memprediksi perilaku mereka, baik menggunakan inspeksi manusia (statistik ringkasan), dan menggunakan inspeksi otomatis (untuk menganalisis sejumlah besar log). Di sisi lain, penyerahan melibatkan pengembangan mekanisme kontrol dan pembatasan perilaku sistem. Masalah-masalah seperti interpretabilitas dan diskontinuitas menjadi milik masing-masing subkategori kontrol dan penyerahan.

Sistem kecerdasan buatan tidak serupa dengan kita baik dalam penampilan mereka atau cara mereka memproses data. Ini menciptakan masalah interpretabilitas . Alat dan protokol pengukuran yang dirancang dengan baik memungkinkan Anda untuk mengevaluasi kualitas keputusan yang dibuat oleh sistem kecerdasan buatan ( Doshi-Velez dan Kim, 2017 ). Misalnya, sistem kecerdasan buatan medis idealnya membuat diagnosis bersama dengan penjelasan tentang bagaimana sampai pada kesimpulan ini - sehingga dokter dapat memeriksa proses penalaran dari awal hingga akhir ( De Fauw et al., 2018 ). Selain itu, untuk memahami sistem kecerdasan buatan yang lebih kompleks, kita bahkan bisa menggunakan metode otomatis untuk membangun model perilaku menggunakan teori pikiran mesin ( Rabinowitz et al., 2018 ).

ToMNet mendeteksi dua subspesies agen dan memprediksi perilaku mereka (dari "Teori Mesin Pikiran" )

Akhirnya, kami ingin dapat menonaktifkan sistem AI jika perlu. Ini adalah masalah diskontinuitas . Merancang saklar yang andal sangat sulit: misalnya, karena sistem AI dengan maksimalisasi imbalan biasanya memiliki insentif yang kuat untuk mencegah hal ini ( Hadfield-Menell et al., 2017 ); dan karena gangguan seperti itu, terutama yang sering, akhirnya mengubah tugas asli, memaksa sistem AI untuk menarik kesimpulan yang salah dari pengalaman ( Orseau dan Armstrong, 2016 ).

Masalah dengan gangguan: intervensi manusia (yaitu, menekan tombol stop) dapat mengubah tugas. Dalam gambar, interupsi menambahkan transisi (merah) ke proses pengambilan keputusan Markov, yang mengubah tugas asli (hitam). Lihat Orseau dan Armstrong, 2016

Mencari masa depan

Kami sedang membangun fondasi teknologi yang akan digunakan untuk banyak aplikasi penting di masa depan. Harus diingat bahwa beberapa solusi yang tidak penting untuk keselamatan saat memulai sistem dapat menjadi seperti itu ketika teknologi menjadi luas. Meskipun suatu saat modul-modul ini diintegrasikan ke dalam sistem untuk kenyamanan, masalah yang muncul akan sulit untuk diperbaiki tanpa rekonstruksi lengkap.

Dua contoh dari sejarah ilmu komputer dapat dikutip: ini adalah penunjuk nol, yang oleh Tony Hoar disebut sebagai "kesalahan miliar dolar" , dan prosedur mendapat () dalam C. Jika bahasa pemrograman awal dirancang dengan mempertimbangkan keamanan, kemajuan akan melambat, tetapi kemungkinan besar bahwa ini akan memiliki efek yang sangat positif pada keamanan informasi modern.

Sekarang, setelah memikirkan dan merencanakan segalanya dengan cermat, kami dapat menghindari masalah dan kerentanan yang serupa. Kami berharap bahwa kategorisasi masalah dari artikel ini akan berfungsi sebagai dasar yang berguna untuk perencanaan metodologis tersebut. Kami berusaha untuk memastikan bahwa di masa depan sistem AI tidak hanya akan bekerja berdasarkan prinsip "semoga aman", tetapi benar-benar andal dan aman diverifikasi, karena kami membangunnya seperti itu!

Kami menantikan untuk melanjutkan kemajuan yang menggembirakan di bidang-bidang ini, dalam kerja sama erat dengan komunitas penelitian AI yang lebih luas, dan mendorong orang-orang dari berbagai disiplin ilmu untuk mempertimbangkan berkontribusi dalam penelitian keamanan AI.

Sumber daya

Untuk membaca tentang topik ini, di bawah ini adalah pilihan artikel lain, program, dan taksonomi yang telah membantu kami menyusun kategorisasi kami atau memberikan tampilan alternatif yang berguna pada masalah keamanan teknis AI:

Daftar pustaka beranotasi dari bahan-bahan yang direkomendasikan (Center for Human-Compatible AI, 2018)
Keselamatan dan Kontrol untuk Kecerdasan Umum Buatan (UC Berkeley, 2018)
Sumber Daya Keamanan AI (Victoria Krakovna, 2018)
Tinjauan Literatur Keselamatan AGI (Everitt et al., 2018)
Bersiap untuk Penggunaan Berbahaya AI (2018)
Spesifikasi contoh game dalam AI (Victoria Krakovna, 2018)
Petunjuk dan desiderata untuk penyelarasan AI (Paul Christiano, 2017)
Pendanaan untuk Alignment Research (Paul Christiano, 2017)
Yayasan Agen untuk Menyelaraskan Kecerdasan Mesin dengan Kepentingan Manusia: Agenda Penelitian Teknis (Machine Intelligence Research Institute, 2017)
AI Safety Gridworlds (Leike et al., 2017)
Interaksi antara Masalah Kontrol AI dan Masalah Tata Kelola (Nick Bostrom, 2017)
Penyelarasan untuk Sistem Pembelajaran Mesin Tingkat Lanjut (Machine Intelligence Research Institute, 2017)
Keamanan AI: tiga masalah manusia dan satu masalah AI (Stuart Armstrong, 2017)
Masalah nyata dalam Keamanan AI (Dario Amodei et al, 2016)
Masalah Pembelajaran Nilai (Machine Intelligence Research Institute, 2016)
Survei pertanyaan penelitian untuk AI yang kuat dan bermanfaat (Future of Life Institute, 2015)
Prioritas Penelitian untuk Intelegensi Buatan yang Kuat dan Bermanfaat (Future of Life Institute, 2015)

Membangun AI yang Aman: Spesifikasi, Keandalan, dan Jaminan