Hukum fisika tidak berubah dari perubahan sudut pandang. Namun, ide ini membantu komputer mengenali fitur-fitur tertentu dalam ruang melengkung dimensi yang lebih tinggi.

Komputer belajar mengendarai mobil, mengalahkan juara dunia di permainan papan, dan bahkan menulis prosa. Untuk sebagian besar, revolusi AI didasarkan pada kemampuan satu jenis jaringan saraf tiruan, skema yang terinspirasi oleh lapisan neuron yang saling berhubungan di korteks visual otak mamalia. Yang disebut "jaringan saraf convolutional" (SNA) ternyata sangat cocok untuk menemukan pola dalam data dua dimensi - terutama dalam tugas-tugas penglihatan komputer seperti mengenali kata-kata atau objek tulisan tangan dalam gambar digital.
Tetapi ketika diterapkan pada dataset yang tidak dapat direduksi menjadi geometri di pesawat - misalnya, untuk model berbentuk tidak teratur yang digunakan dalam animasi komputer 3D, untuk menunjukkan awan yang dihasilkan oleh robomobiles untuk menandai dunia di sekitar mereka - arsitektur pembelajaran mesin (MO) yang efisien ini tidak lagi bekerja dengan sangat baik. Pada 2016, sebuah disiplin baru, geometric deep learning (GGO), muncul, yang tujuannya adalah untuk membawa SNA keluar dari pesawat.
Sekarang, para peneliti telah mencapai tujuan mereka dengan mengembangkan platform teoretis baru untuk membangun NS yang mampu menemukan pola pada permukaan geometris apa pun. Jaringan saraf konvolusional pengukur-ekuivalen ini dikembangkan di Universitas Amsterdam dan laboratorium riset Qualcomm AI dengan partisipasi peneliti seperti
Taco Cohen ,
Maurice Weiler ,
Berkai Kitsanoglu dan
Max Welling . ESNS dapat menemukan pola tidak hanya dalam susunan piksel dua dimensi, tetapi juga pada bidang dan objek melengkung asimetris. “Platform ini adalah jawaban pasti terhadap tantangan yang ditimbulkan oleh masalah pembelajaran mendalam pada permukaan melengkung,” kata Welling.
KESNS telah secara serius mengambil alih pendahulunya dalam mendeteksi pola-pola dalam simulasi iklim global, yang secara alami dilakukan di lingkup tersebut. Algoritma juga dapat berguna untuk meningkatkan penglihatan drone dan robomobiles yang melihat objek tiga dimensi, dan untuk mendeteksi pola dalam data yang dikumpulkan dari permukaan melengkung dari bentuk jantung, otak, atau organ lain yang tidak beraturan.
Taco Cohen, salah satu arsitek CECNS terkemukaSolusi untuk masalah GO yang ditemukan oleh para peneliti di luar pesawat memiliki hubungan yang dalam dengan fisika. Teori-teori fisik yang menggambarkan dunia, seperti teori relativitas umum Albert Einstein atau Model Standar dalam fisika, memiliki sifat "tolak ukur". Ini berarti bahwa besarnya dunia dan hubungannya tidak tergantung pada sistem referensi yang sewenang-wenang (atau "kalibrasi"); mereka tetap tidak berubah terlepas dari apakah pengamat bergerak atau beristirahat, atau jarak antara angka pada penguasa. Pengukuran yang dilakukan dengan cara yang berbeda harus dikonversi satu sama lain untuk menjaga interkoneksi antar benda.
Misalnya, jika kita mengukur panjang lapangan sepakbola dalam yard, dan kemudian dalam meter, kita akan mendapatkan angka yang berbeda, tetapi perbedaannya akan dapat diprediksi. Dua fotografer yang mengambil gambar suatu objek dari dua titik berbeda akan menerima gambar yang berbeda, tetapi mereka dapat saling terhubung. Mengukur kesetaraan memastikan konsistensi model fisik terlepas dari sudut pandang atau unit pengukuran. KESNS menerima asumsi yang sama tentang data.
"Mereka ingin membawa gagasan fisika ke jaringan saraf - ketika tidak ada area tertentu," kata
Kyle Kranmer , seorang ahli fisika di New York University yang menerapkan MO untuk fisika partikel. "Dan mereka menemukan cara untuk melakukannya."
Pelarian pesawat
Pada 2015,
Michael Bronstein , seorang spesialis ilmu komputer di Imperial College London, menciptakan istilah "pembelajaran mendalam geometris" untuk menggambarkan upaya pertama yang dilakukan kemudian untuk menjauh dari pesawat dan mengembangkan NS yang mampu mencari pola dalam data 3D. Segera istilah ini - dan penelitian -
berakar .
Bronstein dan rekan-rekannya tahu bahwa melampaui bidang Euclidean akan memerlukan penemuan kembali salah satu prosedur komputasi dasar yang membuat NS sangat efektif dalam mengenali gambar dua dimensi. Prosedur ini, yang disebut "Konvolusi" memungkinkan lapisan NS untuk melakukan operasi matematika pada bagian kecil dari data input, dan kemudian mentransfer hasilnya ke lapisan jaringan berikutnya.
"Anda bisa membayangkan paket itu sebagai jendela geser," jelas Bronstein. SNA memindahkan banyak jendela filter seperti itu menurut data, dan masing-masing mencari pola tertentu. Dalam hal foto kucing, SNA terlatih dapat menggunakan filter yang mengenali tanda tingkat rendah dalam piksel, seperti wajah. Tanda-tanda ini ditransmisikan ke lapisan jaringan berikutnya, dan mereka melakukan konvolusi tambahan, memilih tanda-tanda tingkat yang lebih tinggi - seperti mata, ekor atau telinga segitiga. Akibatnya, SNS yang dilatih untuk mengenali kucing menggunakan hasil konvolusi lapis demi lapis ini untuk menandai apakah ada kucing di foto atau tidak.
Seperti yang dilihat SNS:
- Filter yang mengenali tanda bergerak di sepanjang gambar yang masuk, dan tingkat kebetulan dengan setiap filter di setiap posisi direkam, yang memberikan peta tanda.
- Setelah diproses, kartu fitur kembali berbelit-belit, sudah menggunakan filter yang dikonfigurasikan untuk fitur tingkat yang lebih tinggi.
- Akibatnya, jaringan belajar mengenali dan mengklasifikasikan gambar dengan benar.
Namun, pendekatan ini hanya bekerja di pesawat. "Ketika pesawat yang Anda perlu analisis terdistorsi, Anda memiliki masalah," kata Welling.
Menggabungkan pada permukaan melengkung - dalam geometri ini disebut
manifold topologi - sama dengan menekan selembar kertas grafik ke dunia, mencoba untuk secara akurat memindahkan kontur pantai Greenland ke atasnya. Anda tidak dapat memeras kertas ke Greenland tanpa menghancurkannya, yang berarti bahwa gambar Anda akan terdistorsi saat Anda menghaluskannya lagi. Anda dapat menyandarkan kertas pada globe pada satu titik, dan menggambar kontur, melihat mereka melalui kertas (teknik ini dikenal sebagai
proyeksi Mercator ), tetapi distorsi akan diperoleh dalam kasus ini juga. Anda dapat melampirkan kertas grafik ke peta dunia yang datar, bukan bola dunia, tetapi kemudian Anda cukup menyalin distorsi - misalnya, pikirkan fakta bahwa seluruh tepi atas peta sebenarnya berarti satu-satunya titik di dunia, Kutub Utara. Dan jika varietas itu ternyata bukan bola yang rapi seperti bola dunia, tetapi sesuatu yang lebih kompleks dan salah, seperti bentuk botol tiga dimensi, atau protein yang diletakkan, maka akan semakin sulit untuk memutarnya.
Bronstein dan rekannya
menemukan satu solusi untuk masalah konvolusi pada manifold non-Euclidean pada tahun 2015. Mereka mengganti struktur geser jendela dengan struktur yang lebih mirip jaring bundar daripada selembar kertas grafik - dapat bersandar pada bola mata (atau permukaan melengkung apa pun) tanpa kusut, tanpa sobek dan tanpa peregangan.
Mengubah sifat-sifat filter geser menguntungkan mempengaruhi pemahaman SNA dari hubungan geometris tertentu. Misalnya, jaringan dapat secara otomatis memahami bahwa sosok tiga dimensi, melengkung dengan cara yang berbeda - misalnya, seseorang yang berdiri tegak, dan seseorang yang mengangkat satu kaki - adalah satu dan objek yang sama, dan bukan dua yang sepenuhnya berbeda. Juga, perubahan ini secara dramatis meningkatkan kinerja Majelis Nasional. SNS standar "menggunakan jutaan contoh angka, mereka perlu dilatih selama berminggu-minggu," kata Bronstein. "Kami menggunakan sekitar 100 angka dalam berbagai pose dan melatih jaringan selama sekitar setengah jam."
Pada saat yang sama, Taco Cohen dan rekan-rekannya dari Amsterdam mulai mendekati masalah ini dari sisi yang berlawanan. Pada 2015, Cohen, yang waktu itu adalah mahasiswa pascasarjana, tidak mempelajari masalah pelarian diri dari pesawat. Dia tertarik pada masalah teknis yang praktis, seperti yang dia pikirkan: efisiensi data, yaitu pertanyaan tentang bagaimana melatih NS menggunakan lebih sedikit contoh, daripada ribuan atau jutaan yang biasanya diperlukan untuk ini. “Pembelajaran yang dalam sangat lambat,” kata Cohen. Ini tidak menimbulkan masalah khusus jika Anda melatih SNS untuk mengenali kucing (mengingat persediaan gambar kucing yang tidak ada habisnya di Internet). Tetapi jika Anda mengajar SNA untuk mengenali sesuatu yang lebih penting, seperti tumor kanker dalam gambar jaringan paru-paru, maka menemukan jumlah data pelatihan yang cukup - akurat secara medis, diberi label dengan benar, dan bebas dari hak cipta - cukup sulit. Dan semakin sedikit contoh yang dibutuhkan untuk melatih jaringan, semakin baik.
Cohen tahu bahwa salah satu cara untuk meningkatkan keefektifan data adalah memberi NS gagasan tentang data ini sebelumnya, misalnya, bahwa kanker paru-paru tidak berhenti menjadi tumor jika gambarnya diputar atau dicerminkan. Jaringan konvolusi biasanya perlu mempelajari informasi tersebut dari awal, mempelajari banyak contoh dari pola yang sama, disajikan dalam berbagai bentuk. Pada tahun 2016, Cohen dan Welling bekerja bersama pada sebuah
artikel yang menjelaskan cara menyandikan beberapa asumsi ini ke NS dalam bentuk simetri geometris. Pendekatan semacam itu bekerja sangat baik sehingga pada 2018, Cohen dan Maricia Winkles merangkumnya lebih dalam lagi,
menunjukkan hasil yang menjanjikan dalam pengenalan kanker paru-paru pada gambar CT. NS mereka mampu menemukan bukti visual dari keberadaan penyakit hanya menggunakan sepersepuluh dari data dari mana jaringan saraf lainnya dilatih.
Para peneliti dari Amsterdam melanjutkan generalisasi mereka, dan akhirnya datang untuk mengukur kesetaraan.
Memperluas Persamaan
Pembelajaran fisika dan mesin memiliki sesuatu yang sama. Menurut Cohen, "kedua area sibuk mengamati dan membangun model yang memprediksi hasil pengamatan selanjutnya." Yang penting, katanya, adalah bahwa kedua area membangun model dari hal-hal yang tidak terpisah (hampir tidak berguna untuk memiliki satu deskripsi untuk atom hidrogen, dan yang kedua untuk atom yang sama, hanya terbalik), tetapi dari kategori umum. "Dan fisika, tentu saja, telah membuat langkah besar dalam hal ini."
Kesetaraan
Kesetaraan (atau "kovarians," seperti yang disukai fisikawan) adalah asumsi bahwa fisikawan telah mengandalkan dalam menggeneralisasi model mereka sejak Einstein. "Itu hanya berarti bahwa jika Anda menggambarkan dengan benar beberapa jenis fisika, maka deskripsi ini harus terlepas dari 'penguasa' seperti apa yang Anda gunakan, atau, secara umum, seperti apa pengamat Anda," jelas
Miranda Chen , seorang ahli fisika teoretis dari University of Amsterdam, yang menulis dengan Cohen dan ilmuwan lain
sebuah artikel tentang studi hubungan antara fisika dan KESNS. Seperti Einstein sendiri tulis pada tahun 1916: "Hukum umum tentang alam harus diungkapkan dengan persamaan yang bekerja di semua sistem koordinat."
Miranda Chen, seorang ahli fisika teori dari Universitas AmsterdamJaringan saraf convolutional telah menjadi salah satu metode yang paling berhasil dalam pertahanan sipil karena penggunaan contoh sederhana dari prinsip semacam itu, "transfer equivariance". Jendela filter yang mengenali fitur tertentu dalam gambar - misalnya, wajah vertikal - slide (atau "membungkus") di sepanjang bidang piksel dan merekam semua tempat di mana wajah vertikal tersebut berada; kemudian ia menciptakan "peta fitur", menandai tempat-tempat ini, dan meneruskannya ke tingkat berikutnya dari jaringan. Pembuatan peta fitur diperoleh karena kesetaraan transfer: jaringan saraf mengasumsikan bahwa fitur yang sama dapat muncul di mana saja di bidang dua dimensi, dan dapat mengenali wajah vertikal, berada di sudut kanan atas atau kiri bawah.
"Inti dari NS yang samar adalah mengambil simetri yang jelas ini dan memasukkannya ke dalam arsitektur jaringan sehingga properti ini bekerja seolah-olah gratis," kata Weiler.
Pada 2018, Weiler, Cohen, dan penyelia mereka, Max Welling, telah memperluas "aksi bebas" ini untuk memasukkan jenis-jenis kesetaraan lainnya. “SNA yang setara dengan kelompok” mereka dapat mengenali fitur yang diputar atau tercermin dalam gambar datar tanpa perlu belajar dari variasi spesifik dari fitur ini; SNA bola dapat membuat peta fitur berdasarkan data yang terletak di permukaan bola tanpa mendistorsi mereka ketika diubah menjadi proyeksi datar.
Pendekatan ini masih belum cukup universal untuk bekerja dengan data pada struktur kental berbentuk tidak teratur - yaitu, pada hampir semua objek di dunia nyata, dari kentang ke protein, dari tubuh manusia ke kelengkungan ruang-waktu. Manifol seperti itu tidak memiliki simetri "global", yang dengannya Majelis Nasional dapat membuat asumsi yang sama: setiap bagian mereka berbeda dari yang lain.
Melipat pada permukaan melengkung di mana SNA standar tidak berfungsi. Filter dengan deteksi tepi yang meluncur di sepanjang permukaan seperti itu, tergantung pada lintasannya, dapat mengambil orientasi yang berbeda dan menghasilkan peta fitur yang berbeda.Masalahnya adalah bahwa menggeser filter datar di atas permukaan dapat mengubah orientasinya, tergantung pada jalur tertentu. Bayangkan filter yang dikonfigurasi untuk mengenali pola sederhana: titik gelap di sebelah kiri dan titik terang di sebelah kanan. Pindahkan pada permukaan yang datar di keempat arah, dan akan selalu berorientasi dengan cara yang sama. Tetapi situasinya berubah bahkan di permukaan bola. Jika Anda memegang filter 180 derajat di sepanjang khatulistiwa bola, orientasinya akan tetap - titik gelap di sebelah kiri, titik terang di sebelah kanan. Namun, jika Anda menariknya ke titik yang sama melalui kutub utara bola, filter akan terbalik. Dia tidak akan menemukan pola yang sama dalam data, tidak akan menghasilkan peta tanda yang sama. Pindahkan filter ke varietas yang lebih kompleks, dan pada akhirnya akan dapat menunjuk ke arah mana pun.
Intinya, Welling menjelaskan, adalah untuk melupakan pelacakan perubahan dalam orientasi filter ketika bergerak di sepanjang jalur yang berbeda. Sebagai gantinya, Anda dapat memilih hanya satu orientasi (atau kalibrasi) filter, dan kemudian menentukan cara yang konsisten untuk mengubah orientasi lain ke dalamnya.
Masalahnya adalah bahwa meskipun kalibrasi apa pun dapat digunakan dalam orientasi asli, konversi ke opsi lain harus mempertahankan pola asli - seperti mengubah kecepatan cahaya dari meter per detik ke mil per jam harus menjaga kuantitas fisik yang mendasarinya. Dengan pendekatan tolak ukur, Welling mengatakan, "angka-angka itu sendiri berubah, tetapi mereka berubah sepenuhnya dapat diprediksi."
Soen, Weiler, dan Welling menyandikan pengukur kesetaraan - "makan siang gratis" yang sama - untuk SNA mereka pada 2019. Untuk melakukan ini, mereka memberlakukan batasan matematis pada apa yang NS dapat “lihat” dalam data saat menggunakan konvolusi; hanya mengukur pola equivarian yang melewati lapisan jaringan. "Faktanya, Anda bisa memberikan permukaan apa pun," dari pesawat Euclidean ke benda melengkung sewenang-wenang, termasuk varietas eksotis seperti
botol Klein atau ruang-waktu empat dimensi, "dan itu akan mengatasi GO pada permukaan ini," kata Veling.
Teori kerja
Teori KESNS sangat digeneralisasikan sehingga secara otomatis memasukkan asumsi dari pendekatan geometrik sebelumnya ke GO - misalnya, rotational equivariance atau filter bergerak di seluruh bidang. Ini bahkan cocok dengan metode awal Michael Bronstein, yang memungkinkan NS untuk mengenali satu sosok tiga dimensi, melengkung dengan cara yang berbeda. “Gauge equivariance adalah platform yang sangat luas. Sebagai kasus khusus, ini termasuk apa yang kami lakukan pada 2015, ”kata Bronstein.
Secara teoritis KESNS bekerja pada permukaan melengkung dari dimensi apa pun, tetapi Cohen dan rekan penulisnya memeriksanya pada data iklim global, struktur yang berbentuk bulat. Mereka menggunakan platform mereka untuk membuat SNA yang mengenali pola cuaca ekstrem, seperti siklon tropis, berdasarkan data simulasi iklim. Pada 2017, pemerintah dan ilmuwan
menggunakan SNA standar untuk menentukan keberadaan siklon dalam data ini dengan akurasi 74%; Tahun lalu, KESNS
mengenali topan dengan akurasi 97,9% (juga menyalip pendekatan yang kurang umum untuk GO, yang dikembangkan khusus untuk bola pada 2018 - hasil untuk sistem itu adalah 94%).
Maiyur Mudigonda, seorang ahli iklim di Laboratorium Nasional Lawrence Berkeley, yang menggunakan pertahanan sipil dalam pekerjaannya, mengatakan ia akan terus memantau perkembangan CESNS. “Aspek kecerdasan manusia ini, pengakuan tanda yang benar terlepas dari orientasinya di luar angkasa, adalah apa yang ingin kita transfer ke komunitas iklim,” katanya. Perusahaan chip Qualcomm, yang baru-baru ini mempekerjakan Cohen dan Welling dan membeli startup yang mereka dirikan,
berencana untuk menerapkan teori KESNS pada pengembangan algoritma penglihatan komputer yang ditingkatkan, misalnya, drone yang dapat melihat semua 360 derajat sekaligus (seperti pandangan dunia seperti ikan eye ”secara alami dipetakan ke dalam ruang lingkup, seperti data iklim global).
Sementara itu, KESNS mendapatkan popularitas di kalangan fisikawan - misalnya, Kranmer berencana untuk membuatnya bekerja dengan data yang mensimulasikan interaksi partikel subatomik.
"Kami sedang menganalisis data terkait interaksi nuklir kuat, berusaha memahami apa yang terjadi di dalam proton," kata Kranmer. Dia mengatakan bahwa data empat dimensi, "oleh karena itu, kami memiliki opsi yang ideal untuk menggunakan NSs dengan gauge equivariance."Rizi Condor, mantan fisikawan yang sekarang mempelajari KESNS, mengatakan bahwa aplikasi ilmiah potensial dari jaringan semacam itu jauh lebih penting daripada penggunaannya dalam AI. "Jika Anda mengenali kucing di YouTube dan mendapati diri Anda mengenali kucing dengan terbalik, itu tidak baik, tapi mungkin tidak mematikan," katanya. Namun, sangat penting bagi fisikawan bahwa jaringan tidak mengenali bidang atau lintasan partikel secara tidak benar karena cara mereka berorientasi. "Ini bukan masalah kenyamanan," kata Condor, "sangat penting untuk menghormati simetri yang ada."Namun, meskipun inspirasi untuk penciptaan KESNS adalah matematika, yang berasal dari fisika, dan mereka dapat bermanfaat bagi fisikawan, Cohen mencatat bahwa NS ini tidak dapat menemukan fisika baru sendiri. "Kami sekarang dapat membuat jaringan yang mampu memproses data yang sangat eksotis, tetapi struktur data ini perlu diketahui sebelumnya," katanya. Dengan kata lain, fisikawan dapat menggunakan KESNS karena Einstein telah membuktikan bahwa ruang-waktu dapat direpresentasikan sebagai lipatan melengkung empat dimensi. Majelis Nasional Cohen tidak dapat "menemukan" struktur ini sendiri. "Kami tidak mencari informasi tentang simetri," katanya, meskipun ia berharap hal ini mungkin terjadi di masa depan.Cohen tidak bisa bersukacita pada koneksi antara berbagai bidang, yang sebelumnya hanya dia bayangkan, dan sekarang telah menunjukkan dengan ketelitian matematika. "Saya selalu merasa bahwa pembelajaran mesin dan fisika melakukan sesuatu yang sangat mirip," katanya. “Ini adalah salah satu keajaiban yang membuat saya kagum: kami mulai dengan masalah teknik, dan ketika kami memperbaiki sistem, kami menemukan semakin banyak koneksi.”