Halo, Habr! Saya mempersembahkan kepada Anda terjemahan artikel "Pembelajaran Mesin untuk Siapa Saja yang Mengambil Matematika di Kelas Delapan" oleh Kyle Gallatin.

Saya biasanya memperhatikan bahwa kecerdasan buatan dapat dijelaskan dalam satu dari dua cara: melalui prisma yang semakin sensasional dari berbagai media, atau melalui literatur ilmiah yang padat yang ditembus oleh bahasa yang berlebihan dan istilah-istilah khusus daerah.
Di antara hal-hal ekstrem ini, ada area yang kurang dipublikasikan di mana, saya pikir, sastra harus sedikit lebih aktif. Berita utama, seperti robot Sophia yang bodoh, membawa sensasi di sekitar kecerdasan buatan dan itu mungkin tampak seperti pikiran manusia, sementara dalam kenyataannya Sophia tidak lebih pintar dari SmarterChild AOL Instant Messenger.
Literatur ilmiah bisa menjadi lebih buruk, bahkan memaksa peneliti yang paling canggih untuk menutup matanya setelah beberapa paragraf sampah pseudo-intelektual yang tidak berarti. Untuk mengevaluasi AI dengan benar, orang umumnya harus memahami apa itu sebenarnya. Dan yang Anda butuhkan untuk memahami dasar-dasar kecerdasan buatan adalah sedikit matematika SMA.
Saya mungkin cenderung terlalu menyederhanakan - dan saya akan meminta semua kolega saya dalam matematika, ilmu data dan teknik untuk mentolerir penjelasan saya - kadang-kadang inilah yang dibutuhkan oleh ilmu pengetahuan seni.
Dasar-dasar Kecerdasan Buatan dan Pembelajaran Mesin
Kecerdasan buatan klasik yang khas adalah yang meniru kecerdasan manusia. Itu bisa apa saja, mulai dari bot video game hingga platform rumit seperti Deepmind Alphago .

Abaikan Pembelajaran Jauh - dalam konteks ini, sama dengan pembelajaran mesin. Gambar: Dunia Geospasial
Pembelajaran mesin adalah bagian dari kecerdasan buatan. Ini memungkinkan mesin untuk "belajar" dari data nyata alih-alih bertindak berdasarkan seperangkat aturan yang telah ditentukan.
Tapi apa artinya belajar? Mungkin tidak se futuristik seperti yang terlihat.
Penjelasan favorit saya: pembelajaran mesin itu adil di celah. Jika Anda menonton sesuatu seperti Black Mirror , sangat mudah untuk mulai membayangkan kecerdasan buatan modern sebagai makhluk sadar - sesuatu yang berpikir, merasakan, dan membuat keputusan yang sulit. Ini bahkan lebih umum di media, di mana AI dipersonifikasikan secara berurutan dan kemudian dibandingkan dengan Skynet dari Terminator, atau film The Matrix.
Faktanya, ini tidak benar sama sekali. Dalam kondisi saat ini, kecerdasan buatan hanyalah matematika. Terkadang itu adalah matematika yang rumit, dan kadang-kadang membutuhkan pengetahuan yang mendalam di bidang ilmu komputer, statistik, dan lainnya. Tetapi pada akhirnya, AI modern pada intinya hanyalah fungsi matematika.
Jangan khawatir jika Anda bukan teman dengan fungsi matematika karena Anda tidak ingat atau menggunakannya. Untuk mendapatkan intinya, kita perlu mengingat beberapa hal sederhana: ada input ( ) dan ada jalan keluar ( ), dan fungsinya adalah apa yang terjadi antara input dan output - koneksi di antara mereka.
Kita dapat membuat komputer melihat kotak masuk ( ) dan keluar ( ) data dan mencari tahu apa yang mengikat mereka bersama.
Contoh kecerdasan buatan yang disederhanakan adalah fungsi yang dinyatakan sebagai . Kita sudah tahu dan (dari tabel di bawah); kita hanya perlu mencari dan untuk memahami apa hubungan antara dan .
Tabel: Kyle Gallatin
Untuk mendapatkan templat ini dari kita perlu memperbanyak diri pada 1 ( ) dan tambahkan 1 ( ) Jadi fungsi akan keluar .
Hebat! Kami telah menentukan itu dan . Kami hanya mengambil beberapa data (dari tabel di atas) dan membuat fungsi yang menggambarkannya. Intinya, ini adalah pembelajaran mesin. Sekarang, dengan menggunakan fungsi yang diperoleh, kita dapat membuat asumsi tentang apa yang akan sama untuk data input lainnya .
Bagian yang menarik adalah bagaimana Anda mengajar mesin untuk menemukan fungsi mana yang paling menggambarkan data, tetapi ketika Anda selesai dengan itu, apa yang Anda dapatkan biasanya beberapa bentuk . Setelah kami mendapatkan fungsi ini, kami juga dapat memplotnya pada grafik:

Cuplikan layar dari video Tecmath
Untuk penjelasan fungsi yang lebih terperinci, Math Is Fun memiliki situs yang intuitif dan sederhana (bahkan jika nama tersebut berpotensi menjadi bendera merah untuk Anda, dan situs tersebut terlihat seperti perancang web mereka yang melarikan diri sekitar awal tahun 2000-an).
Orang tidak akan bisa menghitung, mobil akan bisa
Jelas sekali Merupakan contoh yang sangat sederhana. Satu-satunya alasan pembelajaran mesin ada adalah karena orang tidak dapat melihat jutaan titik data masuk dan keluar dan menghasilkan fungsi kompleks untuk menggambarkan hasil. Sebaliknya, kita dapat melatih komputer untuk melakukan ini untuk kita.
Bagaimanapun, harus ada cukup data untuk menemukan fungsi yang tepat. Jika kita hanya memiliki satu titik data untuk dan , baik kami maupun mesin tidak dapat memprediksi hanya satu fungsi yang tepat. Dalam contoh aslinya, di mana dan fungsi mungkin , , atau banyak lainnya. Jika kami tidak memiliki cukup data, fungsi yang ditemukan mesin dapat menyebabkan banyak kesalahan saat kami mencoba menggunakannya untuk lebih banyak data.
Selain itu, data nyata tidak selalu begitu sempurna. Dalam contoh di bawah ini, mesin telah mengidentifikasi beberapa fungsi yang sesuai dengan sebagian besar data, tetapi garis tidak melewati setiap titik. Berbeda dengan contoh sebelumnya dengan tabel dari kelas matematika, data yang dikumpulkan dari dunia nyata lebih tidak dapat diprediksi dan tidak pernah dapat sepenuhnya dijelaskan.

Contoh dasar ini menunjukkan bagaimana mesin belajar mendeskripsikan data yang disajikan. Gambar: Menuju Ilmu Data
Akhirnya, hal terakhir yang tidak bisa dilakukan orang adalah melihat banyak variabel. Itu hanya menggunakan dan tetapi bagaimana jika ada lebih banyak variabel input? Bagaimana jika mempengaruhi , ... . Sangat cepat, fungsi bisa menjadi lebih kompleks (untuk orang-orang).
Pembelajaran mesin dunia nyata dan kecerdasan buatan
Mari kita lihat contoh nyata. Saya bekerja di bidang obat-obatan, jadi anggaplah kita memiliki kumpulan data terkait kanker yang memiliki dua variabel input yang sesuai dengan ukuran tumor - radius dan perimeter, dan output, dengan dua nilai yang mungkin: apakah tumornya jinak atau metastasis (berpotensi berbahaya) seumur hidup). Ini mungkin terlihat rumit, tetapi kita hanya perlu menerapkan konsep yang sudah dikenal :
- adalah diagnosis, dan mungkin 0 (jinak) atau 1 (metastasis).
- - radius.
- - perimeter.
- Masing-masing punya yang tidak diketahui ; sebut saja mereka dan .
- - konstanta yang tidak diketahui.
Seperti apa persamaan linear kita sekarang? Tidak jauh berbeda dengan contoh di atas:
Seperti yang saya jelaskan di atas, kita bergerak melampaui ruang lingkup kemungkinan manusia. Jadi, alih-alih melihat data dan mencoba mencari tahu apa yang harus kita kalikan dengan variabel kita, kita menggunakan mesin. Mereka akan melakukannya untuk kita, dan kita akan mendapatkan penilaian diagnosis yang akurat. Dan ini pembelajaran mesin!
Tentu saja, bahkan data multi-faktor yang paling terperinci pun tidak ideal, jadi model pembelajaran mesin kami juga tidak akan seperti itu. Tapi kita tidak perlu mereka benar dalam 100% kasus. Kami hanya membutuhkan mereka untuk menghasilkan fungsi terbaik, yang cocok untuk sebagian besar kasus.
Bagian ini hanya menggores permukaan matematika dan ilmu komputer yang luar biasa yang masuk ke pembelajaran mesin. Tetapi bahkan pada tingkat yang kompleks, konsepnya sama. Tidak peduli seberapa mengesankan atau aneh pembelajaran mesin dan kecerdasan buatan, semua itu berasal dari fungsi yang dipelajari mesin untuk menggambarkan data dengan paling baik.