Phoebe Wong, seorang Ilmuwan dan CFO di Equal Citizens, berbicara tentang konflik budaya dalam sains kognitif. Elena Kuzmina menerjemahkan artikel itu ke dalam bahasa Rusia.
Beberapa tahun yang lalu saya menyaksikan diskusi tentang pemrosesan bahasa alami. "Bapak linguistik modern"
Noam Chomsky dan juru bicara penjaga baru
Peter Norvig , direktur penelitian di Google, berbicara.
Chomsky merenungkan ke arah mana proses pemrosesan bahasa alami bergerak, dan
berkata :
Misalkan seseorang akan melikuidasi departemen fisika dan ingin melakukannya sesuai aturan. Menurut aturan, ini adalah untuk mengambil video dalam jumlah tak terbatas tentang apa yang terjadi di dunia, memberi makan gigabyte data ini ke komputer terbesar dan tercepat dan melakukan analisis statistik yang rumit - well, Anda mengerti: Bayesian "bolak-balik" * - dan Anda akan mendapatkan ramalan tertentu tentang apa yang akan terjadi di luar jendela Anda. Bahkan, Anda akan mendapatkan perkiraan yang lebih baik daripada yang diberikan oleh Fakultas Fisika. Nah, jika kesuksesan ditentukan oleh seberapa dekat Anda dengan massa data mentah yang kacau, maka lebih baik melakukannya daripada cara fisikawan: tidak ada eksperimen pemikiran pada permukaan ideal, dan sebagainya. Tetapi Anda tidak akan mendapatkan jenis pemahaman yang selalu dicari sains. Apa yang Anda dapatkan hanyalah gagasan kasar tentang apa yang terjadi dalam kenyataan.
* Dari Bayes Probabilitas - interpretasi konsep probabilitas, di mana, alih-alih frekuensi atau kecenderungan untuk beberapa fenomena, probabilitas ditafsirkan sebagai harapan yang masuk akal, mewakili penilaian kuantitatif keyakinan pribadi atau keadaan pengetahuan. Peneliti kecerdasan buatan menggunakan statistik Bayesian dalam pembelajaran mesin untuk membantu komputer mengenali pola dan membuat keputusan berdasarkan pada mereka.
Berulang-ulang Chomsky menekankan ide ini: keberhasilan hari ini dalam memproses bahasa alami, yaitu ketepatan peramalan, bukanlah ilmu. Menurutnya, melempar sejumlah besar teks ke dalam "mesin kompleks" hanya mendekati data mentah atau mengumpulkan serangga, itu tidak akan mengarah pada pemahaman bahasa yang sebenarnya.
Menurut Chomsky, tujuan utama ilmu pengetahuan adalah untuk menemukan prinsip-prinsip penjelas tentang bagaimana sistem sebenarnya bekerja, dan pendekatan yang tepat untuk mencapai tujuan ini adalah dengan membiarkan teori mengarahkan data. Penting untuk mempelajari sifat dasar sistem dengan mengabstraksi dari "inklusi yang tidak relevan" dengan bantuan eksperimen yang dirancang dengan hati-hati, yaitu, dengan cara yang sama seperti yang diterima dalam sains sejak zaman Galileo.
Dalam kata-katanya:
Upaya sederhana untuk menangani data kacau mentah tidak akan membawa Anda ke mana pun, seperti halnya Galileo tidak akan memimpin di mana pun.
Selanjutnya, Norwig menanggapi klaim Chomsky dalam
esai yang panjang . Norvig mencatat bahwa di hampir semua bidang penerapan pemrosesan bahasa: mesin pencari, pengenalan ucapan, terjemahan mesin dan menjawab pertanyaan, model probabilistik terlatih menang karena mereka bekerja jauh lebih baik daripada alat-alat lama berdasarkan aturan teoritis atau logis. Dia mengatakan bahwa kriteria keberhasilan Chomsky dalam sains - penekanan pada pertanyaan "mengapa" dan pernyataan tentang pentingnya "bagaimana" - adalah salah.
Mengonfirmasi posisinya, ia mengutip Richard Feynman: "Fisika dapat berkembang tanpa bukti, tetapi kita tidak dapat berkembang tanpa fakta." Norwig ingat bahwa model probabilistik menghasilkan beberapa triliun dolar setahun, sementara keturunan teori Chomsky berpenghasilan jauh lebih sedikit dari satu miliar, mengutip buku-buku Chomsky yang dijual di Amazon.
Norwig menyarankan bahwa penghinaan Chomsky untuk "Bayesian bolak-balik" adalah karena perpecahan antara
dua budaya dalam pemodelan statistik yang dijelaskan oleh Leo Breiman:
- Budaya pemodelan data yang mengasumsikan bahwa alam adalah kotak hitam di mana variabel dihubungkan secara stokastik. Pekerjaan para ahli pemodelan adalah untuk menentukan model yang paling sesuai dengan asosiasi yang mendasari itu.
- Budaya pemodelan algoritmik menyiratkan bahwa asosiasi dalam kotak hitam terlalu rumit untuk dijelaskan menggunakan model sederhana. Pekerjaan pengembang model adalah memilih algoritma yang paling baik mengevaluasi hasil menggunakan variabel input, tanpa mengharapkan asosiasi dasar sebenarnya dari variabel di dalam kotak hitam dapat dipahami.
Norvig menyarankan bahwa Chomsky tidak begitu berpolemik dengan model probabilistik seperti itu, tetapi lebih tidak menerima model algoritmik dengan "parameter kuadriliun": mereka tidak mudah ditafsirkan dan oleh karena itu mereka tidak berguna untuk menyelesaikan pertanyaan "mengapa".
Norwig dan Breiman termasuk dalam kelompok lain - mereka percaya bahwa sistem seperti bahasa terlalu rumit, acak, dan sewenang-wenang untuk diwakili oleh seperangkat parameter kecil. Dan abstrak dari kesulitan mirip dengan membuat alat mistis disetel ke area permanen tertentu yang tidak benar-benar ada, dan karena itu pertanyaan tentang apa bahasa itu dan bagaimana cara kerjanya dilewatkan.
Norwig menegaskan kembali tesisnya di
artikel lain , di mana dia berpendapat bahwa kita harus berhenti bertindak seperti tujuan kita adalah menciptakan teori yang sangat elegan. Sebagai gantinya, Anda perlu menerima kompleksitas dan menggunakan sekutu terbaik kami - efisiensi data yang tidak masuk akal. Dia menunjukkan bahwa dalam pengenalan suara, terjemahan mesin, dan hampir semua aplikasi pembelajaran mesin untuk data web, model sederhana seperti model n-gram atau pengklasifikasi linier berdasarkan jutaan fungsi spesifik bekerja lebih baik daripada model kompleks. yang berusaha menemukan aturan umum.
Apa yang paling menarik bagi saya dalam diskusi ini bukanlah apa yang Chomsky dan Norvig tidak setujui, tetapi apa yang mereka satukan. Mereka setuju bahwa menganalisis sejumlah besar data menggunakan metode pembelajaran statistik tanpa memahami variabel memberikan prediksi yang lebih baik daripada pendekatan teoritis yang mencoba memodelkan bagaimana variabel terkait satu sama lain.
Dan saya bukan satu-satunya yang bingung dengan hal ini: banyak orang dengan latar belakang matematika yang saya ajak bicara juga menemukan hal yang bertentangan ini. Bukankah pendekatan yang paling cocok untuk memodelkan hubungan struktural dasar juga memiliki kekuatan prediksi terbesar? Atau bagaimana kita dapat secara akurat memprediksi sesuatu tanpa mengetahui bagaimana semuanya bekerja?
Prediksi Melawan Penyebab
Bahkan dalam bidang akademik, seperti ekonomi dan ilmu sosial lainnya, konsep kekuatan prediktif dan penjelas sering digabungkan satu sama lain.
Model yang menunjukkan kemampuan menjelaskan yang tinggi sering dianggap sangat prediktif. Tetapi pendekatan untuk membangun model prediksi terbaik sama sekali berbeda dari pendekatan untuk membangun model penjelasan terbaik, dan keputusan pemodelan sering kali mengarah pada kompromi antara dua tujuan. Perbedaan metodologis diilustrasikan dalam
Pengantar Pembelajaran Statistik (ISL).
Pemodelan prediktif
Prinsip dasar model prediksi relatif sederhana: mengevaluasi Y menggunakan satu set data input X yang tersedia. Jika kesalahan X adalah rata-rata nol, Y dapat diprediksi menggunakan:

di mana Ζ adalah informasi sistematis tentang Y yang disediakan oleh X, yang mengarah ke ΕΆ (prediksi Y) untuk X yang diberikan. Bentuk fungsional yang tepat biasanya tidak signifikan jika memprediksi Y, dan Ζ dianggap sebagai "kotak hitam".
Keakuratan model jenis ini dapat diuraikan menjadi dua bagian: kesalahan yang dapat direduksi dan kesalahan fatal:

Untuk meningkatkan akurasi peramalan model, perlu untuk meminimalkan kesalahan yang dapat direduksi, menggunakan metode pelatihan statistik yang paling cocok untuk estimasi untuk memperkirakan
Pemodelan output
Ζ tidak dapat dianggap sebagai "kotak hitam" jika tujuannya adalah untuk memahami hubungan antara X dan Y (bagaimana Y berubah sebagai fungsi X). Karena kita tidak dapat menentukan efek X pada Y tanpa mengetahui bentuk fungsional Ζ.
Hampir selalu ketika memodelkan kesimpulan, metode parametrik digunakan untuk memperkirakan Ζ. Kriteria parametrik mengacu pada bagaimana pendekatan ini menyederhanakan estimasi Ζ dengan mengambil bentuk parametrik Ζ dan mengevaluasi Ζ melalui parameter yang diusulkan. Ada dua langkah utama dalam pendekatan ini:
1. Buat asumsi tentang bentuk fungsional Ζ. Asumsi yang paling umum adalah bahwa Ζ linear dalam X:

2. Gunakan data agar sesuai dengan model, yaitu, temukan nilai parameter Ξ²β, Ξ²β, ..., Ξ²p sedemikian rupa sehingga:

Pendekatan pemasangan model yang paling umum adalah metode Least Squares (OLS).
Pertukaran antara fleksibilitas dan interpretabilitas
Anda mungkin sudah bertanya-tanya: bagaimana kita tahu bahwa Ζ linear? Bahkan, kita tidak akan tahu, karena bentuk sebenarnya Ζ tidak diketahui. Dan jika model yang dipilih terlalu jauh dari Ζ nyata, maka estimasi kami akan menjadi bias. Jadi mengapa kita ingin membuat asumsi seperti itu sejak awal? Karena ada kompromi yang melekat antara fleksibilitas model dan interpretabilitas.
Fleksibilitas mengacu pada berbagai bentuk yang dapat dibuat model agar sesuai dengan berbagai bentuk fungsional yang mungkin Ζ. Oleh karena itu, semakin fleksibel modelnya, semakin baik kemampuannya menciptakan, yang meningkatkan akurasi perkiraan. Tetapi model yang lebih fleksibel lebih kompleks dan membutuhkan lebih banyak parameter agar sesuai, dan perkiraan sering menjadi terlalu kompleks untuk diinterpretasikan oleh masing-masing peramal dan faktor prognostik.
Di sisi lain, parameter dalam model linier relatif sederhana dan dapat diinterpretasikan, bahkan jika tidak melakukan perkiraan yang akurat dengan baik. Berikut ini adalah diagram hebat di ISL yang menggambarkan pertukaran ini dalam berbagai model pelatihan statistik:
"

"
Seperti yang Anda lihat, model pembelajaran mesin yang lebih fleksibel dengan akurasi perkiraan yang lebih baik, seperti metode vektor dukungan dan metode peningkatan, pada saat yang sama memiliki interpretabilitas yang rendah. Pemodelan inferensi juga menolak akurasi perkiraan model yang ditafsirkan, membuat asumsi percaya diri tentang bentuk fungsional f.
Identifikasi Kausal dan Penalaran Kontrafaktual
Tapi tunggu sebentar! Bahkan jika Anda menggunakan model yang ditafsirkan dengan baik, Anda masih tidak dapat menggunakan statistik ini sebagai bukti terpisah dari kausalitas. Ini karena klise yang lama dan letih, "korelasi bukan sebab-akibat."
Ini adalah
contoh yang bagus : misalkan Anda memiliki data tentang panjang seratus tiang bendera, panjang bayangan mereka, dan posisi matahari. Anda tahu bahwa panjang bayangan ditentukan oleh panjang kutub dan posisi Matahari, tetapi bahkan jika Anda menetapkan panjang kutub sebagai variabel dependen dan panjang bayangan sebagai variabel independen, model Anda masih akan sesuai dengan koefisien yang signifikan secara statistik dan seterusnya.
Itulah mengapa hubungan sebab akibat tidak dapat dibuat hanya oleh model statistik dan membutuhkan pengetahuan dasar - sebab akibat yang diduga harus dibenarkan oleh beberapa pemahaman teoritis awal tentang hubungan tersebut. Oleh karena itu, analisis data dan pemodelan statistik hubungan sebab-akibat sering kali sebagian besar didasarkan pada model teoritis.
Dan bahkan jika Anda memiliki pembenaran teoretis yang baik untuk mengatakan bahwa X menyebabkan Y, mengidentifikasi efek kausal seringkali masih sangat sulit. Ini karena mengevaluasi hubungan sebab akibat melibatkan pengidentifikasian apa yang akan terjadi dalam dunia kontra-aktif di mana X tidak terjadi, yang menurut definisi tidak dapat diamati.
Berikut adalah
contoh lain yang baik : misalkan Anda ingin menentukan efek kesehatan dari vitamin C. Apakah Anda memiliki data apakah seseorang mengonsumsi vitamin (X = 1 jika ia meminum; 0 - tidak minum), dan beberapa hasil kesehatan biner (Y = 1 jika mereka sehat; 0 - tidak sehat) yang terlihat seperti ini:

Yβ adalah hasil kesehatan dari mereka yang mengonsumsi vitamin C, dan Yβ adalah hasil kesehatan dari mereka yang tidak. Untuk menentukan efek vitamin C terhadap kesehatan, kami mengevaluasi efek rata-rata pengobatan:
Tetapi untuk melakukan ini, penting untuk mengetahui apa konsekuensi kesehatan dari mereka yang mengonsumsi vitamin C jika mereka tidak mengonsumsi vitamin C, dan sebaliknya (atau E (Yβ | X = 1) dan E (Yβ | X = 0)), yang ditandai dengan tanda bintang pada tabel dan menunjukkan hasil kontrafakta yang tidak teramati. Efek pengobatan rata-rata tidak dapat dievaluasi secara berurutan tanpa input ini.
Sekarang bayangkan orang yang sudah sehat, biasanya, mencoba mengonsumsi vitamin C, tetapi orang yang sudah tidak sehat tidak. Dalam skenario ini, penilaian akan menunjukkan efek penyembuhan yang kuat, bahkan jika vitamin C sebenarnya tidak mempengaruhi kesehatan sama sekali. Di sini, kondisi kesehatan sebelumnya disebut faktor campuran, yang memengaruhi asupan vitamin C dan kesehatan (X dan Y), yang mengarah pada perkiraan yang terdistorsi. Cara teraman untuk mendapatkan skor consistent yang konsisten adalah dengan mengacak pengobatan melalui eksperimen sehingga X tidak bergantung pada Y.
Ketika pengobatan ditentukan secara acak, hasil dari kelompok yang tidak menerima obat, rata-rata, menjadi indikator obyektif untuk hasil kontrafaktual dari kelompok yang menerima pengobatan, dan memastikan bahwa tidak ada faktor yang menyimpang. Pengujian A / B dipandu oleh pemahaman ini.
Tetapi percobaan acak tidak selalu memungkinkan (atau etis, jika kita ingin mempelajari dampak kesehatan dari merokok atau makan terlalu banyak kue cokelat), dan dalam kasus ini, efek sebab akibat harus diperkirakan dari pengamatan dengan seringnya perawatan non-acak.
Ada
banyak metode statistik yang mengidentifikasi efek kausal dalam kondisi non-eksperimental. Mereka melakukan ini dengan membangun hasil kontrafaktual atau memodelkan resep pengobatan acak dalam data pengamatan.
Mudah dibayangkan bahwa hasil analisis jenis ini sering kali tidak terlalu andal atau dapat direproduksi. Dan yang lebih penting lagi: level-level hambatan metodologis ini tidak dimaksudkan untuk meningkatkan akurasi peramalan model, tetapi untuk menyajikan bukti kausalitas melalui kombinasi kesimpulan logis dan statistik.
Jauh lebih mudah untuk mengukur keberhasilan prognostik daripada model kausal. Meskipun ada indikator kinerja standar untuk model prognostik, jauh lebih sulit untuk menilai keberhasilan relatif dari model sebab akibat. Tetapi jika sulit untuk melacak sebab dan akibat, itu tidak berarti bahwa kita harus berhenti mencoba.
Poin utama di sini adalah bahwa model prognostik dan kausal melayani tujuan yang sama sekali berbeda dan memerlukan data yang sama sekali berbeda dan proses pemodelan statistik, dan seringkali kita harus melakukan keduanya.
Contoh dari industri film menggambarkan: studio menggunakan model peramalan untuk meramalkan pendapatan box office, untuk memprediksi hasil keuangan dari distribusi film, untuk menilai risiko keuangan dan profitabilitas portofolio film mereka, dll. Tetapi model peramalan tidak akan membawa kita lebih dekat untuk memahami struktur dan dinamika pasar film dan tidak akan membantu dalam membuat keputusan investasi, karena pada tahap awal dari proses produksi film (biasanya tahun sebelum tanggal rilis), ketika keputusan investasi dibuat, varians dari kemungkinan Hasilnya tinggi.
Oleh karena itu, akurasi model perkiraan berdasarkan data awal pada tahap awal sangat berkurang. Model prediktif semakin dekat dengan tanggal mulai distribusi film, ketika sebagian besar keputusan produksi telah dibuat dan perkiraan tidak lagi layak dan relevan. Di sisi lain, pemodelan hubungan sebab-akibat memungkinkan studio untuk mengetahui bagaimana berbagai karakteristik produksi dapat mempengaruhi pendapatan potensial pada tahap awal produksi film dan karena itu penting untuk menginformasikan tentang strategi produksi mereka.
Meningkatkan perhatian pada prediksi: apakah Chomsky benar?
Sangat mudah untuk memahami mengapa Chomsky kesal: model prognostik mendominasi komunitas ilmiah dan industri.
Analisis tekstual pracetak akademik menunjukkan bahwa bidang penelitian kuantitatif yang paling cepat berkembang semakin memperhatikan ramalan. Misalnya, jumlah artikel di bidang kecerdasan buatan yang menyebutkan "prediksi" telah lebih dari dua kali lipat, sementara artikel tentang kesimpulan telah berkurang setengahnya sejak 2013.
Kurikulum sains data sebagian besar mengabaikan hubungan sebab-akibat. Dan ilmu data dalam bisnis terutama berfokus pada model prediksi. Kompetisi lapangan bergengsi seperti hadiah Kaggle dan Netflix didasarkan pada peningkatan indikator kinerja prediktif.
Di sisi lain, masih ada banyak bidang di mana perhatian tidak cukup diberikan untuk peramalan empiris, dan mereka bisa mendapatkan keuntungan dari pencapaian yang diperoleh di bidang pembelajaran mesin dan pemodelan prediktif. Tetapi menghadirkan keadaan saat ini sebagai perang budaya antara "Tim Chomsky" dan "Tim Norvig" tidak benar: tidak ada alasan mengapa perlu memilih hanya satu opsi, karena ada banyak peluang untuk saling memperkaya antara kedua budaya. Banyak pekerjaan telah dilakukan untuk membuat model pembelajaran mesin lebih dimengerti. Sebagai contoh,
Susan Ati dari Stanford menggunakan metode pembelajaran mesin dalam metodologi hubungan sebab akibat.
Untuk menyelesaikan dengan nada positif, ingat
karya Jude Pearl . Pearl memimpin sebuah proyek penelitian tentang kecerdasan buatan pada 1980-an, yang memungkinkan mesin untuk bernalar secara probabilistik menggunakan jaringan Bayesian. Namun, sejak itu ia telah menjadi kritikus terbesar tentang bagaimana perhatian kecerdasan buatan secara eksklusif terhadap asosiasi dan korelasi probabilistik menjadi hambatan bagi prestasi.
Berbagi pendapat Chomsky,
Pearl berpendapat bahwa semua pencapaian pembelajaran mendalam yang mengesankan datang untuk menyesuaikan kurva dengan data. , ( ), 30 . , β Β« Β».
, - , , β , , .
, - , , .
dalam salah satu artikelnya ia mengklaim:Sebagian besar pengetahuan manusia diorganisasikan di sekitar hubungan kausal daripada probabilistik, dan tata bahasa perhitungan probabilitas tidak cukup untuk memahami hubungan-hubungan ini ... Karena alasan inilah saya menganggap diri saya hanya setengah Bayesian.
Tampaknya ilmu data hanya akan menang jika kita memiliki lebih banyak camilan.