bab sebelumnya
Perbandingan dengan kualitas manusia
33. Mengapa dibandingkan dengan tingkat kualitas yang tersedia bagi manusia
Banyak sistem pembelajaran mesin memiliki tujuan untuk mengotomatisasi tugas-tugas yang dilakukan orang dengan baik. Contohnya termasuk pengenalan gambar, pengenalan suara, dan klasifikasi spam dalam email. Algoritma pembelajaran telah meningkat sedemikian rupa sehingga mereka berhasil melampaui seseorang dalam tugas yang semakin banyak.
Selain itu, ada beberapa alasan berdasarkan pembangunan sistem pembelajaran mesin yang disederhanakan jika Anda mencoba melakukan tugas yang dapat dilakukan orang dengan baik:
- Cukup tandai data dengan pengakses. Misalnya, karena orang mengenali gambar kucing dengan baik, penilai dapat secara akurat menandai sampel yang diperlukan untuk melatih algoritme Anda.
- Analisis kesalahan dapat didasarkan pada intuisi manusia. Misalkan algoritma pengenalan ucapan bekerja lebih buruk daripada yang dilakukan seseorang. Misalnya, algoritma salah mendekripsi fragmen dan memberikan: "Resep ini membutuhkan meja sekolah apel", mengambil "pasangan" untuk "meja sekolah". Anda dapat menggunakan intuisi seseorang dan mencoba memahami informasi apa yang digunakan seseorang untuk mendapatkan transkripsi yang benar, dan kemudian menggunakan informasi ini untuk mengubah algoritma pembelajaran.
- Anda dapat menggunakan kualitas penyelesaian masalah oleh seseorang sebagai referensi, dan juga mengatur "tingkat kesalahan yang diinginkan". Misalkan kualitas algoritma saat melakukan tugas telah mencapai tingkat yang sesuai dengan 10% kesalahan, dan seseorang hanya membuat 2% kesalahan. Kemudian kita tahu bahwa tingkat kesalahan optimal tidak melebihi 2%, dan bias yang dapat dihindari untuk algoritma kami setidaknya 8%. Karena itu, kita harus mencoba metode untuk mengurangi bias.
Meskipun poin 3 mungkin tampak tidak penting, saya percaya bahwa memiliki target kesalahan yang masuk akal dan dapat dicapai membantu mempercepat kemajuan tim. Kesadaran bahwa algoritma memiliki bias besar yang dapat dihindari sangat berguna dan menyarankan berbagai metode yang dapat Anda coba terapkan.
Ada beberapa tugas yang bahkan orang tidak bisa atasi. Misalnya, pilih buku untuk direkomendasikan kepada Anda; atau pilih iklan untuk ditampilkan kepada pengguna di situs web; atau memprediksi situasi di pasar saham. Komputer sudah melampaui kualitas penyelesaian masalah ini oleh kebanyakan orang. Dalam aplikasi ini kami menghadapi masalah berikut:
- Lebih sulit untuk mendapatkan sampel berlabel untuk mempelajari algoritma. Misalnya, penilai merasa kesulitan untuk mengeluarkan database pengguna yang menunjukkan buku "optimal" untuk masing-masing. Jika Anda memiliki situs web atau aplikasi yang menjual buku, Anda bisa mendapatkan data yang ditandai dengan menunjukkan buku pengguna dan mencatat buku yang mereka beli. Jika Anda tidak menggunakan situs seperti itu, Anda perlu menemukan cara yang lebih kreatif untuk mendapatkan data.
- Seseorang tidak dapat mengandalkan intuisi manusia. Misalnya, hampir tidak ada yang bisa memprediksi perilaku pasar saham. Jadi, jika algoritma prediksi harga saham kami bekerja tidak lebih baik daripada peramalan acak, sulit untuk mengetahui bagaimana memperbaikinya.
- Sulit untuk memahami apa tingkat kesalahan optimal dan tingkat kesalahan yang diinginkan yang masuk akal. Misalkan sistem rekomendasi buku yang ada bekerja dengan cukup baik. Bagaimana cara mengetahuinya, tanpa memiliki tingkat kualitas dasar (βmanusiaβ) dan bagian kesalahan yang sesuai, berapa banyak lagi yang dapat ditingkatkan?
untuk dilanjutkan