Buka webinar "Naive Bayes Classifier"

Halo semuanya!

Sebagai bagian dari kursus Data Scientist kami , kami melakukan pelajaran terbuka tentang topik "Naive Bayes Classifier". Pelajaran ini diajarkan oleh guru kursus Maxim Kretov , seorang peneliti terkemuka di laboratorium jaringan saraf dan pembelajaran mendalam (MIPT). Kami menawarkan Anda untuk membiasakan diri dengan video dan ringkasan.

Terima kasih sebelumnya.


Entri

Bayangkan Anda memiliki seribu properti. Sebagai aturan, masing-masing dari mereka dapat dicirikan oleh serangkaian fitur tertentu, misalnya:

  • area rumah;
  • jumlah waktu yang berlalu sejak perbaikan terakhir;
  • jauh dari halte angkutan umum terdekat.

Dengan demikian, setiap rumah dapat direpresentasikan sebagai x dengan dimensi 3. Yaitu, x = (150; 5; 600), di mana 150 adalah luas rumah dalam meter persegi, 5 adalah jumlah tahun setelah perbaikan, 600 adalah jarak ke berhenti dalam meter. Harga untuk mana rumah ini dapat dijual di pasar akan dilambangkan dengan y.

Sebagai hasilnya, kami memiliki satu set vektor, dengan variabel yang sesuai untuk setiap objek. Dan jika kita berbicara tentang harga, maka hanya dapat dipelajari untuk memprediksi, dengan keterampilan pembelajaran mesin.

Klasifikasi dasar metode pembelajaran mesin

Contoh di atas cukup tipikal dan berhubungan dengan pembelajaran mesin dengan seorang guru (ada variabel target). Jika yang terakhir tidak ada, kita dapat berbicara tentang pembelajaran mesin tanpa guru. Ini adalah dua jenis utama pembelajaran mesin. Dalam hal ini, tugas mengajar dengan seorang guru, pada gilirannya, dibagi menjadi dua kelompok:

  1. Klasifikasi. Variabel target adalah salah satu dari kelas-C, yaitu, setiap objek diberi label kelas (pondok, taman rumah, bangunan luar, dll.).
  2. Regresi. Variabel target adalah bilangan real.

Tugas apa yang dipecahkan pembelajaran mesin?

Hari ini, menggunakan metode pembelajaran mesin, tugas-tugas berikut ini diselesaikan:

1. Sintaksis:

  • markup oleh bagian-bagian ucapan dan karakter morfologis;
  • pembagian kata dalam teks menjadi morfem (awalan, akhiran, dll.);
  • mencari nama dan judul dalam teks ("pengakuan entitas bernama");
  • resolusi makna kata dalam konteks yang diberikan (contoh khas adalah kastil atau kastil).

2. Tugas untuk memahami teks, di mana ada "guru":

  • terjemahan mesin;
  • model interaktif (bot obrolan).

3. Tugas lain (deskripsi gambar, pengenalan suara, dll.).

Kesulitan bekerja dengan teks

Bekerja dengan teks dari sudut pandang pembelajaran mesin selalu disertai dengan kesulitan tertentu. Untuk melakukan ini, ingat dua kalimat:

  • ibu mencuci bingkai dan sekarang bersinar;
  • ibu mencuci bingkai dan sekarang dia lelah.

Jika pengklasifikasi yang melakukan pembelajaran mesin tidak memiliki akal sehat, itu juga berlaku baginya ketika bingkai mengkilap dan lelah, karena secara sintaksis bingkai kata dalam kalimat kedua lebih dekat dengan kata ganti.

Tugas praktis

Setelah memberikan informasi umum tentang beberapa aspek pembelajaran mesin, guru dengan lancar beralih ke tugas praktis webinar - klasifikasi email menjadi spam dan kualitas.

Pertama-tama, contoh ditunjukkan bagaimana mengkonversi teks input ke vektor angka. Untuk melakukan ini:

  • kamus ukuran K diperbaiki;
  • setiap kata dalam teks disajikan dalam bentuk berikut: (0, 0, 0, ... 0, 1, 0, ... 0).

Pendekatan ini disebut 1-hot-encoding, dan kata-kata dalam konteksnya disebut token.

Berdasarkan hasil dari tahap pemrosesan data ini, kamus dibuat dan jumlah kata dibuat untuk setiap teks. Akibatnya, vektor dengan panjang tetap diperoleh untuk setiap teks. Pendekatan topeng boolean yang lebih sederhana juga dipertimbangkan.

Memperkenalkan Bayesian Classifier

Pengklasifikasi naif Bayes didasarkan pada penerapan teorema Bayes dengan asumsi ketat (naif) tentang independensi. Keuntungannya adalah sejumlah kecil data pelatihan yang diperlukan untuk mengevaluasi parameter yang diperlukan untuk klasifikasi.
Dalam penafsiran tugas mengklasifikasikan email, ide utamanya adalah sebagai berikut:

  • semua kata dalam teks dianggap independen satu sama lain;
  • jika ada kata-kata yang lebih sering ditemukan dalam spam daripada dalam surat yang baik, kata-kata ini dianggap sebagai tanda kepemilikan surat tersebut ke spam.

Dengan mempertimbangkan teorema Bayes, rumus yang sesuai ditulis untuk beberapa variabel, dan fitur penghitungan asumsi tambahan juga dipertimbangkan. Pseudo-code digunakan untuk menghitung parameter, setelah contoh model detail dihasilkan, di mana probabilitas apriori dan probabilitas milik kelas untuk objek baru x dihitung. Tahap akhir pekerjaan praktis adalah konstruksi dan pelatihan model, serta pengukuran kualitas.

AKHIR

Seperti biasa, kami menunggu pertanyaan dan komentar di sini atau Anda dapat menanyakannya langsung kepada guru dengan membuka Open Day .

Source: https://habr.com/ru/post/id420729/


All Articles