Bot menghasilkan tutorial dari artikel Wikipedia


Contoh Wikibook (ilustrasi dari artikel ilmiah )

Semua orang tahu bahwa Wikipedia adalah sumber informasi yang berharga. Anda dapat menghabiskan waktu berjam-jam mempelajari suatu topik, berpindah dari satu tautan ke tautan lain untuk mendapatkan konteks tentang suatu subjek yang menarik. Tetapi tidak selalu jelas bagaimana mengumpulkan semua konten pada satu topik umum. Misalnya, bagaimana menggabungkan semua artikel tentang kimia anorganik atau sejarah Abad Pertengahan, meringkas yang paling penting? Tentang ini, Shahar Admati dan rekan-rekannya dari Ben-Gurion di Negev (Israel), pengembang program pembelajaran mesin Wikibook-Bot , mencoba melakukan ini.

Wikipedia dan buku teks adalah dua hal yang berbeda. Itulah sebabnya proyek Wikibooks dibuat, di mana orang-orang bersama-sama mencoba meringkas yang paling penting pada suatu topik. Misalnya, Anda dapat menemukan buku teks pembelajaran mesin dengan lebih dari 6.000 halaman, dengan bagian yang diperbarui pada jaringan saraf, algoritma genetika, dan visi mesin.

Wikibook-Bot menyelesaikan beberapa tugas pembelajaran mesin. Pertama, ini adalah tugas klasifikasi , yaitu, Anda perlu menentukan apakah artikel itu milik Wikibook tertentu. Kedua, Anda perlu membagi artikel yang dipilih menjadi beberapa bab - ini adalah tugas pengelompokan . Itu dipecahkan oleh algoritma terkenal. Akhirnya, tugas sistematisasi , yang meliputi dua subtugas: urutan artikel di setiap bab dan urutan bab itu sendiri.



Padahal, program itu bekerja relatif sederhana. Prinsipnya jelas bagi setiap orang yang telah menemukan pembelajaran jaringan saraf. Langkah pertama adalah membuat dataset pelatihan. Dari sekitar 6.700 Wikibook yang ada dalam bahasa Inggris, buku-buku dengan lebih dari 1.000 tampilan dan dengan 10 artikel atau lebih dipilih.



Karena Wikibooks ini membentuk semacam standar emas untuk pelatihan dan pengujian, para pengembang menganggapnya sebagai standar kualitas. Setelah pelatihan jaringan saraf, pekerjaan lebih lanjut dibagi menjadi beberapa langkah yang tercantum di atas: klasifikasi, pengelompokan dan sistematisasi. Pekerjaan dimulai dengan judul buku teks yang dihasilkan manusia. Nama tersebut menjelaskan konsep sewenang-wenang. Misalnya, Pembelajaran Mesin: Panduan Lengkap.

Tugas pertama adalah menyortir seluruh set artikel dan menentukan mana yang cukup relevan untuk dimasukkan dalam topik ini. "Tugas ini sulit karena volume besar artikel di Wikipedia, dan kebutuhan untuk memilih artikel yang paling relevan dari jutaan yang tersedia," tulis para penulis dalam makalah ilmiah. Untuk mengatasi ini, mereka menggunakan struktur jaringan Wikipedia, karena beberapa artikel sering terhubung ke yang lain. Masuk akal untuk berasumsi bahwa artikel terkait juga akan membahas topik tersebut.

Jadi, pekerjaan dimulai dengan inti kecil dari artikel-artikel dengan judul yang disebutkan judulnya. Kemudian semua artikel yang terletak pada jarak hingga tiga transisi dari inti ditentukan. Tetapi berapa banyak artikel yang ditemukan termasuk dalam buku teks? Jawaban atas pertanyaan ini diberikan oleh Wikibooks yang dibuat oleh orang-orang. Analisis otomatis konten mereka memungkinkan Anda untuk menentukan berapa banyak konten dari Wikipedia dalam buku-buku buatan manusia termasuk dalam buku teks.

Setiap wikibook buatan manusia memiliki struktur jaringan yang ditentukan oleh jumlah tautan yang menunjuk ke artikel lain, sejumlah tautan yang menunjuk ke halaman, peringkat artikel yang disertakan, dan sebagainya. Algoritma yang dikembangkan menganalisis setiap artikel yang dipilih secara otomatis untuk topik yang diberikan dan menjawab pertanyaan: jika Anda memasukkannya ke dalam Wikibook, apakah struktur jaringannya akan menjadi lebih mirip dengan buku yang dibuat oleh seseorang atau tidak. Jika tidak, artikel dihilangkan.

Didasarkan terutama pada data pelatihan dan metode pembelajaran mesin yang ada, tugas-tugas lain juga diselesaikan. Dengan demikian, tim dapat secara otomatis menghasilkan Wikibook yang sudah dibuat oleh orang-orang. Efektivitas metode yang diusulkan dievaluasi dengan membandingkan buku-buku yang dihasilkan secara otomatis dengan 407 Wikibooks asli. Dikatakan bahwa untuk semua tugas dimungkinkan untuk mendapatkan hasil yang tinggi dan signifikan secara statistik ketika membandingkan. Namun tetap saja, keefektifan algoritma yang sebenarnya dapat diperkirakan setelah membuat Wikibooks pada topik-topik lain, dan tidak hanya pada topik-topik yang ia pelajari.

Deskripsi bot diterbitkan sebagai artikel ilmiah "Wikibook-Bot - Generasi Otomatis Buku Wikipedia" di situs pracetak arXiv.org.

Source: https://habr.com/ru/post/id435648/


All Articles