Hari ini, versi beta dari game online WikiBest diumumkan, yang merupakan bagian dari penelitian Wikipedia tentang kualitas data. Perlu dicatat bahwa saat ini permainan memungkinkan Anda untuk membandingkan kualitas data dalam 5 versi bahasa Wikipedia: Rusia, Ukraina, Belarusia, Polandia, Inggris. Dalam waktu dekat ini direncanakan akan menambah jumlah bahasa.

Terlepas dari popularitasnya, Wikipedia sering dikritik karena kualitas informasinya yang buruk. Di dunia ilmiah, ada berbagai pendekatan untuk
penilaian otomatis kualitas artikel dalam ensiklopedia gratis ini. Namun, sejumlah besar masalah masih belum terselesaikan. Misalnya, bagaimana cara secara otomatis mengevaluasi atau membandingkan kualitas fakta individu dalam versi bahasa yang berbeda pada topik yang sama?
Di Wikipedia, setiap artikel dapat memiliki beberapa versi bahasa (bahkan lebih dari 200). Di satu sisi, ini menyederhanakan akses ke informasi untuk komunitas bahasa individual. Di sisi lain, ini dapat membuat kesulitan dalam menentukan informasi yang lebih baik, seperti Masing-masing versi ini dapat dibuat dan diedit secara independen satu sama lain. Misalnya, pembaca dan editor versi bahasa Inggris dari artikel di Yekaterinburg tidak perlu tahu apa yang ditulis tentang kota ini di Wikipedia versi Rusia, meskipun dapat diharapkan bahwa informasi yang terakhir mungkin memiliki kualitas yang lebih baik (tentu saja, aturan ini tidak berfungsi dalam semua kasus; )).
Game WikiBest dibuat untuk membangun algoritma untuk secara otomatis membandingkan kualitas data antara versi bahasa artikel yang terpisah berdasarkan keputusan pengguna (pemain) di masa depan menggunakan pembelajaran mesin dan kecerdasan buatan. Ini dapat membantu Anda memilih informasi yang lebih lengkap, relevan, dan andal yang dapat diperkaya oleh versi bahasa Wikipedia lainnya.
Alamat permainanCeramah video pendek pertama tentang cara kerja WikiBest:
Fitur Utama
Saat ini, persyaratan minimum untuk seorang pemain adalah pengetahuan tentang 4 bahasa (Rusia, Ukraina, Polandia, Inggris) di tingkat dasar, yang memungkinkan membandingkan isi kartu (dalam bahasa Inggris "infobox", dalam penyederhanaan - tabel dengan data) artikel Wikipedia. Pengetahuan Belarusia juga disarankan - maka akan ada peluang untuk membandingkan kualitas di semua 5 versi bahasa yang tersedia.
Untuk berpartisipasi dalam pendaftaran game diperlukan. Setelah menerima kode aktivasi dalam surat - Anda dapat mulai "berjuang" untuk mendapatkan kualitas di Wikipedia!)
Kartu muncul di layar dalam 5 (4) versi bahasa dengan topik yang sama - misalnya, dapat berupa kota, permainan komputer, universitas, perusahaan atau objek lain. Untuk kenyamanan membandingkan data, windows dengan kartu dapat dipindahkan. Untuk setiap versi bahasa, dimungkinkan untuk mencatat empat opsi mengenai data yang terkandung di dalamnya: kualitas terbaik, kelengkapan terbaik, relevansi terbaik, keandalan terbaik.
Idealnya, setiap opsi yang tersedia harus diperiksa hanya sekali dalam 5 (4) bahasa. Yaitu kita harus menentukan siapa yang terbaik di masing-masing dari empat "nominasi". Namun, ada beberapa kasus luar biasa ketika dua versi bahasa dapat menjadi yang terbaik sekaligus. Kemudian permainan menawarkan pemain untuk menambahkan juga komentar, dengan informasi tentang mengapa dia berpikir demikian.
Untuk menuju ke lima (empat) kartu berikutnya, klik "Next". Dan kami ulangi sesuai dengan skema yang dijelaskan di atas.
Untuk pekerjaan yang dilakukan dalam game, "pengalaman" diperoleh, yang mengarah ke peningkatan level.
Karena kenyataan bahwa penelitian ini dilakukan terutama oleh spesialis dalam pembelajaran mesin dan analisis data, gamifikasi layanan bukanlah titik kuat dari proyek ini;) Ini masih harus dipelajari. Saya akan dengan senang hati menghubungkan ke materi yang bermanfaat dalam arah ini.
Secara umum, proyek ini nirlaba. Bantuan apa pun dihargai)
Sedikit teori
Apa itu
kualitas data ? Pertanyaannya tidak sederhana, dan komunitas ilmiah tidak memiliki definisi tunggal - semuanya tergantung pada konteks;) Untuk mulai dengan, penilaian kualitas adalah konsep subjektif dan tergantung pada orang tertentu, pengetahuan dan pengalamannya, serta permintaan akan informasi ini pada waktu tertentu. Sederhananya, kualitas data dapat didefinisikan sebagai kegunaan.
Untuk mengevaluasi kualitas data, perlu juga memperhitungkan berbagai karakteristiknya, seperti, misalnya, kelengkapan, relevansi, keandalan.
Dalam WikiBest,
kelengkapan berarti seberapa luas objek dijelaskan. Yaitu Anda perlu melihat karakteristik apa yang dimasukkan pada kartu - adalah semua parameter utama untuk objek ini yang tersedia untuk pembaca. Misalnya, jika itu adalah kota, maka salah satu parameter terpenting adalah: populasi, luas, walikota, dll.
Relevansi dikaitkan dengan perbedaan antara parameter yang dimasukkan objek dan keadaan sebenarnya. Misalnya, kartu dengan nilai yang diberikan pada 2018 akan memiliki relevansi data populasi yang lebih tinggi dibandingkan dengan kartu di mana parameter yang sama telah relevan sejak 2016.
Keandalan dalam konteks permainan, menunjukkan seberapa banyak informasi yang didukung oleh sumber yang dapat diandalkan. Dengan demikian, pembaca dapat memverifikasi kebenaran dari nilai yang dimasukkan dari parameter tertentu.
Mengapa tepatnya 5 bahasa?
Seperti yang telah disebutkan di atas, permainan adalah bagian dari penelitian ilmiah di mana saya terlibat langsung. Saya bisa yakin akan pengetahuan dasar bahasa-bahasa ini, sehingga saya bisa melakukan penelitian tentang data yang diperoleh.
Adapun bahasa Belarusia opsional - ini karena ukuran bagian Belarusia dari Wikipedia. Saat ini ada sekitar. 150 ribu artikel. Sebagai perbandingan, Wiki Ukraina sudah mengandung lebih dari 800 ribu, Rusia - hampir 1,5 juta (
sumber ).
Tujuan utama dari penelitian yang sedang berlangsung adalah untuk memperkaya bagian bahasa Wikipedia yang kurang berkembang. Dalam hal ini, bagian Belarusia memiliki potensi besar - data dari bagian bahasa lain yang dipelajari dapat ditransfer ke sana. Namun, kita sudah tahu bahwa kualitas data tergantung pada topik dan versi bahasa, jadi pertama-tama Anda harus menentukan "kandidat" untuk "menyalin" (pada kenyataannya, terjemahan data ini masih diperlukan - tetapi ini tidak masalah ketika menggunakan semantik).