لعبة لتحسين جودة ويكيبيديا

اليوم ، تم الإعلان عن إصدار بيتا من لعبة WikiBest عبر الإنترنت ، وهو جزء من بحث ويكيبيديا حول جودة البيانات. من الجدير بالذكر أن اللعبة تسمح لك في الوقت الحالي بمقارنة جودة البيانات في 5 إصدارات من ويكيبيديا: الروسية والأوكرانية والبيلاروسية والبولندية والإنجليزية. من المخطط في المستقبل القريب زيادة عدد اللغات.

الصورة

على الرغم من شعبيتها ، غالبًا ما يتم انتقاد ويكيبيديا بسبب رداءة المعلومات. في العالم العلمي ، هناك طرق مختلفة للتقييم التلقائي لجودة المقالات في هذه الموسوعة المجانية. ومع ذلك ، لا يزال عدد كبير من المشاكل لم يتم حلها. على سبيل المثال ، كيفية تقييم أو مقارنة جودة الحقائق الفردية في إصدارات اللغات المختلفة حول نفس الموضوع تلقائيًا؟

على ويكيبيديا ، يمكن أن تحتوي كل مقالة على العديد من إصدارات اللغات (حتى أكثر من 200). من ناحية ، يبسط هذا الوصول إلى المعلومات لمجتمعات اللغات الفردية. من ناحية أخرى ، يمكن أن يخلق هذا صعوبة في تحديد معلومات أفضل ، مثل يمكن إنشاء كل من هذه الإصدارات وتحريرها بشكل مستقل عن بعضها البعض. على سبيل المثال ، لا يحتاج قراء ومحررو النسخة الإنجليزية من المقالة على يكاترينبورغ إلى معرفة ما هو مكتوب عن هذه المدينة في النسخة الروسية من ويكيبيديا ، على الرغم من أنه من المتوقع أن تكون المعلومات في هذه الأخيرة ذات جودة أفضل (بالطبع ، هذه القاعدة لا تعمل في جميع الحالات ؛ )).

تم إنشاء لعبة WikiBest من أجل بناء خوارزميات لمقارنة جودة البيانات تلقائيًا بين إصدارات اللغات المنفصلة من المقالات استنادًا إلى قرارات المستخدمين (اللاعبين) في المستقبل باستخدام التعلم الآلي والذكاء الاصطناعي. يمكن أن يساعدك هذا في اختيار معلومات أكثر اكتمالًا وملاءمة وموثوقية يمكن أن تثريها إصدارات اللغات الأخرى من ويكيبيديا.

عنوان اللعبة

أول محاضرة فيديو قصيرة عن كيفية عمل WikiBest:



الميزات الرئيسية


حاليًا ، الحد الأدنى من المتطلبات للاعب هو معرفة 4 لغات (الروسية والأوكرانية والبولندية والإنجليزية) على المستوى الأساسي ، مما يسمح بمقارنة محتويات البطاقات (باللغة الإنجليزية "infobox" ، في التبسيط - الجداول بالبيانات) لمقالات ويكيبيديا. يوصى أيضًا بمعرفة اللغة البيلاروسية - ثم ستكون هناك فرصة لمقارنة الجودة في جميع إصدارات اللغات الخمس المتاحة.

للمشاركة في تسجيل اللعبة مطلوب. بعد تلقي رمز التفعيل في البريد - يمكنك البدء في "القتال" من أجل الجودة على ويكيبيديا!)

تظهر البطاقات على الشاشة بخمس لغات (4) حول نفس الموضوع - على سبيل المثال ، يمكن أن تكون مدينة أو لعبة كمبيوتر أو جامعة أو شركة أو كائن آخر. لتسهيل مقارنة البيانات ، يمكن نقل النوافذ التي تحتوي على بطاقات. بالنسبة لكل إصدار لغة ، من الممكن ملاحظة أربعة خيارات فيما يتعلق بالبيانات الواردة فيها: أفضل جودة ، أفضل اكتمال ، أفضل صلة ، أفضل موثوقية.

من الناحية المثالية ، يجب التحقق من كل من الخيارات المتاحة مرة واحدة فقط في 5 (4) لغات. على سبيل المثال يجب علينا تحديد من هو الأفضل في كل من "الترشيحات" الأربعة. ومع ذلك ، هناك حالات استثنائية عندما تكون نسختان من اللغات الأفضل في وقت واحد. ثم تقدم اللعبة للاعب إضافة تعليق أيضًا ، مع معلومات حول سبب اعتقاده بذلك.

للانتقال إلى البطاقات الخمس (الأربعة) التالية ، انقر فوق "التالي". ونكرر حسب المخطط الموصوف أعلاه.

بالنسبة للعمل المنجز في اللعبة ، يتم اكتساب "الخبرة" ، مما يؤدي إلى زيادة المستوى.

نظرًا لحقيقة أن البحث يتم بشكل أساسي من قبل متخصصين في التعلم الآلي وتحليل البيانات ، فإن تحفيز الخدمة ليس نقطة قوية في هذا المشروع ؛) لا يزال يتعين تعلم هذا. سأكون سعيدًا بروابط المواد المفيدة في هذا الاتجاه.

بشكل عام ، المشروع غير ربحي. نقدر أي مساعدة)

جزء من النظرية


ما هي جودة البيانات ؟ السؤال ليس بسيطًا ، وليس لدى المجتمع العلمي تعريف واحد - كل هذا يتوقف على السياق ؛) بادئ ذي بدء ، تقييم الجودة هو مفهوم شخصي ويعتمد على شخص معين ومعرفته وخبرته ، بالإضافة إلى الطلب على هذه المعلومات في وقت معين. ببساطة ، يمكن تعريف جودة البيانات بأنها قابلة للاستخدام.

من أجل تقييم جودة البيانات ، من الضروري أيضًا مراعاة خصائصها المختلفة ، مثل ، على سبيل المثال ، الاكتمال والأهمية والموثوقية.

في WikiBest ، يعني الاكتمال مدى وصف الكائن. على سبيل المثال تحتاج إلى معرفة الخصائص المدخلة على البطاقة - جميع المعلمات الرئيسية لهذا الكائن متاحة للقارئ. على سبيل المثال ، إذا كانت مدينة ، فقد تكون واحدة من أهم المعلمات: السكان ، المنطقة ، العمدة ، إلخ.

ترتبط الصلة بالاختلاف بين المعلمات المدخلة للكائن والحالة الحقيقية للأمور. على سبيل المثال ، فإن البطاقة ذات القيمة المعطاة اعتبارًا من عام 2018 ستكون ذات صلة أكبر ببيانات السكان مقارنة بالبطاقة حيث كانت نفس المعلمة ذات صلة منذ عام 2016.

الموثوقية في سياق اللعبة ، تظهر مقدار المعلومات التي تدعمها مصادر موثوقة. وبالتالي ، يمكن للقارئ التحقق من صحة القيمة المدخلة لمعلمة معينة.

لماذا 5 لغات بالضبط؟


كما سبق ذكره أعلاه ، تعد اللعبة جزءًا من البحث العلمي الذي أشارك فيه بشكل مباشر. يمكنني التأكد من المعارف الأساسية لهذه اللغات ، حتى أتمكن من إجراء بحث حول البيانات التي تم الحصول عليها.

أما بالنسبة للبيلاروسية الاختيارية - فهذا يرجع إلى حجم القسم البيلاروسي في ويكيبيديا. حاليا يوجد تقريبا. 150 ألف مقال. للمقارنة ، يحتوي الويكي الأوكراني بالفعل على أكثر من 800 ألف ، والروسي - ما يقرب من 1.5 مليون ( المصدر ).

الهدف الرئيسي من البحث المستمر هو إثراء أقسام اللغة الأقل تطورًا في ويكيبيديا. وبهذا المعنى ، يتمتع القسم البيلاروسي بإمكانيات كبيرة - يمكن نقل البيانات من أقسام اللغة المدروسة الأخرى هناك. ومع ذلك ، نحن نعلم بالفعل أن جودة البيانات تعتمد على إصدار الموضوع واللغة ، لذلك تحتاج أولاً إلى تحديد "المرشح" لـ "النسخ" (في الواقع ، لا تزال هناك حاجة إلى ترجمة هذه البيانات - ولكن هذه ليست مشكلة عند استخدام دلالات).

Source: https://habr.com/ru/post/ar418713/


All Articles