Jeu pour améliorer la qualité de Wikipedia

Aujourd'hui, une version bêta du jeu en ligne WikiBest a été annoncée, qui fait partie des recherches de Wikipedia sur la qualité des données. Il est à noter qu'à l'heure actuelle, le jeu vous permet de comparer la qualité des données dans 5 versions linguistiques de Wikipedia: russe, ukrainien, biélorusse, polonais, anglais. Dans un avenir proche, il est prévu d'augmenter le nombre de langues.

image

Malgré sa popularité, Wikipédia est souvent critiqué pour la mauvaise qualité des informations. Dans le monde scientifique, il existe différentes approches pour l' évaluation automatique de la qualité des articles de cette encyclopédie gratuite. Cependant, un grand nombre de problèmes ne sont toujours pas résolus. Par exemple, comment évaluer ou comparer automatiquement la qualité de faits individuels dans différentes versions linguistiques sur le même sujet?

Sur Wikipédia, chaque article peut avoir plusieurs versions linguistiques (voire plus de 200). D'une part, cela simplifie l'accès à l'information pour les communautés linguistiques individuelles. D’un autre côté, cela peut rendre difficile la détermination de meilleures informations, Chacune de ces versions peut être créée et modifiée indépendamment les unes des autres. Par exemple, les lecteurs et les éditeurs de la version anglaise de l'article sur Ekaterinbourg n'ont pas besoin de savoir ce qui est écrit sur cette ville dans la version russe de Wikipédia, bien que l'on puisse s'attendre à ce que les informations contenues dans cette dernière soient de meilleure qualité (bien sûr, cette règle ne fonctionne pas dans tous les cas; )).

Le jeu WikiBest a été créé afin de construire des algorithmes pour comparer automatiquement la qualité des données entre des versions linguistiques distinctes d'articles basées sur les décisions des utilisateurs (joueurs) à l'avenir en utilisant l'apprentissage automatique et l'intelligence artificielle. Cela peut vous aider à choisir des informations plus complètes, pertinentes et fiables que d'autres versions linguistiques de Wikipedia pourraient enrichir.

Adresse du jeu

La première courte conférence vidéo sur le fonctionnement de WikiBest:



Caractéristiques clés


Actuellement, les exigences minimales pour un joueur sont la connaissance de 4 langues (russe, ukrainien, polonais, anglais) à un niveau de base, ce qui permettrait de comparer le contenu des cartes (en anglais "infobox", en simplification - tableaux avec données) des articles Wikipédia. La connaissance du biélorusse est également recommandée - il sera alors possible de comparer la qualité dans toutes les versions disponibles en 5 langues.

Pour participer au jeu, l'inscription est obligatoire. Après avoir reçu le code d'activation par courrier - vous pouvez commencer à "vous battre" pour la qualité sur Wikipedia!)

Les cartes apparaissent à l'écran en 5 (4) versions linguistiques sur le même sujet - par exemple, il peut s'agir d'une ville, d'un jeu informatique, d'une université, d'une entreprise ou d'un autre objet. Pour faciliter la comparaison des données, les fenêtres avec des cartes peuvent être déplacées. Pour chaque version linguistique, il est possible de noter quatre options concernant les données qu'elles contiennent: la meilleure qualité, la meilleure exhaustivité, la meilleure pertinence, la meilleure fiabilité.

Idéalement, chacune des options disponibles ne devrait être vérifiée qu'une seule fois dans 5 (4) langues. C'est-à-dire nous devons déterminer qui est le meilleur dans chacune des quatre «nominations». Cependant, il existe des cas exceptionnels où deux versions linguistiques peuvent être les meilleures à la fois. Ensuite, le jeu propose au joueur d'ajouter également un commentaire, avec des informations sur les raisons pour lesquelles il le pense.

Pour accéder aux cinq (quatre) cartes suivantes, cliquez sur "Suivant". Et nous répétons selon le schéma décrit ci-dessus.

Pour le travail effectué dans le jeu, "l'expérience" est gagnée, ce qui conduit à une augmentation du niveau.

Du fait que la recherche est effectuée principalement par des spécialistes de l'apprentissage automatique et de l'analyse des données, la gamification du service n'est pas un point fort de ce projet;) Cela reste à apprendre. Je serai heureux de trouver des liens vers des documents utiles dans ce sens.

D'une manière générale, le projet est à but non lucratif. Toute aide est appréciée)

Un peu de théorie


Qu'est-ce que la qualité des données ? La question n'est pas simple et la communauté scientifique n'a pas de définition unique - tout dépend du contexte;) Pour commencer, l'évaluation de la qualité est un concept subjectif et dépend d'une personne spécifique, de ses connaissances et de son expérience, ainsi que de la demande de ces informations à un moment donné. En termes simples, la qualité des données peut être définie comme l'utilisabilité.

Afin d'évaluer la qualité des données, il est également nécessaire de prendre en compte leurs différentes caractéristiques, telles que, par exemple, l'exhaustivité, la pertinence, la fiabilité.

Dans WikiBest, l' exhaustivité signifie à quel point un objet est décrit. C'est-à-dire vous devez voir quelles caractéristiques sont entrées sur la carte - sont tous les principaux paramètres de cet objet à la disposition du lecteur. Par exemple, s'il s'agit d'une ville, l'un des paramètres les plus importants peut être: la population, la zone, le maire, etc.

La pertinence est associée à la différence entre les paramètres saisis de l'objet et l'état réel des choses. Par exemple, une carte avec la valeur donnée à partir de 2018 aura une pertinence plus élevée des données de population par rapport à une carte où le même paramètre est pertinent depuis 2016.

La fiabilité dans le contexte du jeu, montre combien d'informations sont prises en charge par des sources fiables. Ainsi, le lecteur peut vérifier l'exactitude de la valeur entrée d'un paramètre particulier.

Pourquoi exactement 5 langues?


Comme déjà mentionné ci-dessus, le jeu fait partie de la recherche scientifique dans laquelle je suis directement impliqué. Je peux être sûr de la connaissance de base de ces langues, donc je peux faire des recherches sur les données obtenues.

Quant au biélorusse facultatif - cela est dû à la taille de la section biélorusse de Wikipedia. Actuellement, il y a env. 150 mille articles. À titre de comparaison, le wiki ukrainien contient déjà plus de 800 000, le russe - près de 1,5 million ( source ).

L'objectif principal de la recherche en cours est d'enrichir les sections linguistiques moins développées de Wikipedia. En ce sens, la section biélorusse a un grand potentiel - les données d'autres sections linguistiques étudiées peuvent y être transférées. Cependant, nous savons déjà que la qualité des données dépend du sujet et de la version linguistique, vous devez donc d'abord déterminer le «candidat» pour la «copie» (en fait, la traduction de ces données est toujours nécessaire - mais ce n'est pas un problème lors de l'utilisation de la sémantique).

Source: https://habr.com/ru/post/fr418713/


All Articles