Spiel zur Verbesserung der Qualität von Wikipedia

Heute wurde eine Beta-Version des WikiBest-Online-Spiels angekündigt, die Teil der Wikipedia-Forschung zur Datenqualität ist. Es ist bemerkenswert, dass Sie mit dem Spiel derzeit die Qualität von Daten in 5 Sprachversionen von Wikipedia vergleichen können: Russisch, Ukrainisch, Weißrussisch, Polnisch, Englisch. In naher Zukunft ist geplant, die Anzahl der Sprachen zu erhöhen.

Bild

Trotz seiner Beliebtheit wird Wikipedia häufig für die schlechte Qualität der Informationen kritisiert. In der wissenschaftlichen Welt gibt es verschiedene Ansätze zur automatischen Bewertung der Qualität von Artikeln in dieser freien Enzyklopädie. Eine große Anzahl von Problemen ist jedoch immer noch nicht gelöst. Wie kann beispielsweise die Qualität einzelner Fakten in verschiedenen Sprachversionen zum gleichen Thema automatisch bewertet oder verglichen werden?

Auf Wikipedia kann jeder Artikel mehrere Sprachversionen haben (sogar mehr als 200). Dies vereinfacht zum einen den Zugang zu Informationen für einzelne Sprachgemeinschaften. Andererseits kann dies zu Schwierigkeiten bei der Bestimmung besserer Informationen führen, wie z Jede dieser Versionen kann unabhängig voneinander erstellt und bearbeitet werden. Zum Beispiel müssen Leser und Herausgeber der englischen Version des Artikels über Jekaterinburg nicht wissen, was in der russischen Version von Wikipedia über diese Stadt geschrieben steht, obwohl zu erwarten ist, dass die Informationen in letzterer von besserer Qualität sind (natürlich funktioniert diese Regel nicht in allen Fällen; )).

Das WikiBest-Spiel wurde entwickelt, um Algorithmen zum automatischen Vergleich der Datenqualität zwischen verschiedenen Sprachversionen von Artikeln zu erstellen, die auf den Entscheidungen der Benutzer (Spieler) in Zukunft mithilfe von maschinellem Lernen und künstlicher Intelligenz basieren. Dies kann Ihnen helfen, vollständigere, relevantere und zuverlässigere Informationen auszuwählen, die andere Sprachversionen von Wikipedia bereichern könnten.

Spieladresse

Die erste kurze Videovorlesung über die Funktionsweise von WikiBest:



Hauptmerkmale


Derzeit sind die Mindestanforderungen für einen Spieler die Kenntnis von 4 Sprachen (Russisch, Ukrainisch, Polnisch, Englisch) auf einer Grundstufe, die es ermöglichen würden, den Inhalt von Karten (in englischer „Infobox“, vereinfacht - Tabellen mit Daten) von Wikipedia-Artikeln zu vergleichen. Kenntnisse in Weißrussisch werden ebenfalls empfohlen - dann besteht die Möglichkeit, die Qualität in allen verfügbaren 5-Sprachversionen zu vergleichen.

Um am Spiel teilnehmen zu können, ist eine Registrierung erforderlich. Nachdem Sie den Aktivierungscode per E-Mail erhalten haben, können Sie auf Wikipedia um Qualität "kämpfen"!)

Karten werden in 5 (4) Sprachversionen zum gleichen Thema auf dem Bildschirm angezeigt. Dies kann beispielsweise eine Stadt, ein Computerspiel, eine Universität, ein Unternehmen oder ein anderes Objekt sein. Zum bequemen Vergleichen von Daten können Fenster mit Karten verschoben werden. Für jede Sprachversion können vier Optionen für die darin enthaltenen Daten angegeben werden: die beste Qualität, die beste Vollständigkeit, die beste Relevanz, die beste Zuverlässigkeit.

Im Idealfall sollte jede der verfügbaren Optionen nur einmal innerhalb von 5 (4) Sprachen überprüft werden. Das heißt, Wir müssen herausfinden, wer in jeder der vier „Nominierungen“ der Beste ist. Es gibt jedoch Ausnahmefälle, in denen zwei Sprachversionen gleichzeitig die besten sein können. Dann bietet das Spiel dem Spieler an, auch einen Kommentar hinzuzufügen, mit Informationen darüber, warum er (sie) dies denkt.

Um zu den nächsten fünf (vier) Karten zu gelangen, klicken Sie auf "Weiter". Und wir wiederholen nach dem oben beschriebenen Schema.

Für die im Spiel geleistete Arbeit wird "Erfahrung" gesammelt, was zu einer Erhöhung des Levels führt.

Aufgrund der Tatsache, dass die Forschung hauptsächlich von Spezialisten für maschinelles Lernen und Datenanalyse durchgeführt wird, ist die Gamifizierung des Dienstes keine Stärke dieses Projekts;) Dies muss noch gelernt werden. Gerne verweise ich auf nützliche Materialien in diese Richtung.

Im Allgemeinen ist das Projekt gemeinnützig. Jede Hilfe wird geschätzt)

Ein bisschen Theorie


Was ist Datenqualität ? Die Frage ist nicht einfach und die wissenschaftliche Gemeinschaft hat keine einzige Definition - alles hängt vom Kontext ab;) Die Qualitätsbewertung ist zunächst ein subjektives Konzept und hängt von einer bestimmten Person, ihrem Wissen und ihrer Erfahrung sowie der Nachfrage nach diesen Informationen zu einem bestimmten Zeitpunkt ab. Einfach ausgedrückt kann Datenqualität als Benutzerfreundlichkeit definiert werden.

Um die Qualität der Daten bewerten zu können, müssen auch die verschiedenen Merkmale wie beispielsweise Vollständigkeit, Relevanz und Zuverlässigkeit berücksichtigt werden.

Vollständigkeit bedeutet in WikiBest, wie weit ein Objekt beschrieben wird. Das heißt, Sie müssen sehen, welche Eigenschaften auf der Karte eingegeben werden - sind alle Hauptparameter für dieses Objekt, die dem Leser zur Verfügung stehen. Wenn es sich beispielsweise um eine Stadt handelt, kann einer der wichtigsten Parameter sein: Bevölkerung, Fläche, Bürgermeister usw.

Die Relevanz hängt mit der Differenz zwischen den eingegebenen Parametern des Objekts und dem tatsächlichen Sachverhalt zusammen. Beispielsweise hat eine Karte mit dem ab 2018 angegebenen Wert eine höhere Relevanz der Bevölkerungsdaten als eine Karte, bei der derselbe Parameter seit 2016 relevant ist.

Die Zuverlässigkeit im Kontext des Spiels zeigt, wie viele Informationen von zuverlässigen Quellen unterstützt werden. Somit kann der Leser die Richtigkeit des eingegebenen Wertes eines bestimmten Parameters überprüfen.

Warum genau 5 Sprachen?


Wie bereits oben erwähnt, ist das Spiel Teil der wissenschaftlichen Forschung, an der ich direkt beteiligt bin. Ich kann mir der Grundkenntnisse dieser Sprachen sicher sein, um die erhaltenen Daten zu recherchieren.

Der optionale belarussische Abschnitt ist auf die Größe des belarussischen Wikipedia-Abschnitts zurückzuführen. Derzeit gibt es ca. 150 Tausend Artikel. Zum Vergleich: Das ukrainische Wiki enthält bereits mehr als 800.000, das russische - fast 1,5 Millionen ( Quelle ).

Das Hauptziel der laufenden Forschung ist es, die weniger entwickelten Sprachabschnitte von Wikipedia zu bereichern. In diesem Sinne hat die belarussische Sektion ein großes Potenzial - Daten aus anderen untersuchten Sprachsektionen können dort übertragen werden. Wir wissen jedoch bereits, dass die Qualität der Daten vom Thema und der Sprachversion abhängt. Daher müssen Sie zuerst den „Kandidaten“ für das „Kopieren“ bestimmen (tatsächlich ist eine Übersetzung dieser Daten noch erforderlich - dies ist jedoch kein Problem, wenn Sie die Semantik verwenden).

Source: https://habr.com/ru/post/de418713/


All Articles