Juego para mejorar la calidad de Wikipedia

Hoy, se anunció una versión beta del juego en línea WikiBest, que es parte de la investigación de Wikipedia sobre la calidad de los datos. Es de destacar que, en la actualidad, el juego te permite comparar la calidad de los datos en las versiones de Wikipedia en 5 idiomas: ruso, ucraniano, bielorruso, polaco e inglés. En un futuro cercano, está previsto ampliar el número de idiomas.

imagen

A pesar de su popularidad, Wikipedia a menudo es criticada por la mala calidad de la información. En el mundo científico, hay varios enfoques para la evaluación automática de la calidad de los artículos en esta enciclopedia gratuita. Sin embargo, una gran cantidad de problemas aún no se resuelven. Por ejemplo, ¿cómo evaluar o comparar automáticamente la calidad de los hechos individuales en diferentes versiones de idiomas sobre el mismo tema?

En Wikipedia, cada artículo puede tener varias versiones de idiomas (incluso más de 200). Por un lado, esto simplifica el acceso a la información para las comunidades lingüísticas individuales. Por otro lado, esto puede crear dificultades para determinar una mejor información, ya que Cada una de estas versiones se puede crear y editar independientemente una de la otra. Por ejemplo, los lectores y editores de la versión en inglés del artículo sobre Ekaterimburgo no necesitan saber qué está escrito sobre esta ciudad en la versión rusa de Wikipedia, aunque se puede esperar que la información en esta última sea de mejor calidad (por supuesto, esta regla no funciona en todos los casos; )).

El juego WikiBest fue creado con el fin de construir algoritmos para comparar automáticamente la calidad de los datos entre versiones de artículos en diferentes idiomas basadas en las decisiones de los usuarios (jugadores) en el futuro utilizando el aprendizaje automático y la inteligencia artificial. Esto puede ayudarlo a elegir información más completa, relevante y confiable que las versiones de Wikipedia en otros idiomas podrían enriquecer.

Dirección del juego

El primer video corto sobre cómo funciona WikiBest:



Características clave


Actualmente, los requisitos mínimos para un jugador son el conocimiento de 4 idiomas (ruso, ucraniano, polaco, inglés) en un nivel básico, lo que permitiría comparar el contenido de las tarjetas (en inglés "infobox", en simplificación - tablas con datos) de artículos de Wikipedia. También se recomienda el conocimiento del bielorruso, entonces habrá una oportunidad de comparar la calidad en todas las versiones disponibles de 5 idiomas.

Para participar en el juego es necesario registrarse. Después de recibir el código de activación por correo, ¡puede comenzar a "luchar" por la calidad en Wikipedia!)

Las tarjetas aparecen en la pantalla en 5 (4) versiones de idiomas sobre el mismo tema; por ejemplo, puede ser una ciudad, un juego de computadora, una universidad, una compañía u otro objeto. Para la conveniencia de comparar datos, se pueden mover ventanas con tarjetas. Para cada versión de idioma, es posible observar cuatro opciones con respecto a los datos contenidos en ellas: la mejor calidad, la mejor integridad, la mejor relevancia, la mejor confiabilidad.

Idealmente, cada una de las opciones disponibles debe verificarse solo una vez en 5 (4) idiomas. Es decir debemos determinar quién es el mejor en cada una de las cuatro "nominaciones". Sin embargo, hay casos excepcionales en que las versiones en dos idiomas pueden ser las mejores a la vez. Luego, el juego ofrece al jugador que agregue también un comentario, con información sobre por qué él (ella) piensa eso.

Para ir a las siguientes cinco (cuatro) tarjetas, haga clic en "Siguiente". Y repetimos de acuerdo con el esquema descrito anteriormente.

Por el trabajo realizado en el juego, se gana "experiencia", lo que conduce a un aumento en el nivel.

Debido a que la investigación se lleva a cabo principalmente por especialistas en aprendizaje automático y análisis de datos, la gamificación del servicio no es un punto fuerte de este proyecto;) Esto aún debe ser aprendido. Estaré encantado de enlaces a materiales útiles en esta dirección.

En términos generales, el proyecto es sin fines de lucro. Cualquier ayuda es apreciada)

Poco de teoría


¿Qué es la calidad de los datos ? La pregunta no es simple, y la comunidad científica no tiene una sola definición: todo depende del contexto;) Para empezar, la evaluación de la calidad es un concepto subjetivo y depende de una persona específica, su conocimiento y experiencia, así como la demanda de esta información en un momento dado. En pocas palabras, la calidad de los datos se puede definir como usabilidad.

Para evaluar la calidad de los datos, también es necesario tener en cuenta sus diversas características, como, por ejemplo, integridad, relevancia, fiabilidad.

En WikiBest, integridad significa cuán ampliamente se describe un objeto. Es decir necesita ver qué características se ingresan en la tarjeta: ¿son todos los parámetros principales para este objeto disponibles para el lector? Por ejemplo, si es una ciudad, entonces uno de los parámetros más importantes puede ser: población, área, alcalde, etc.

La relevancia está asociada con la diferencia entre los parámetros ingresados ​​del objeto y el estado real de las cosas. Por ejemplo, una tarjeta con el valor dado a partir de 2018 tendrá una mayor relevancia de los datos de población en comparación con una tarjeta donde el mismo parámetro ha sido relevante desde 2016.

La confiabilidad en el contexto del juego muestra cuánta información es respaldada por fuentes confiables. Por lo tanto, el lector puede verificar la exactitud del valor introducido de un parámetro particular.

¿Por qué exactamente 5 idiomas?


Como ya se mencionó anteriormente, el juego es parte de una investigación científica en la que estoy directamente involucrado. Puedo estar seguro del conocimiento básico de estos idiomas, por lo que puedo realizar investigaciones sobre los datos obtenidos.

En cuanto al bielorruso opcional, esto se debe al tamaño de la sección bielorrusa de Wikipedia. Actualmente hay aprox. 150 mil artículos. A modo de comparación, el Wiki de Ucrania ya contiene más de 800 mil, el ruso, casi 1,5 millones ( fuente ).

El objetivo principal de la investigación en curso es enriquecer las secciones de lenguaje menos desarrolladas de Wikipedia. En este sentido, la sección bielorrusa tiene un gran potencial: los datos de otras secciones de idiomas estudiados se pueden transferir allí. Sin embargo, ya sabemos que la calidad de los datos depende del tema y la versión del idioma, por lo que primero debe determinar el "candidato" para "copiar" (de hecho, la traducción de estos datos aún es necesaria, pero esto no es un problema cuando se utiliza la semántica).

Source: https://habr.com/ru/post/es418713/


All Articles