Hoje, uma versão beta do jogo online WikiBest foi anunciada, que faz parte da pesquisa da Wikipedia sobre qualidade de dados. Vale ressaltar que, atualmente, o jogo permite comparar a qualidade dos dados em versões em 5 idiomas da Wikipedia: russo, ucraniano, bielorrusso, polonês e inglês. Em um futuro próximo, está planejado expandir o número de idiomas.

Apesar de sua popularidade, a Wikipedia é frequentemente criticada pela baixa qualidade das informações. No mundo científico, existem várias abordagens para a
avaliação automática da qualidade dos artigos nesta enciclopédia livre. No entanto, um grande número de problemas ainda não foi resolvido. Por exemplo, como avaliar ou comparar automaticamente a qualidade de fatos individuais em versões de idiomas diferentes sobre o mesmo tópico?
Na Wikipedia, cada artigo pode ter várias versões de idioma (até mais de 200). Por um lado, isso simplifica o acesso à informação para comunidades linguísticas individuais. Por outro lado, isso pode criar dificuldades na determinação de melhores informações, como Cada uma dessas versões pode ser criada e editada independentemente uma da outra. Por exemplo, leitores e editores da versão em inglês do artigo sobre Ecaterimburgo não precisam saber o que está escrito sobre esta cidade na versão russa da Wikipedia, embora se possa esperar que as informações contidas nesta última possam ser de melhor qualidade (é claro, essa regra não funciona em todos os casos; )).
O jogo WikiBest foi criado para criar algoritmos para comparar automaticamente a qualidade dos dados entre versões de idiomas em separado de artigos com base nas decisões dos usuários (jogadores) no futuro, usando aprendizado de máquina e inteligência artificial. Isso pode ajudá-lo a escolher informações mais completas, relevantes e confiáveis que outras versões da Wikipedia possam enriquecer.
Endereço do jogoA primeira breve palestra em vídeo sobre como o WikiBest funciona:
Principais Funcionalidades
Atualmente, os requisitos mínimos para um jogador são o conhecimento de 4 idiomas (russo, ucraniano, polonês e inglês) em um nível básico, o que permitiria comparar o conteúdo dos cartões (em inglês "infobox", em simplificação - tabelas com dados) dos artigos da Wikipedia. O conhecimento de bielorrusso também é recomendado - haverá uma oportunidade de comparar a qualidade em todas as versões disponíveis em 5 idiomas.
Para participar do jogo é necessário o registro. Depois de receber o código de ativação pelo correio - você pode começar a "lutar" pela qualidade na Wikipedia!)
Os cartões aparecem na tela em 5 (4) versões de idiomas sobre o mesmo tópico - por exemplo, pode ser uma cidade, um jogo de computador, uma universidade, uma empresa ou outro objeto. Para a conveniência de comparar dados, janelas com cartões podem ser movidas. Para cada versão de idioma, é possível observar quatro opções relacionadas aos dados neles contidos: a melhor qualidade, a melhor integridade, a melhor relevância, a melhor confiabilidade.
Idealmente, cada uma das opções disponíveis deve ser verificada apenas uma vez em 5 (4) idiomas. I.e. devemos determinar quem é o melhor em cada uma das quatro "indicações". No entanto, existem casos excepcionais em que duas versões de idiomas podem ser as melhores de uma vez. Em seguida, o jogo oferece ao jogador que também adicione um comentário, com informações sobre por que ele (ela) pensa assim.
Para ir para as próximas cinco (quatro) cartas, clique em "Avançar". E repetimos de acordo com o esquema descrito acima.
Pelo trabalho realizado no jogo, "experiência" é conquistada, o que leva a um aumento no nível.
Devido ao fato de a pesquisa ser realizada principalmente por especialistas em aprendizado de máquina e análise de dados, a gamificação do serviço não é um ponto forte deste projeto;) Isso ainda precisa ser aprendido. Ficarei feliz em links para materiais úteis nessa direção.
De um modo geral, o projeto é sem fins lucrativos. Qualquer ajuda é apreciada)
Pouco de teoria
O que é
qualidade de dados ? A questão não é simples e a comunidade científica não possui uma única definição - tudo depende do contexto;) Para começar, a avaliação da qualidade é um conceito subjetivo e depende de uma pessoa específica, de seu conhecimento e experiência, bem como da demanda por essas informações em um determinado momento. Simplificando, a qualidade dos dados pode ser definida como usabilidade.
Para avaliar a qualidade dos dados, também é necessário levar em consideração suas diversas características, como, por exemplo, integridade, relevância, confiabilidade.
No WikiBest,
integridade significa a extensão em que um objeto é descrito. I.e. você precisa ver quais características foram inseridas no cartão - todos os principais parâmetros desse objeto estão disponíveis para o leitor. Por exemplo, se é uma cidade, um dos parâmetros mais importantes pode ser: população, área, prefeito etc.
A relevância está associada à diferença entre os parâmetros inseridos do objeto e o estado real das coisas. Por exemplo, um cartão com o valor fornecido em 2018 terá uma maior relevância dos dados da população em comparação com um cartão em que o mesmo parâmetro é relevante desde 2016.
Confiabilidade no contexto do jogo, mostra quanta informação é suportada por fontes confiáveis. Assim, o leitor pode verificar a exatidão do valor inserido de um parâmetro específico.
Por que exatamente 5 idiomas?
Como já mencionado acima, o jogo faz parte da pesquisa científica em que estou diretamente envolvido. Posso ter certeza do conhecimento básico dessas linguagens, para poder realizar pesquisas sobre os dados obtidos.
Quanto ao bielorrusso opcional - isso se deve ao tamanho da seção bielorrussa da Wikipedia. Atualmente, há aprox. 150 mil artigos. Para comparação, o Wiki ucraniano já contém mais de 800 mil, o russo - quase 1,5 milhão (
fonte ).
O principal objetivo da pesquisa em andamento é enriquecer as seções de idiomas menos desenvolvidas da Wikipedia. Nesse sentido, a seção bielorrussa tem um grande potencial - dados de outras seções de idiomas estudadas podem ser transferidos para lá. No entanto, já sabemos que a qualidade dos dados depende do tópico e da versão do idioma; portanto, primeiro você precisa determinar o "candidato" para "copiar" (na verdade, você ainda precisa traduzir esses dados - mas isso não é um problema ao usar a semântica).