今天,宣布了WikiBest在线游戏的Beta版,这是Wikipedia数据质量研究的一部分。 值得注意的是,目前该游戏允许您比较Wikipedia的5种语言版本的数据质量:俄语,乌克兰语,白俄罗斯语,波兰语,英语。 计划在不久的将来增加语言数量。

尽管流行,但维基百科经常因信息质量差而受到批评。 在科学界,有许多方法可以
自动评估该免费百科全书
中文章
的质量 。 但是,许多问题仍未解决。 例如,如何自动评估或比较同一主题上不同语言版本的单个事实的质量?
在Wikipedia上,每篇文章可以有几种语言版本(甚至超过200种)。 一方面,这简化了各个语言社区对信息的访问。 另一方面,这可能会导致难以确定更好的信息,因为 这些版本中的每一个都可以彼此独立地创建和编辑。 例如,关于叶卡捷琳堡的文章的英文版的读者和编辑们不需要知道俄语版的Wikipedia中关于这座城市的文字,尽管可以预期后者中的信息质量可能更好(当然,该规则并非在所有情况下都有效; ))。
创建WikiBest游戏是为了构建算法,以便将来使用机器学习和人工智能根据用户(玩家)的决策自动比较文章的不同语言版本之间的数据质量。 这可以帮助您选择其他语言版本的Wiki可以充实的更完整,相关和可靠的信息。
游戏地址关于WikiBest如何工作的首个短视频讲座:
主要特点
当前,对玩家的最低要求是基本具备4种语言(俄语,乌克兰语,波兰语,英语)的知识,这将允许比较Wikipedia文章中卡片的内容(以英语“ infobox”,简化为带有数据的表格)。 还推荐使用白俄罗斯语知识-这样就有机会比较所有可用的5种语言版本的质量。
参加游戏需要注册。 在收到邮件中的激活码后,您就可以在Wikipedia上开始为质量而战!)
卡片以相同主题的5(4)种语言版本出现在屏幕上-例如,它可以是城市,计算机游戏,大学,公司或其他对象。 为了方便比较数据,可以移动带有卡片的窗口。 对于每种语言版本,可能会注意到其中包含的数据的四个选项:最佳质量,最佳完整性,最佳相关性,最佳可靠性。
理想情况下,每个可用选项应仅在5(4)种语言中进行一次检查。 即 我们必须确定四个“提名”中谁是最好的。 但是,在某些特殊情况下,两种语言版本可能会同时达到最佳。 然后,游戏为玩家提供了一条注释,以及有关其想法的信息。
要转到接下来的五(四)张卡,请单击“下一步”。 并且我们根据上述方案重复。
对于游戏中完成的工作,获得了“经验”,这导致了等级的增加。
由于研究主要是由机器学习和数据分析方面的专家进行的,因此服务的游戏化并不是该项目的重点;)这仍然是必须学习的。 我很高兴在这个方向上链接到有用的材料。
一般来说,该项目是非营利的。 任何帮助表示赞赏)
一点理论
什么是
数据质量 ? 这个问题并不简单,科学界也没有一个单一的定义-这全取决于上下文;)首先,质量评估是一个主观的概念,取决于特定的人,其知识和经验以及在给定时间对这些信息的需求。 简而言之,数据质量可以定义为可用性。
为了评估数据的质量,还必须考虑其各种特征,例如完整性,相关性,可靠性。
在WikiBest中,
完整性是指对象的描述范围。 即 您需要查看在卡上输入了哪些特征-该对象的所有主要参数是否可供读取器使用。 例如,如果是城市,则最重要的参数之一可能是:人口,面积,市长等。
相关性与输入的对象参数和实际事务状态之间的差异相关。 例如,与自2016年以来具有相同参数的卡相比,具有2018年给定值的卡与人口数据的相关性更高。
游戏环境中的
可靠性表明可靠来源支持多少信息。 因此,读取器可以验证特定参数的输入值的正确性。
为什么是5种语言?
如上所述,游戏是我直接参与的科学研究的一部分。 我可以肯定这些语言的基础知识,因此可以对获得的数据进行研究。
至于可选的白俄罗斯语-这是由于Wikipedia的白俄罗斯语部分的大小。 目前大约有。 15万条。 为了进行比较,乌克兰Wiki已经包含了80万以上的俄语,几乎是150万(
来源 )。
正在进行的研究的主要目的是丰富维基百科中欠发达的语言部分。 从这个意义上说,白俄罗斯语部分具有很大的潜力-其他学习过的语言部分的数据可以在那里传输。 但是,我们已经知道数据的质量取决于主题和语言版本,因此首先您需要确定“复制”的“候选”(实际上,仍需要翻译此数据-但这在使用语义时不是问题)。