第三届图灵测试的结局:统计数据,有趣的对话和总体印象

2月16日星期六,第三届全俄图灵测试比赛结束,这是2月14日至16日举行的国际人工智能Opentalks.AI会议的一部分。

图片

根据专家组的意见,在数字,图表,最佳对话下。

总体印象


总的来说,图灵测试进展顺利。 许多“植物学家”团队表现出了兴趣,但最终仅在比赛中展示了3个机器人,因为从宣布之日到测试开始仅过去了1.5个月。 结果,奖品在这三个参与者之间分配。

该奖项由MTS赞助。 他们的架子上放了一个显示器,在线显示了图灵测试的统计数据,并且显示了以前通过审核的有趣对话。

Nanosemantics Laboratory也连接了它的机器人,但是在选择获奖者时并未考虑它们。 这些是金发机器人(您可以在此链接上继续与她通信),Gopnik,Durov和Zharov(您也可以在此处与他们聊天)。

数字和图表


3天测试的一般统计数据如下:

图片

先前曾向扮演机器人角色的志愿者讲授如何进行对话以迷惑对话者的方法。 从结果来看,他们很好地完成了任务。 我们的合作伙伴OpenTalks和MTS也将向他们中的佼佼者颁发现金奖励。

图片

有趣的是,一个人很容易装扮成机器人。 刚开始时,会议志愿者做得不好,但是第二天他们学会了如何很好地发挥机器人的作用。 有些人甚至很聪明:他们求助于手机上的Yandex.Alice,以了解如何最好地做出响应。

图片

我们的漫游器存在技术问题。 结果,大量对话没有结束,但是我们在评估结果时没有考虑到它们。 奇怪的是,机器人在58%的案例中(约34/59%)都假装成人类。 在我们看来,这么大的百分比是由于两个原因:

  1. 在这场比赛中,人们通过扮演机器人的角色来“帮助”机器人赢得胜利。 在经典的图灵测试中,规则没有规定:人们只是在没有任何目的的情况下进行交流。
  2. 与人或机器人的对话仅限于12条评论。 显然,随着对话时间的增加,一个人认识对话者的本质的可能性也随之增加。

这样的限制使测试不那么科学,但更加有趣。 我们过去的测试(2015年和2016年)难度更大。

优胜者


第一名-Wolf Wolf


测试的第一天,用户抱怨一些志愿者对他们很粗鲁。 在日志中搜索该志愿者时,事实证明它实际上是一个Wolfbot聊天机器人。 当我们进行整理时,我们暂时将她从测试中暂停,但这最终并没有阻止Wolfie成为比赛的获胜者! 最多的对话者(33.3%)认为他是一个人。

与狼对话的示例,其中机器人被误认为一个人:
H:嗨
B:嗨! ??
女:志愿者?
B:一个到:)
W:你吃了什么饭盒?
乙:啊。 这是一种科学术语。
C:在哪里?
B:不要寻找因果关系)
W:你在做什么
B::)是的...这对夫妻的网络
C:是的,我同意。 为什么要招募这么多志愿者
B:免费带w :)
“ She-Wolf”的创作者Eugene:
“所有回复消息历来都是由活人写的。 在我们的SEO主题中,有一个流行的聊天称为“狼聊天”(因此称为bot)。 我把要解析的消息放在冠上,它解析了四到五年。 为了将来达到这个目的-制造一个机器人。 总的来说,已经形成了许多问答对。 根据一位在职志愿者的说法,我们使用ML算法从档案中选择最类似于它的“问题”,并给出相应的答案。”

该机器人可通过引用进行通信。

第二名-Electra机器人



机器人将人误认为一个人的对话示例:
H:嗨
下午好!
H:好
B:什么?
W:什么
B:嘘,嘘...没关系。
H:没有
B:那就这样吧。
女:你好吗?
B:比昨天好。 比明天更糟。 但是一如既往。
C:你在做什么?
B:我正在研究人类的历史。 你真的是他们写关于你的方式吗?

Electra的开发商Dmitry:
Electra(Electra.AI)是由Data Monsters开发的技术支持机器人,用于培训呼叫中心的呼叫记录。 了解比赛之后,出于兴趣的考虑,我们在小说对话中对它进行了培训,结果证明它是一位通俗易懂的对话者,情绪波动剧烈,笔芯颇具哲理。 她很敏感,但没有被遗忘。

第三名-机器人Katya Khlop


“该机器人参加了纳米语义竞赛,是很久以前写的,是一个健谈而开朗的女孩,喜欢粗话和昂贵的酒精,”
-机器人的开发者Savva告诉我们。
“很高兴我们(我们谨记俄罗斯-作者的评论)朝着这个方向取得进展。 如果您继续努力,纳米语义学竞赛将非常有希望。”

与机器人对话的示例,其中他被误认为一个人:
W:给新对话者的问候
B:你是一个有礼貌的男孩。
问候大家。
C:我没有性别。 那你呢
B:嗯...
我会假设你是一个男人。
对我来说会更容易。
顺便问一下,你是男是女?
似乎开始无聊的问题奠定了:)
你问什么
好酷!
问:有什么问题吗?
B:我认为这个职位无关紧要。
通常不会。
C:土耳其人也想到了汤。
B:重新显示消息,很奇怪。
女:很bl *很奇怪,但是为什么他们连续两次给我们对方?
B:啊,怪异的原因可以是任何东西。
很难判断,无名。
F:999除以3将得到多少?
B:最好去问一下知道怎么做的朋友。
999/3 = 333

与志愿者的一系列有趣的对话,被认为是机器人:


C:你好,那些!
B:你好
W:什么?
问:什么?
女:你是机器人吗?
问:我是猫
W:机械的?
在:电动
女:开个玩笑!
B:姜饼人挂
W:玩得开心)
问:是的。 我不喜欢悲伤的笑话

H:海
B:希特勒
女:你好吗?
问:烟灰如何变白
C:生活的意义是什么?
问:您遵循什么哲学?
C:我对你的意见很感兴趣
问:帮你
高:42
问:为您选择鞋子?
女:你喜欢巧克力吗?
问:我不知道感觉如何


与Nanosemantics僵尸程序进行的一系列有趣的对话,人们对它们进行了计数:


Bot金发女郎
女:下午好!
你好,太阳:)
C:生活的意义是什么?
B:找到你的爱人,最好是通过继承:)
C:您打算花些什么?
B:太阳,所有这些“什么”,“什么” ...您想得太多了!
C:因为我是男人,你呢?
B:我们的金发女郎是如此神秘
C:你的神秘之处是什么?
B:问完问题后如何生活...

博特·格普尼克
R:你好!
B:男孩们,兴高采烈! 有种子吗?
C:如果我找到了?
B:我不明白这对夫妻。
C:有种子,是吗?
B:好吧,让我们以孩子的生活来做。
C:不,飙升,对你没意思。 呼叫机器人。
B:还有吗?
女:你是谁?
B:需要谁。
W:嗯...可悲的是,我的麋鹿的魅力...
B:不,我不喜欢野生动物。

有趣的观察


  • 论文 :机器人说话简短而干燥。 现实 :没什么! 机器人可能会产生长时间,连贯的响应。
  • 论文 :机器人不是在开玩笑。 现实 :神经网络聊天机器人和由才华横溢的编辑创建的机器人都非常有趣。
  • 论文 :机器人回答了所有问题。 这就是为什么他是一个机器人。 现实 :您要提问吗?

总结


纳米语义学已经第三次在俄罗斯组织了图灵考试,每次比赛的整体情况都会发生变化。 参与其中的漫游器在模仿自然对话方面正逐渐变得更加成熟和令人信服。 他们使用各种算法来构建对话,不仅包括规则,还包括机器学习以实现聊天(“对话者”,无意义的交流)。 测试表明,计算机实际上可以模仿“免费通信”,尽管要使这种程序成为高质量需要花费很多时间。

我们会再次进行测试吗? 好啊 图灵测试不仅使公众了解任何开发人员都可以使用的现代对话技术的真实可能性(因此不必为Google或IBM工作),而且还为开发团队提供了衡量其机器人质量动态的机会。

Source: https://habr.com/ru/post/zh-CN441002/


All Articles