智商语言测试中计算机的表现胜过人们

一百多年前,德国心理学家威廉·斯特恩(William Stern)提出了一种用于评估人类智力的测试,称为智商测试。从那时起,智商测试已成为一种广泛的标准方法,用于评估儿童入学时的智力以及评估成年求职者的智力。

智商测试通常包含三种类型的问题:1)关于逻辑的问题,其中您需要识别图像序列中的模式; 2)数学问题,需要在数字序列中定义模式; 3)基于类比和作为同义词和反义词的口头任务。

北京Microsoft Research的研究人员与中国科学技术大学的同事共同开发了可以解决上述第三类问题的AI技术(科学文章)。

计算机永远不会精通,无法解决以口头形式制定的任务。至少他们做的比人类差很多。微软研究院的发展正在改变着一切。他们的解决方案基于深度学习系统,首次超过了人们从智商测试中解决口头任务时所显示的平均结果。

在过去的几年中,科学家使用数据挖掘技术来分析大量文本,以找到单词之间的某些联系。特别是,此技术使您可以使用统计指示符来编译字典,该统计指示符用于指示某些单词在附近的定位频率。这使您可以确定单词之间的关系。

结果,在这样的系统中的每个单词被视为多维参数空间中的向量。这样的向量系统可以通过数学方法进行处理:像普通向量一样,对它们进行比较,相加,相减。例如,类似的等式变得可能:“国王-男人+女人=女王”。

这种方法已被证明是有效的。例如,谷歌在自动文本翻译系统中使用数据挖掘,比较不同语言的单词向量。

但是对于口头智商测试,任务很复杂,因为单个单词在这里可能具有多种含义。测试的编译器专门这样做,使任务复杂化。

微软研究部门的一组研究人员使用相同的数据挖掘找到了解决此问题的方法:他们的程序确定每个单词最常出现在文本数组中的单词,然后根据收到的信息确定该单词的可能含义。这是通过从结果句子计算向量来完成的。对于该程序,首先编译单词出现频率的矩阵,然后根据文本的语料库(维基百科文章),为每个单词指示其他单词的出现向量。



科学家说,该程序显示出比大多数人更好的结果。在Mechanical Turk网站上对人们进行了调查。



根据该表,其结果大约在结果之间的中间,这表明学士和硕士的平均成绩。

Source: https://habr.com/ru/post/zh-CN380839/


All Articles