ITMO国际
实验室 “智能信息处理方法和语义技术”负责人DPM和
IPM部门负责
人 Dmitry Muromtsev谈到了本体建模的实质,业务流程中知识图的使用以及创建对话智能的工作。
采访者:安娜·安杰洛娃(A.A.)
受访者:德米特里·莫罗姆采夫(D.M.)
机管局:本体建模的本质是什么?知识图的编译如何进行?
DM:本体建模是以满足某些标准的主题领域的概念性描述的形式来编译信息模型。 存在用于本体的特殊语言,它们是标准化的,并且已经在业界中使用。 本体的主要目标是描述可存在于多种来源中的数据和知识方案。 问题在于这些资源很多,它们在数据存储类型,软件体系结构等方面有很大的不同。要将它们连接到单个信息空间中,需要特殊的集成机制-它们正是本体。 当集成数据库,描述Internet上结构不良的数据,创建基于特定主题的知识库或非主题的大型知识库(例如基于Wikipedia信息)时,将使用它们。
创建过程本身就意味着领域专家的参与:专家总是参与那些将在知识列中提供数据的问题。 例如,这些可能是与文化遗产,医学,教育或任何生产相关的问题。
这些专家确定了关键概念-对于给定主题领域至关重要的对象。 例如,文化遗产是艺术品,这些物品的创造者,创作过程,修复过程或某种修改形式(如果是建筑对象,可以对其进行重建),则是展览,存储等问题。对于完整描述该主题而言,所有重要的内容由专家制定的领域。 进一步表示关系,即这些对象之间的关系。 这种形式化的描述允许随后查询知识图。
从技术上讲,转换过程可能非常复杂,并且包括许多工具:自然语言处理工具,机器学习,模式识别和许多其他工具。 最终,我们得到了互连对象的网络或图形。 与数据库不同,这种系统的关键特征是该网络具有自我描述性,自我记录性。 它不需要
开发人员的其他解释。
AA:知识图的范围是什么?
D.M .:几乎任何。 现在有了通用内容的知识图谱(最著名的是Google),还有Wikidata,Dbpedia,它们在覆盖范围方面更让人联想到Wikipedia。 有专门的知识图:根据公开的州数据,有关医学,文化遗产的知识。 公司知识专栏-位于公共领域。
机管局:告诉我们有关DataFabric的项目。 他们需要什么,取得了什么结果?
DM:让我们更广泛地
提出这个问题。 DataFabric的项目就是一个例子,我们有几个。 我们大约8年前开始活动。 我们将大部分时间用于语义技术的普及,进行各种
科学和教育活动 ,黑客马拉松等。我们定期与行业代表会面。 每年都会举行数十次此类会议,一些行业代表对此很感兴趣。
在使用DataFabric的情况下,主要是他们的专家在工作,我们就方法论方面咨询了他们,并推荐了某些技术和工具。 我们还检查了他们的结果-分析如何正确完成所有工作。 该公司的项目本身很有趣,因为它是俄罗斯第一个例子,当时企业已将自己的资金投入到知识图的开发,相关数据技术的开发中,并设法证明它可以盈利。 据我所知,该公司将继续使用创建的知识图并计划进行开发。 从其代表的发言中,我们可以得出结论,由于有了知识图谱,他们得以使大量的体力劳动自动化。 但是,要获取更准确的信息,最好直接与公司联系。
谢尔盖·伊萨耶夫(Sergey Isaev)
首席执行官DataFabric
我们想创建一个智能的交易对手验证系统并收集公司信息。 我们是一家非常小的公司,希望获得竞争优势。 我们的竞争对手-Spark Interfax,Kontur.Fokus-非常庞大,强大,已经投放市场很多年了,正因为那样,“直冲”,所以不可能与他们竞争。
我们收集的所有与竞争对手相同的公司信息:来自美国联邦税务局,罗斯达(Rosstat)和其他来源的数据。 我们将它们加载到单个数据库中。 由于我们有一个图,因此所有对象之间的连接都会出现在其中。 该系统使用本体建模:我们为它描述与它一起工作的所有数据的绝对价值。 因此,她开始了解上下文,某些数据的语义负载。 因此,她甚至可以被问到一些公开的问题,例如:“告诉我明年可能破产的所有公司。” 由于她了解这件事中每个单词的含义,因此将列出清单。
我不知道有多少竞争对手花费时间,金钱和精力来解决他们的问题。 但是我知道他们有数百名开发人员,而我们只有12个人,并且在一年半的时间内完成了系统的开发。 现在,由于它更智能,更灵活,因此您可以快速为新案例,新服务创建原型。
AA:您领导的实验室现场有很多合作伙伴。 他们中的哪个正在合作进行中的项目?
DM:如果我们从广义上进行合作,那么就分配的时间而言,俄罗斯联邦开放数据委员会将是主要的。 我们正在尝试在那里进行方法和研究工作,旨在将知识图谱推广给联邦当局和发布公开数据所需的其他结构。 现在,法律对公开数据的公开要求非常正式和有限。 我们正在试图证明这可以更有效地完成,这将为经济带来更大的利益。 我们还积极合作开发具有不同结构的电子学习技术,并与德国,芬兰和奥地利的几所大学开展了研究项目。
机管局:应该监视行业中公司的哪些活动?
DM:对于整个社区。 显然,从某种意义上说,大公司是成熟技术的指示器。 但是在奥地利上届
ISWC会议上-这是世界上最大的语义技术会议-谷歌的一份报告提出了许多问题:它们为自己提出的问题通常已经被更多的研究公司解决了。
通常,大型参与者通常不会从头开始研究。 他们提出了一个特定的问题,然后找到了一个可以解决此问题的团队,并开始与之合作或购买它(如果它是某种创业公司)。 也就是说,大型参与者更有可能发挥系统性作用。
如果您关注整个社区,那么您会发现许多提供最创新解决方案的有趣的研究小组,公司,初创公司。 例如,现在
聊天机器人 ,语音界面和其他系统
的发展趋势非常严重,一段时间后,它们将实际上是成熟的助手,助手。
AA:您的实验室也在开发语音处理项目。 其中两个指示在站点上:一个完成,另一个继续。 告诉我们他们。[注:“为可变文本案例研究开发计算机形态学”,2015-2016; “使用语义知识库的数据挖掘方法开发俄语自发语音句法分析器”,2015–2018]DM:第一个项目是由语音技术中心发起的-创建一个智能对话管理器。 现在存在的那些解决方案是非常原始的。 当客户致电组织或银行时,他们面临着困难,他不得不长时间从一条线路切换到另一条线路。 更高级的系统能够分析在识别过程中获得的文本,例如Siri,Amazon Alexa。 但是此机器文本的内容仍然未知。 顺便说一下,在俄罗斯,iPavlov项目是最近启动的,但是到目前为止,有关其结果的数据很少。
此外,一旦我们识别出语音信号,就需要了解它包含什么样的问题。 问题在于,当人们进行交流时,互动的语音渠道只是众多交流渠道之一。 从信息上说,他不是最忙碌的人。 有非语言交流的渠道,有关于世界的一般知识,人们可以理解的上下文等。在没有其他信息的情况下,几乎不可能理解它的含义。 如果我们将文本的成绩单并尝试将它们提供给某人(完全不包括上下文),那么即使是一个人也很可能无法理解它们。 因此,现在我们正在尝试创建分析器,以有效地处理语音并识别对象及其之间的关系-即,创建文本中包含的消息的信息模型。 并计划进一步开展工作,以使用来自其他来源的信息来丰富这些模型。
AA:您能详细说明吗? 已完成项目的研究方向与当前正在进行的项目有什么区别?
DM:这些是相互联系的方向。 如果没有案例研究,就不可能进行定性分析,因为您需要教文本识别模式的算法模式。 这是我们在第一个项目中所做的。 第二部分研究对象形成的原理。 文本包含对某些概念的描述。 这些概念本身可能比文本中提供的有关它们的信息更具启发性。 因此,您需要联系其他知识库和图表,并尝试从其他来源补充此信息。
假设客户致电支持部门并讨论问题。 他可能没有正确命名设备或使用系统的过程。 不需要用户拥有完整的技术信息。 当理解上下文时,系统可以使用来自其源的信息来补充用户数据。 这大大简化了问题识别过程。
第一个项目很小,是与语音技术中心合作进行的。 我们在其中证明了本体,语音识别系统和文本解析器的组合使用可以导致形成所谓的对话智能。 我们已经成功地展示了它是如何工作的。 下一阶段是在每个领域中进行更深入的研究。 在本体建模领域,我们不再通常使用语音,而是使用文化遗产领域中来自Internet的信息:如何对其建模,如何丰富它,如何对这些信息进行结构化搜索。 在解析领域,工作仍在继续。 我们在文本处理质量上取得了良好的结果。
下一阶段是这些领域的结合,并创建一个用于丰富来自各种来源(包括非文本模式)的数据的系统。
机管局:最后一个问题:实验室计划明年进行哪些工作?
DM:我们
明确了两个方向:物联网和对话智能。 第二个方向将成为主导。 物联网是一个支持方向:它是语音和文本界面(聊天机器人)的创建,用于与各种设备,机器人,信息系统进行交互。
所有这些将使人类与信息对象的交互更加透明和自然。