人工智能如何帮助处理法律文件? 来自ABBYY的Egor Budnikov的演讲

最近,ABBYY技术部门的系统分析师Yegor Budnikov在Yandex的“ 数据与科学:法律和记录管理”会议上发表了讲话。 他讲述了计算机视觉的工作原理,文字处理过程,从法律文件中提取信息时应注意的重要内容等等。


-公司可能已经开发出用于数据分析和电子文档管理的方法,而用Word创建的文档可以来自客户或邻近部门到公司,同时可以进行打印,影印,扫描和带入闪存驱动器。

如何处理文档流(现在使用的是“脏”文档和纸质存储),以至于文档在扫描之前必须保存长达70年并必须被识别,这一事实如何处理?


ABBYY正在开发用于业务任务的人工智能技术。 人工智能应该能够做与人在日常或专业活动中所做的大致相同的事情,即:从图片或图片流中读取有关现实世界的信息。 这不仅可以是计算机视觉,还可以听取或识别来自传感器(例如,烟雾或温度传感器)的数据。 此外,来自这些传感器的数据进入系统,并且必须参与决策。 要成功实现此功能,系统必须防止出现愚蠢的逻辑错误,如图所示:


文本很难分析:语言的多样性和发展使它们漂亮而富有表现力,但这使它们的自动处理任务变得复杂。 通常,可以通过上下文确定特定单词的含义这一事实来克服单词的歧义,但是有时上下文为解释留下了空间。 在“ 这些类型的钢材有现货 ”一词中,就上下文而言,这是不可能绝对准确地理解的:房间里的人是在吃午餐,还是这些类型的钢材被存储在仓库中。 为了解决这种歧义,需要更广阔的背景。
拼贴的下部是电影“ Operation” Y“和Shurik的其他冒险”中的框架。

在一般情况下,人工智能或智能机器人必须能够在太空中移动并成功与物体进行交互-例如,一遍又一遍地捡起盒子,教练将其从手中敲下来。

最后,一般情报和知识表示:知识与信息的不同之处在于,它的各个部分相互之间进行主动交互,从而产生新的知识。 为了有效解决鸡尾酒混合的问题,您可以采用简单的方法:列出成分并指明混合的顺序。 在这种情况下,系统将无法回答有关其感兴趣主题的任意问题。 例如,如果用菠萝代替番茄汁会发生什么。 为了使系统更深入地掌握资料,数据库,分类法(逻辑上彼此相关的概念树),必须添加逻辑推理过程。 在这种情况下,我们可以说系统真正理解了它在做什么,并且将能够回答有关该过程的任意问题。

ABBYY开发的人工智能处理文档,即将纸张,扫描件和电子媒体转换为从这些文档中提取的结构化信息。 让我们关注两个方面,例如计算机视觉和文字处理。 计算机视觉使您可以将PDF,扫描的图像,图片转换为可编辑的文本格式。 为什么这是一项艰巨的任务? 首先,文档可以具有任意结构。
图片
这意味着您首先需要解决文档的结构分析问题:了解文本块,图片,表格,列表的位置,然后确定它们之间的交互方式。 其次,文档可以使用不同的语言。 这意味着有必要支持检测不同类型的书写,并支持识别彼此之间可能非常不同的单词和字符的能力。 第三,图像是来自现实世界的,这意味着它们可能发生任何事情。 它们可能会变形,以错误的角度拍摄,可能会留下咖啡渍,打印机出现条纹,然后从扫描仪出现条纹。 必须以某种方式管理所有这些,以便随后提取信息。

图像识别如何与我们合作? 在第一阶段,我们接收并处理图像。 调整文档水平,纠正变形。 然后对页面结构进行分析,在此阶段找到并确定块的类型。 定义块时,行或列对齐,您可以将这些行划分为单词和符号-例如,通过黑色分布的垂直和水平直方图。



因此,可以确定符号和单词的边界在哪里,然后识别这些符号和单词是什么。 最后,将识别出的块合成为单个文本文档并导出。

您可以从不同级别的实体的角度来看这个过程。 首先,我们有一个分页的文档。 然后,应将这些页面划分为块,将块划分为行,将行划分为单词,将单词划分为字符,然后必须识别这些字符。 之后,我们将识别的字符收集到单词中,将单词收集到行中,将行收集到块中,将块收集到页面中,将页面收集到文档中。 此外,在返回的过程中,初始分区可能会有所不同。 最简单的示例是,如果最初损坏的块属于同一编号的列表,那么它们最终应属于结构化列表类型的同一块。 换句话说,相邻步骤可以相互影响以提高识别质量。

该文档已被识别,然后您需要从中提取信息。 文档可以分为结构化的和结构化的。 更有条理的包括名片,支票,发票。 较少的结构包括授权书,章程,杂志上的文章。 如果文档的类型是固定的,或多或少是结构化的,并且此类型内的文档在结构上彼此之间几乎没有区别,则可以应用学习使用文本和图形属性直接从文本文档中提取必要属性的方法。 例如,使用递归神经网络,您可以从发票中提取产品项目。 发票是一种文件,其中提供了货物的位置以及对这些货物的付款方式的说明。

图片

另一个例子是支票。 使用卷积神经网络,您可以检索单个属性,例如TIN,支票号码,日期时间,总分。 坦白地说,支票和发票中都使用了方法和支票,但是目的是不同的。 卷积神经网络适用于具有某种位置的单个属性,而递归网络则适用于重复元素。

图片

如果文档的结构性较差,则自然语言处理,自然语言处理或NLP方法将发挥作用。 为什么很难? 我已经讲过单词的多义性。 例如,地址一词可以表示公司的地址,也可以表示其致力于解决某些客户问题的承诺。


此外,通常会省略文本,但暗含单词。 为了提取信息,您需要恢复这些丢失的单词。 语言学上的这种效果称为“省略号”。

语言是多种多样的,通常有无数种表达同一思想的方式。 为了自动处理文本,必须以某种方式减少这种可变性:使用同义词和类似结构来替换单个单词或表达式; 单词置换或语法语音变化。 例如,“公司达成协议”和“公司之间达成协议”就是为了说同样的话。 在同义词的情况下,可以引入所谓的语义空间,即其中单词表示为点的矢量空间。 封闭点表示相关概念,较远的点表示较远的概念。 为了减少表述的可变性,可以引入句法和语义分析树。 在这种情况下,也解决了类似的问题,即使信息提取算法遇到训练集中先前未找到的结构或单词,该信息提取算法也能够提取信息。

如何提取信息? 在第一阶段,对文档进行词法分析。 文本分为段落,段落分为句子,句子分为单词。 这可能并不简单:熟悉NLP的人可能知道,即使将文本拆分为句子这样看似简单的任务也可能很困难:点并不总是表示句子的结尾。 这些缩写可能是未知的,因此,在词法分析中,我们尝试找出将句子分解为单词的所有可能选择,并保留最可能的选择。 通常,我们会在使用少量或完全没有空格的语言(例如日语或中文)中遇到此问题。 或具有丰富的单词构成的人。 例如,这是德语之类的语言:它有很长的单词,由多个单词组成(此类单词称为复合词)。 同样,对于所有这些单词,将计算所有可能的解释。 例如,如果“ g”出现在带点的文本中,则可能意味着很多:城市,年份,克,领主,甚至第四段(a,b,c,d)。

图片

然后进行分割,即搜索我们感兴趣的部分。 它的产生是出于多种原因,例如,为了加快文档处理速度或查找我们感兴趣的信息; 在文件中找到描述当事方义务的部分。 或这是处理的加速,例如,在特别高级的情况下,我们的文档可能包含数十甚至数百页,而有趣的信息仅包含在几页中。 通过细分,您可以找到这些有趣的片段并仅对其进行分析。 然后,可能会或可能不会执行文档的语义分析,这取决于任务,在此阶段,将搜索句子,文档的所有句子或仅在上一阶段找到的句子的最佳解释。 下一步还将生成分类器的语义特征。

最后是直接提取属性的阶段。 这里使用机器训练的模型,或者编写简单的模式。 一种或另一种方式,它们依赖于先前步骤生成的信号。 这些是词汇和语义的结构特征。 根据任务的复杂性,我们使用许多不同的方法:机器学习方法和模板编写方法。 在此阶段,我们正在寻找我们感兴趣的属性。 它可以是当事方的名称,义务,签署日期等。

最后,某些属性可能需要后处理。 恢复为正常形式或转换为日期模板。 某些属性原则上可以计算,它们不是从合同中提取的,而是基于从合同中提取的那些属性来计算的。 例如,合同的期限基于操作的开始和结束。

在其中一种情况下考虑此问题,这称为“在法人实体中开设帐户”。 挑战是什么? 法人实体,或更确切地说是其代表,来到银行,带来了一大堆文件。 在一个很好的情况下,他已经扫描了这些文档,但不清楚其质量如何。 为了优化流程,减少将这些信息输入系统的错误数量,加快流程速度,从而加快决策速度并提高客户忠诚度,提出了以下方案:



包含很多不同类型的组成文档首先被扫描,然后被识别。 而且,在识别之后,它们按照不同的类型进行分类,并且根据类型,可以使用不同的算法来识别和提取信息。 然后,如果有必要,此提取的信息将发送给人们进行验证,然后就可以做出决定:开设帐户或需要其他一些文件。 这项决定的主要结果是将开户时的数据输入成本降低了一半。 根据我们客户的测量结果。

您需要检索哪些属性? 很多东西。 假设我们有某种宪章进来。 首先,我们认识到它。 我们记得,如果是扫描件或照片,这可能会很成问题。 然后,我们确定文档的类型,这很重要,因为我们所需的信息可以包含在特定的章节或子条款中,因此了解本章或子条款何时开始或结束将极大地帮助信息提取算法。



然后机器检索它可以到达的所有基本实体:



这是必要的,以便在提取属性或定义角色的下一阶段,该算法不仅可以使用上下文,还可以使用在先前阶段中生成的特征。 例如,它可以大大简化确定谁是法人实体的负责人的任务,但要知道这是某种人。 因此,在文件中出现的一组人员中,我们必须对他们进行分类,无论是董事还是董事。 当我们的对象数量有限时,这大大简化了任务。

在过去的两年中,我们遇到了更多的客户任务并成功解决了它们。 例如,媒体监视公司风险。



这里的业务挑战是什么? 例如,您有一个潜在的合作伙伴或客户想要向您贷款。 为了加快处理此客户的数据并减少不良合伙关系或该法人将来破产的风险,建议对媒体进行监视以参考该个人或法人以及新闻中是否存在所谓的风险指标。 也就是说,例如,如果在新闻中不断弹出法人实体参与法律诉讼或公司因股东冲突而破产的情况,那么最好早点找到它,以便将该信息传递给分析师或分析系统,并了解其对您的业务有多不利。 解决此问题的结果是获得有关借款人的更完整和准确的信息,并且获得此信息的时间也减少了。



在将信息输入系统时必须减少例程数量和减少错误数量的应用程序的另一个示例是从合同中提取数据。 建议合同识别,从中提取信息并将其立即发送到系统。 此后,人事部门热切地感谢您,每次会议都热烈欢迎您。


人力资源部门不仅要处理大量的日常工作,还要处理会计部门,销售部门和采购部门的日常工作。 员工必须花费大量时间输入发票,进货单等信息。



实际上,所有这些文档都是结构化的,因此很容易识别它们并从中提取信息。 由于排除了人为因素,因此数据输入速度提高了5倍,并且减少了错误数量。 有条件的话,如果员工午饭后返回,他可能会不专心地输入数据。 我们自己的测量和行业,一种或另一种方式是将信息手动输入到系统中,这表明如果一个人从文档中输入数据并持续不断地进行处理,则他获得的质量很少超过95%,并且频率更高,超过90%。 因此,一个人需要比一个机器后面更多地被盘点,仔细检查。

此外,如果机器对未提取的文件进行某种程度的评估(例如,某些文档可能很脏),并且机器不确定是否这样做,但是它可以向验证者发送信号,表明对结果不是很确定:“请仔细检查。” 一个人会仔细检查个人信息,以确保其质量高。 这不是常规操作:他只检查真正重要和困难的时刻,他的眼睛没有模糊。

如果可以从文档中提取信息,则可以对这些信息进行比较。



这在两种情况下很重要。 首先,为了比较一个文档的不同版本,例如长期以来一直保持一致的合同,双方一直在不断对其进行修改。 其次,这是对各种类型文档的比较,例如,如果达成协议表明应从我们的合作伙伴那里得到什么,另一方面,发票和报告,估计等也有所不同。 我们需要将它们关联起来,并了解一切都井井有条,如果不井井有条,则会以某种方式向负责人员发出信号。

当前计算机视觉技术的发展,对结构化和非结构化文档的处理是如此之高,以至于在现在和未来几年,公司中的常规流程都将进行数字化转换,因为它更便宜,更快速且通常更好。

而且,所有这些方法绝不是要取代人。 而是,我喜欢与Excel工具进行比较的示例,在该示例中您可以执行很多操作,并且该工具无意替代分析师,经理或其他任何人。 它旨在扩展人员能力并简化他的任务解决方案。



因此,与人工智能相关的解决方案还旨在减少重复性日常操作的次数,在重复性日常操作中,人比机器经常犯更多的错误,以卸载公司的资源并指导他们解决更具创造性和智力的任务。 看来我们正在全力以赴。 谢谢啦

Source: https://habr.com/ru/post/zh-CN431934/


All Articles