
通过哈布雷的这篇文章,我们很高兴向您朋友们宣布,我们已经从模板化的结构化文档转变为对各种复杂结构化文档的认可。 相信我,这是一首完全不同的歌! 有关详细信息,请联系猫。
在有关哈布雷的每篇文章中,我们都不曾重复说我们的主要目标是在自然不受控制的条件下自动从任何文档输入数据而无需特殊设备。 在短短的几年内,我们设法将ID文档的识别系统提升到了工业水平,现在大多数金融应用程序(甚至包括一些具有国家重要性的应用程序)都使用我们的技术来加快和简化该应用程序的工作。
今年,我们的全球目标是不带模板和表格附加要求的情况下,识别所有文档。 与往常一样,识别应直接在设备(移动设备或功能强大的服务器)上执行。 在大部分时间用于内部审查之后,几乎完全重新设计了我们的基本象形文字技术,我们创建了通用文档识别程序的第一个版本-Smart DocumentReader。
Smart DocumentReader可以识别哪些文档
从结构上讲,Smart DocumentReader程序不包含对受支持文档类型的任何限制,并允许您配置对任何结构复杂的文档的识别。 文档可以包含各种语义元素:表格,复选框,手写填充区域等。 尽管我们的程序存在一个限制,而不是由移动设备的硬件功能引起的限制:识别文档的最大物理尺寸为A4格式。 但是,从俄罗斯联邦的官僚主义角度来看,这并不是一个强大的限制。 所有主要财务文件均打印在我们的A4页上:2-NDFL格式的证书,发票,发票,证书,运单(TTN),TORG12格式的运单,通用转帐文件(UPD),章程,合同,发票,问卷,申请等。
参考资料的确认2个人所得税
作为第一个示例,我们设置了Smart DocumentReader程序来识别2-NDFL形式的证书。 从实际使用的角度来看,这是一个非常受欢迎的文件,例如,银行在申请大笔贷款时需要此文件,而国家则需要此文件以接受减税。
从内部结构的角度来看,2-NDFL证书是结构复杂的文档的一个很好的例子:它包含必填字段和可选字段,几个表,各个属性之间存在逻辑关系,大量公认的字段。
Smart DocumentReader支持多页文档的识别。 为此,该程序应交替显示文档的所有页面。 在出现新页面时,整体识别结果将使用新数据进行更新。
与我们所有以前的产品一样,Smart DocumentReader可以在各种操作系统下的各种处理器体系结构上运行。 今天,我们支持Elbrus,Comdiv,SPARC,MIPS,ARM,x86,Sailfish Mobile OS RUS(Aurora),iOS,Android,Elbrus,Linux,Windows,macOS,Solaris操作系统。 至于识别速度,在手机上,可以在3-5秒内识别一页2-NDFL文档。
PS在本文中,我们几乎错过了技术部分,并期望在不久的将来出现一系列严肃的出版物,这些出版物涉及实现所提供功能的最重要细节。