
Con este art铆culo sobre Habr茅, nos complace anunciarles, amigos, que hemos pasado de los documentos de plantilla r铆gidamente estructurados al reconocimiento de varios documentos de estructura compleja. Y esta, cr茅eme, 隆es una canci贸n completamente diferente! Para detalles bienvenidos bajo cat.
En cada uno de nuestros art铆culos sobre Habr茅, nunca nos cansamos de repetir que nuestro objetivo principal es automatizar la entrada de datos de cualquier documento en condiciones naturales no controladas sin la necesidad de equipos especiales. En solo unos a帽os, logramos llevar el sistema de reconocimiento de documentos de identidad al nivel industrial y ahora la mayor铆a de las aplicaciones financieras (incluidas algunas aplicaciones de importancia nacional) utilizan nuestra tecnolog铆a para acelerar y simplificar el trabajo con la aplicaci贸n.
Para este a帽o, nuestro objetivo global es el reconocimiento de cualquier documento, sin requisitos adicionales para plantillas y formularios. Como siempre, el reconocimiento debe realizarse directamente en el dispositivo (ya sea un dispositivo m贸vil o un servidor potente). Despu茅s de pasar la mayor parte del tiempo en una revisi贸n interna, redise帽ando nuestra tecnolog铆a b谩sica de jerogl铆ficos casi por completo, creamos la primera versi贸n del programa universal de reconocimiento de documentos: Smart DocumentReader.
Qu茅 documentos reconoce Smart DocumentReader
Arquitect贸nicamente, el programa Smart DocumentReader no contiene ninguna restricci贸n sobre los tipos de documentos admitidos y le permite configurar el reconocimiento de cualquier documento de estructura compleja. Los documentos pueden contener varios elementos sem谩nticos: tablas, casillas de verificaci贸n, 谩reas de relleno manuscrito, etc. Aunque, una limitaci贸n, causada m谩s bien por las caracter铆sticas de hardware de los dispositivos m贸viles, est谩 presente en nuestro programa: el tama帽o f铆sico m谩ximo de los documentos reconocidos es el formato A4. Pero, como puede ver, esta no es una fuerte limitaci贸n desde el punto de vista de la burocracia en la Federaci贸n de Rusia. Todos los principales documentos financieros est谩n impresos en nuestras p谩ginas A4: certificado en forma 2-NDFL, factura, factura, certificado, hoja de ruta (TTN), hoja de ruta en forma TORG12, documento de transferencia universal (UPD), carta, contrato , factura, cuestionario, solicitud, etc.
Reconocimiento de referencias 2-impuesto sobre la renta personal
Como primer ejemplo, configuramos el programa Smart DocumentReader para reconocer certificados en forma de 2-NDFL. Desde el punto de vista del uso pr谩ctico, este es un documento muy popular, que es requerido, por ejemplo, por los bancos cuando solicitan pr茅stamos grandes, por el estado para recibir deducciones fiscales.
Desde el punto de vista de la estructura interna, el certificado 2-NDFL es un excelente ejemplo de un documento de estructura compleja: contiene campos obligatorios y opcionales, varias tablas, hay una relaci贸n l贸gica entre atributos individuales, una gran cantidad de campos reconocidos.
Smart DocumentReader admite el reconocimiento de documentos de varias p谩ginas. Para hacer esto, el programa deber铆a mostrar alternativamente todas las p谩ginas del documento. Al aparecer nuevas p谩ginas, el resultado general del reconocimiento se actualizar谩 con nuevos datos.
Al igual que todos nuestros productos anteriores, Smart DocumentReader se ejecuta en una amplia gama de arquitecturas de procesador en varios sistemas operativos. Hoy admitimos los sistemas operativos Elbrus, Comdiv, SPARC, MIPS, ARM, x86, Sailfish Mobile OS RUS (Aurora), iOS, Android, Elbrus, Linux, Windows, macOS, Solaris . En cuanto a la velocidad de reconocimiento, en un tel茅fono m贸vil se reconoce un documento 2-NDFL de una p谩gina en 3-5 segundos.
PD: En este art铆culo, casi nos perdemos la parte t茅cnica, anticipando en un futuro cercano una serie de publicaciones serias sobre los detalles m谩s importantes que implementan la funcionalidad presentada.