O tão esperado passo em direção a documentos estruturados de forma complexa (+ vídeo)

imagem


Com este artigo sobre Habré, temos o prazer de anunciar a vocês, amigos, que passamos de modelos de documentos rigidamente estruturados para o reconhecimento de vários documentos de estrutura complexa. E isso, acredite, é uma música completamente diferente! Para detalhes bem-vindos em cat.


Em cada um de nossos artigos sobre Habré, nunca nos cansamos de repetir que nosso principal objetivo é automatizar a entrada de dados de qualquer documento em condições naturais não controladas, sem a necessidade de equipamentos especiais. Em apenas alguns anos, conseguimos levar o sistema de reconhecimento de documentos de identificação para o nível industrial e agora a maioria das aplicações financeiras (incluindo algumas aplicações de importância nacional) usam nossa tecnologia para acelerar e simplificar o trabalho com o aplicativo.


Para este ano, nosso objetivo global é o reconhecimento de qualquer documento, sem requisitos adicionais para modelos e formulários. Como sempre, o reconhecimento deve ser realizado diretamente no dispositivo (seja um dispositivo móvel ou um servidor poderoso). Depois de passar a maior parte do tempo em revisão interna, redesenhando completamente nossa tecnologia básica de hieróglifo, criamos a primeira versão do programa universal de reconhecimento de documentos - Smart DocumentReader.


Quais documentos são reconhecidos pelo Smart DocumentReader


Arquiteturalmente, o programa Smart DocumentReader não contém restrições aos tipos de documentos suportados e permite configurar o reconhecimento de documentos estruturados de forma complexa. Os documentos podem conter vários elementos semânticos: tabelas, caixas de seleção, áreas de preenchimento manuscrito, etc. Embora uma limitação, causada pelos recursos de hardware de dispositivos móveis, esteja presente em nosso programa: o tamanho físico máximo dos documentos reconhecidos é o formato A4. Mas, veja bem, essa não é uma forte limitação do ponto de vista da burocracia na Federação Russa. Todos os principais documentos financeiros estão impressos em nossas páginas A4: certificado no formato 2-NDFL, fatura, fatura, certificado, conhecimento de transporte (TTN), conhecimento de transporte no formulário TORG12, documento de transferência universal (UPD), fretamento, contrato , fatura, questionário, aplicação etc.


Reconhecimento de referências 2-imposto de renda pessoal


Como primeiro exemplo, configuramos o programa Smart DocumentReader para reconhecer certificados na forma de 2-NDFL. Do ponto de vista do uso prático, este é um documento muito popular, exigido, por exemplo, pelos bancos quando solicitam grandes empréstimos, pelo Estado para receber deduções fiscais.


Do ponto de vista da estrutura interna, o certificado 2-NDFL é um excelente exemplo de documento complexamente estruturado: contém campos obrigatórios e opcionais, várias tabelas, existe um relacionamento lógico entre atributos individuais, um grande número de campos reconhecidos.


O Smart DocumentReader suporta o reconhecimento de documentos de várias páginas. Para fazer isso, o programa deve mostrar alternadamente todas as páginas do documento. Após o surgimento de novas páginas, o resultado geral do reconhecimento será atualizado com novos dados.



Como todos os nossos produtos anteriores, o Smart DocumentReader é executado em uma ampla variedade de arquiteturas de processador em vários sistemas operacionais. Hoje, suportamos as plataformas de hardware dos sistemas operacionais Elbrus, Comdiv, SPARC, MIPS, ARM, x86, Sailfish Mobile OS RUS (Aurora), iOS, Android, Elbrus, Linux, Windows, macOS e Solaris. . Quanto à velocidade de reconhecimento, em um telefone móvel, um documento de 2 páginas NDFL de uma página é reconhecido em 3-5 segundos.


PS Neste artigo, praticamente perdemos a parte técnica, antecipando em um futuro próximo uma série de publicações sérias sobre os detalhes mais importantes que implementam a funcionalidade apresentada.

Source: https://habr.com/ru/post/pt453044/


All Articles