Le pas tant attendu vers des documents structurés de manière complexe (+ vidéo)

image


Avec cet article sur Habré, nous sommes heureux de vous annoncer, amis, que nous sommes passés de modèles de documents à structure rigide à la reconnaissance de divers documents à structure complexe. Et ceci, croyez-moi, est une chanson complètement différente! Pour plus de détails, bienvenue sous chat.


Dans chacun de nos articles sur Habré, nous ne nous lassons pas de répéter que notre objectif principal est d'automatiser la saisie des données de tout document dans des conditions naturelles non contrôlées sans avoir besoin d'équipements spéciaux. En quelques années, nous avons réussi à porter le système de reconnaissance des documents d'identité au niveau industriel et maintenant la plupart des applications financières (y compris même certaines applications d'importance nationale) utilisent notre technologie pour accélérer et simplifier le travail avec l'application.


Pour cette année, notre objectif mondial est la reconnaissance de tous les documents, sans exigences supplémentaires pour les modèles et les formulaires. Comme toujours, la reconnaissance doit être effectuée directement sur l'appareil (que ce soit un appareil mobile ou un serveur puissant). Après avoir passé la plupart du temps sur la révision interne, ayant presque entièrement repensé notre technologie de base des Hiéroglyphes, nous avons créé la première version du programme de reconnaissance de documents universel - Smart DocumentReader.


Quels documents sont reconnus par Smart DocumentReader


Sur le plan architectural, le programme Smart DocumentReader ne contient aucune restriction sur les types de documents pris en charge et vous permet de configurer la reconnaissance de tous les documents structurés de manière complexe. Les documents peuvent contenir divers éléments sémantiques: tableaux, cases à cocher, zones de remplissage manuscrites, etc. Bien qu'une limitation, causée plutôt par les caractéristiques matérielles des appareils mobiles, soit présente dans notre programme: la taille physique maximale des documents reconnus est le format A4. Mais, voyez-vous, ce n'est pas une forte limitation du point de vue de la bureaucratie en Fédération de Russie. Tous les principaux documents financiers sont imprimés sur nos pages A4: certificat sous forme 2-NDFL, facture, facture, certificat, lettre de voiture (TTN), lettre de voiture sous forme TORG12, document de transfert universel (UPD), charte, contrat , facture, questionnaire, demande, etc.


Reconnaissance des références 2-impôt sur le revenu des personnes physiques


Comme premier exemple, nous avons mis en place le programme Smart DocumentReader pour reconnaître les certificats sous forme de 2-NDFL. Du point de vue de l'utilisation pratique, il s'agit d'un document très populaire, exigé, par exemple, par les banques lors de demandes de prêts importants, par l'État pour bénéficier de déductions fiscales.


Du point de vue de la structure interne, le certificat 2-NDFL est un excellent exemple de document complexe: il contient des champs obligatoires et facultatifs, plusieurs tableaux, il existe une relation logique entre les attributs individuels, un grand nombre de champs reconnus.


Smart DocumentReader prend en charge la reconnaissance des documents de plusieurs pages. Pour ce faire, le programme doit alternativement afficher toutes les pages du document. Lors de l'apparition de nouvelles pages, le résultat de reconnaissance global sera mis à jour avec de nouvelles données.



Comme tous nos produits précédents, Smart DocumentReader fonctionne sur une large gamme d'architectures de processeur sous différents systèmes d'exploitation. Aujourd'hui, nous prenons en charge les systèmes d'exploitation Elbrus, Comdiv, SPARC, MIPS, ARM, x86, Sailfish Mobile OS RUS (Aurora), iOS, Android, Elbrus, Linux, Windows, macOS, Solaris . Quant à la vitesse de reconnaissance, sur un téléphone mobile, un document 2-NDFL d'une page est reconnu en 3 à 5 secondes.


PS Dans cet article, nous avons pratiquement manqué la partie technique, anticipant dans un proche avenir une série de publications sérieuses sur les détails les plus importants qui implémentent la fonctionnalité présentée.

Source: https://habr.com/ru/post/fr453044/


All Articles