Nous traitons les erreurs et les «béquilles» dans le Registre d'État unifié des entités juridiques - le registre d'État des entités juridiques



La semaine dernière, nous avons publié un article sur le registre des registres - un registre d'État contenant des données de 10 millions d'entreprises. Ce matériel parle de choses de base, il est donc préférable de commencer par cela.

Ici, nous allons révéler un sujet riche et fertile - les problèmes du Registre d'État unifié des entités juridiques qui empêchent nos développeurs de s'ennuyer.

La structure XML se casse périodiquement


En 2017, tous les deux à trois mois, les mises à jour ont apporté des fichiers XML au mauvais format. Il existe un ensemble complet: balises inconnues, balises ouvertes, incompatibilité de type de données. Par exemple, dans xsd le type de date est spécifié, mais en fait il y a une chaîne incompréhensible.

Lorsque cela se produit, il reste à écrire au support technique et à attendre humblement. Rien de plus ne peut être fait. Mais il faut admettre qu'en 2018 il n'y a eu aucun problème, tout est clair.

Et dans le déchargement complet pour 2015 se trouve un xml cassé, qui ne sera jamais réparé. Le Federal Tax Service a déclaré qu'il était au courant, mais n'avait pas l'intention de le réparer: prenez, disent-ils, les mises à jour suivantes.

Les mises à jour apparaissent dans des dossiers de dates anciennes


Situation: vous avez téléchargé le livre de référence complet au début de 2018, appliqué toutes les mises à jour et téléchargé les mises à jour quotidiennement. Vous êtes détendu et serein, car vous savez: dans votre base de données les données les plus pertinentes sur les personnes morales.

Mais vous avez encore manqué un fait: hier soir, le Federal Tax Service a non seulement publié la prochaine mise à jour, mais a également mis de nouveaux fichiers dans un dossier il y a trois mois. D'accord, votre base est obsolète.

Les mises à jour rétroactives sont de deux types:

  • Modifier les fichiers existants
  • ajoutez-en de nouveaux.

Pour retirer quelque chose, nous n'avons pas vu.

Nous nous débattons avec tout cela ici. Notre répertoire local contient la tranche de données actuelle du serveur FTS - la norme. Chaque nuit, nous téléchargeons absolument toutes les archives du serveur de registre et les comparons avec la norme.

Nous trouvons clairement les nouveaux fichiers: ils n'existent tout simplement pas dans le répertoire local. Si le fichier l'était, mais que les dates de son changement dans la référence et les nouvelles bases de données sont différentes, comparez les sommes de contrôle. Lorsque ceux-ci sont différents, prenez un nouveau xml-ku et appliquez la mise à jour.

Mais il y a une nuance! Parfois, des informations non pertinentes arrivent rétroactivement dans la mise à jour, alors elles ne peuvent pas être appliquées. Maintenant, il y aura un exemple légèrement déroutant, surveillez vos mains.

Supposons que le 21 mai, une mise à jour ait été publiée pour LLC Romashka. Il se trouve dans le dossier 21/06/2018 . Et le 22 mai, le Service fédéral des impôts a déposé un dossier dans l'annuaire le 20/06/2018 , il y avait aussi quelque chose à propos de «Daisy». C'est quelque chose que nous ne toucherons pas. Bien que le nouveau fichier soit récent, son contenu n'est pas pertinent en raison de la mise à jour du 21 mai.

Les enregistrements disparaissent entre les années


Il semblerait que si vous prenez l'archive 01/01 / 2015_FULL et que vous effectuez ensuite toutes les mises à jour pour 2015, vous obtiendrez des données à partir du 01/01 / 2016_FULL. Et non!

La situation habituelle de notre monde imparfait:

  1. Tout 2016 dans le registre il n'y a rien sur l'entreprise. Ni dans les archives complètes du début de l'année, ni dans les mises à jour.
  2. Le 01.01.2017_FULL, l' entreprise apparaît soudainement et vit tranquillement toute l'année.
  3. Et puis bam - le 01/01 / 2018_FULL il n'y a plus d'entreprise. Avec un peu de chance, elle viendra plus tard dans l'une des mises à jour, mais pas du tout un fait.

Environ 1000 personnes morales disparaissent d'année en année.


Cette merveilleuse LLC n'a été allumée qu'une seule fois dans le Registre d'État unifié des entités juridiques: lors de la mise à jour du 21/02/2017. Il n'y a pas d'entreprise ailleurs, pas dans un déchargement complet

Par conséquent, il ne fonctionnera pas de prendre un déchargement complet au début de l'année et d'appliquer toutes les mises à jour jusqu'à aujourd'hui. Veuillez commencer à partir de 2015, sinon votre registre sera incomplet.

Xsd change soudainement


À quelques reprises depuis 2015, le Federal Tax Service a soudainement changé xsd. Cela ressemble à ceci: une mise à jour vient, vous essayez de l'analyser selon l'ancien format, mais rien ne fonctionne. Revigore!

S'adapter au nouveau xsd est, en général, une chose de tous les jours. Le problème est que personne ne met en garde contre les changements. Voltige aérienne - affichez une annonce dans une section arbitraire sur le site Web du Federal Tax Service, mais ce n'est généralement pas le cas. Vous apprendrez tout sur le fait.

On ne sait pas comment identifier les affiliés.


Comme je l'ai dit dans un article précédent, les succursales de l'USRLE ne sont pas des enregistrements distincts, ce sont des attributs d'entités juridiques. Selon la loi, les succursales et les bureaux de représentation ne peuvent exister par eux-mêmes, c'est pourquoi ils sont stockés dans les registres de la société principale.

Mais nos clients ont leurs propres besoins: ils fournissent des services aux succursales d'autres sociétés, signent des documents communs avec eux et maintiennent des succursales dans leurs systèmes comptables en tant qu'entités distinctes. Pour cette raison, nous transformerons les succursales et les bureaux de représentation d'USRLE en cartes distinctes et lierons le dossier principal.

Les cartes d'affiliation créées doivent être identifiées. La structure USRLE prévoit PPC, un nom abrégé, un nom complet et même le nom en latin. Mais pour le rendre plus amusant, le Federal Tax Service est garanti de ne remplir que l'adresse. Comment afficher les branches, pas pour afficher les adresses.


Un exemple typique: les branches du déchargement n'ont qu'une adresse

Tout d'abord, nous regardons toujours sur le terrain avec un nom abrégé: tout à coup quelque chose se trouve là. Dans 50% des cas, le champ n'est vraiment pas vide, mais même alors, il est trop tôt pour se réjouir: le nom peut être le même pour toutes les branches d'une personne morale. En tant qu'identifiant, cela n'est pas plus utile qu'un champ vide.

Si le nom de la branche est vide ou non unique, nous le créons nous-mêmes.

Pour un exemple nous prendrons tout de même la LLC "Camomille". Il a trois branches avec des noms vides et de telles adresses:

  • Moscou, Turchaninov Lane;
  • Moscou, remblai d'Ozerkovskaya;
  • Saint-Pétersbourg, perspective Nevsky.

Nous prenons les données de l'entreprise qui sont et les transformons en un identifiant sain de nom de la succursale.

  1. Ajoutez le mot «succursale» ou «division» dans le nom, différents attributs leur ont été fournis dans le registre d'État unifié des entités juridiques.
  2. Inclure dans le nom le nom abrégé de l'organisation principale. Maintenant, nous avons trois noms identiques "Branch of LLC Romashka".
  3. Nous prenons les adresses des branches et entre parenthèses nous ajoutons aux noms les différentes parties des adresses.

    Nous attribuons l'adresse à une partie unique: pour les deux premières branches de «marguerites», c'est l'adresse complète, et pour la troisième - seulement «Saint-Pétersbourg». Si toutes les villes étaient différentes, elles ajouteraient uniquement des villes aux noms des succursales.

Dans notre exemple, les branches seront les suivantes:

  • «Succursale de LLC Romashka (Moscou, Turchaninov Lane)»;
  • «Succursale de LLC Romashka (Moscou, quai d'Ozerkovskaya)»;
  • "Succursale de LLC Romashka (Saint-Pétersbourg)."

Oui, si la branche de l'USRLE a un nom, mais pas unique, nous sautons les deux premières étapes. Nous ajoutons la partie adresse à ce nom non unique.

Nous prenons l'adresse pour le nom au maximum jusqu'à la rue, car l'enfer commence par la partie maison comme «dmvld 3, building 5, room 14/51, du. 145. " C'est difficile à démonter, mais dans le nom de la branche, ça a l'air ridicule. Par conséquent, nous réunissons des succursales situées dans la même rue. Il y a même différentes branches dans le même bâtiment! Heureusement, il y en a peu.

Il suffit de prendre et de connecter le registre ne fonctionne pas


En plus de ces problèmes, le Registre d'État unifié des entités juridiques regorge d'erreurs au niveau des symboles, des adresses et d'autres bagatelles. Par exemple, quand au lieu de «LLC» vous rencontrez trois zéros dans le répertoire, ce n'est même pas surprenant.

Il y a aussi des adresses avec des erreurs, où sans elles. Par exemple, «Leningrad» au lieu de «Saint-Pétersbourg» est un cas très important. Une option plus banale: l'adresse de l'organisation Zheleznodorozhny dans la région de Moscou est indiquée comme une ville, bien qu'il s'agisse d'un quartier de Balashikha depuis plusieurs années.

En fait, tout est vrai dans l'annuaire, car l'USRLE stocke les détails des documents constitutifs de l'organisation. Mais pour travailler avec la base de données, pour la rechercher, il faut que les données deviennent réalité. Nos utilisateurs recherchent des organisations situées à Saint-Pétersbourg et non enregistrées à Leningrad.

Par conséquent, ouvrir le Registre d'État unifié des entités juridiques et obtenir une base adaptée à l'exploitation industrielle est une autre tâche. Permettez-moi de vous rappeler les volumes: si vous prenez le livre de référence complet début 2015 et toutes les mises à jour jusqu'à aujourd'hui, vous obtenez 100 millions d'entrées.

Pour analyser l'USRLE, nous avons écrit un algorithme: il reçoit toutes les entrées à l'entrée depuis 2015, et à la sortie, il donne 10 millions d'entrées pertinentes. Gère quelque part en une heure. Une partie importante du processus est notre produit à client unique . Il nettoie les données: nettoie les adresses, trouve les doublons, corrige les fautes de frappe.

Si vous aimez analyser des ouvrages de référence complexes, structurer des données et les amener à une forme humaine, venez chez nous pour travailler. Maintenant, nous recherchons un javista, salaire - 195 000-250 000 avant déduction, détails - sur hh.ru. Et vous avez également besoin d'un QA: de 115 000 à 150 000 ₽, détails sur le même hh .

Source: https://habr.com/ru/post/fr414885/


All Articles