
Letzte Woche haben wir
einen Artikel über das Registerregister veröffentlicht - ein staatliches Register mit Daten von 10 Millionen Unternehmen. In diesem Material geht es um grundlegende Dinge, daher ist es am besten, damit zu beginnen.
Hier werden wir ein reichhaltiges und fruchtbares Thema aufzeigen - die Probleme des Unified State Register of Legal Entities, die verhindern, dass sich unsere Entwickler langweilen.
Die XML-Struktur wird regelmäßig unterbrochen
Im Jahr 2017 brachten Updates alle zwei bis drei Monate xmls in das falsche Format. Es gibt einen vollständigen Satz: unbekannte Tags, offene Tags, Nichtübereinstimmung des Datentyps. In xsd wird beispielsweise der Datumstyp angegeben, tatsächlich gibt es jedoch eine unverständliche Zeichenfolge.
In diesem Fall müssen Sie dem technischen Support schreiben und demütig warten. Mehr kann nicht getan werden. Aber wir müssen zugeben, dass es 2018 keine Probleme gab, alles ist klar.
Und beim vollständigen Entladen für 2015 liegt eine kaputte XML, die niemals repariert werden wird. Der Bundessteuerdienst sagte, sie wüssten davon, wollten es aber nicht reparieren: Nehmen Sie die folgenden Aktualisierungen.
Aktualisierungen werden in Ordnern mit längst vergangenen Daten angezeigt
Situation: Sie haben Anfang 2018 das vollständige Nachschlagewerk heruntergeladen, alle Updates angewendet und Updates täglich heruntergeladen. Sie sind entspannt und gelassen, weil Sie wissen: in Ihrer Datenbank die wichtigsten Daten zu juristischen Personen.
Aber Sie haben immer noch eine Tatsache übersehen: Letzte Nacht hat der Bundessteuerdienst nicht nur das nächste Update veröffentlicht, sondern vor drei Monaten auch neue Dateien in einen Ordner gelegt. Okay, deine Basis ist veraltet.
Rückwirkende Updates gibt es in zwei Arten:
- Ändern Sie vorhandene Dateien
- neue hinzufügen.
Um etwas zu entfernen, haben wir nicht gesehen.
Wir haben hier mit all dem zu kämpfen. Unser lokales Verzeichnis enthält das aktuelle Daten-Slice vom FTS-Server - den Standard. Jede Nacht laden wir absolut alle Archive vom Registerserver herunter und vergleichen sie mit dem Standard.
Wir finden die neuen Dateien deutlich wie: Sie existieren einfach nicht im lokalen Verzeichnis. Wenn die Datei war, aber die Daten ihrer Änderung in der Referenz und in den neuen Datenbanken unterschiedlich sind, vergleichen Sie die Prüfsummen. Wenn diese unterschiedlich sind, nehmen Sie ein neues xml-ku und wenden Sie das Update an.
Aber es gibt eine Nuance! Manchmal kommen irrelevante Informationen rückwirkend in das Update, dann können sie nicht angewendet werden. Jetzt wird es ein etwas verwirrendes Beispiel geben, achten Sie auf Ihre Hände.
Angenommen, am 21. Mai wurde ein Update für LLC Romashka veröffentlicht. Es liegt im Ordner
21.06.2008 . Und am 22. Mai legte der Bundessteuerdienst am
20.06.2008 eine Datei in das Verzeichnis, die auch etwas mit „Daisy“ zu
tun hatte. Dies werden wir nicht berühren. Obwohl die neue Datei frisch ist, ist ihr Inhalt aufgrund des Updates vom 21. Mai irrelevant.
Aufzeichnungen verschwinden zwischen Jahren
Es scheint, dass Sie Daten vom 01.01.2016_FULL erhalten, wenn Sie das Archiv 01/01 / 2015_FULL nehmen und anschließend alle Aktualisierungen für 2015 rollen. Und nein!
Die übliche Situation aus unserer unvollkommenen Welt:
- Alle 2016 im Register gibt es nichts über das Unternehmen. Weder im vollständigen Archiv zu Beginn des Jahres noch in den Updates.
- Am 01.01.2017_FULL erscheint das Unternehmen plötzlich und lebt das ganze Jahr ruhig.
- Und dann bam - am 01/01 / 2018_FULL gibt es wieder keine Firma. Mit etwas Glück wird sie später in einem der Updates kommen, aber überhaupt keine Tatsache.
Etwa 1000 juristische Personen verschwinden von Jahr zu Jahr.
Diese wundervolle LLC wurde nur einmal im Unified State Register of Legal Entities beleuchtet: in der Aktualisierung vom 21.02.2017. Es gibt nirgendwo anders eine Firma, nicht in einem vollständigen EntladenDaher wird es nicht funktionieren, zu Beginn des Jahres eine vollständige Entladung vorzunehmen und alle Aktualisierungen bis heute anzuwenden. Bitte beginnen Sie ab 2015, sonst ist Ihr Register unvollständig.
Xsd ändert sich plötzlich
Seit 2015 hat der Bundessteuerdienst einige Male plötzlich xsd geändert. Es sieht so aus: Ein Update kommt, Sie versuchen es nach dem alten Format zu analysieren, aber nichts funktioniert. Belebt!
Sich an die neue xsd anzupassen ist im Allgemeinen alltäglich. Das Problem ist, dass niemand vor Änderungen warnt. Kunstflug - Veröffentlichen Sie eine Ankündigung in einem beliebigen Bereich auf der Website des Bundessteuerdienstes, in der Regel jedoch nicht. Sie werden alles über die Tatsache erfahren.
Es ist unklar, wie Partner identifiziert werden sollen.
Wie ich in einem früheren Artikel sagte, sind Zweige in der USRLE keine separaten Datensätze, sondern Attribute von juristischen Personen. Nach dem Gesetz können Zweigniederlassungen und Repräsentanzen nicht allein existieren, weshalb sie in den Aufzeichnungen des Hauptunternehmens gespeichert sind.
Unsere Kunden haben jedoch ihre eigenen Bedürfnisse: Sie bieten Dienstleistungen für Niederlassungen anderer Unternehmen an, unterzeichnen gemeinsame Dokumente mit ihnen und unterhalten Niederlassungen in ihren Buchhaltungssystemen als separate Einheiten. Aus diesem Grund werden wir Niederlassungen und Repräsentanzen von USRLE in separate Karten umwandeln und an den Stammsatz binden.
Erstellte Affiliate-Karten müssen identifiziert werden. Die USRLE-Struktur sieht PPC vor, einen abgekürzten Namen, einen vollständigen Namen und sogar den Namen in lateinischer Sprache. Damit es noch mehr Spaß macht, gibt der Bundessteuerdienst garantiert nur die Adresse aus. Anzeigen von Zweigen, nicht Anzeigen von Adressen.
Ein typisches Beispiel: Die Zweige beim Entladen haben nur eine AdresseZuerst schauen wir noch mit einem abgekürzten Namen auf das Feld: Plötzlich liegt etwas da. In 50% der Fälle ist das Feld wirklich nicht leer, aber selbst dann ist es noch zu früh, um sich zu freuen: Der Name kann für alle Zweige einer juristischen Person gleich sein. Als Bezeichner ist dies nicht nützlicher als ein leeres Feld.
Wenn der Name des Zweigs leer oder nicht eindeutig ist, erstellen wir ihn selbst.
Als Beispiel nehmen wir alle LLC "Camomile". Es hat drei Zweige mit leeren Namen und solchen Adressen:
- Moskau, Turchaninov Lane;
- Moskau, Ozerkovskaya Böschung;
- St. Petersburg, Newski-Prospekt.
Wir nehmen die Unternehmensdaten und wandeln sie in eine vernünftige Namenskennung der Branche um.
- Fügen Sie das Wort "Zweigstelle" oder "Abteilung" in den Namen ein, verschiedene Attribute wurden für sie im einheitlichen staatlichen Register der juristischen Personen angegeben.
- Geben Sie im Namen den Kurznamen der Hauptorganisation an. Jetzt haben wir drei identische Namen "Branch of LLC Romashka".
- Wir nehmen die Adressen der Zweige und fügen in Klammern die verschiedenen Teile der Adressen zu den Namen hinzu.
Wir schreiben die Adresse einem eindeutigen Teil zu: Für die ersten beiden Zweige von „Daisies“ ist dies die vollständige Adresse und für den dritten - nur „St. Petersburg“. Wenn alle Städte unterschiedlich wären, würden sie nur Städte zu den Filialnamen hinzufügen.
In unserem Beispiel lauten die Zweige wie folgt:
- "Niederlassung von LLC Romashka (Moskau, Turchaninov Lane)";
- "Zweigstelle der LLC Romashka (Moskau, Ozerkovskaya Embankment)";
- "Niederlassung von LLC Romashka (St. Petersburg)."
Ja, wenn der Zweig in der USRLE einen Namen hat, der jedoch nicht eindeutig ist, überspringen wir die ersten beiden Schritte. Wir fügen den Adressteil diesem nicht eindeutigen Namen hinzu.
Wir nehmen die Adresse für den Namen maximal auf die Straße, denn die Hölle beginnt mit dem Hausteil wie „dmvld 3, Gebäude 5, Raum 14/51, von. 145. " Es ist schwer zu zerlegen, aber als Teil des Namens der Niederlassung sieht es lächerlich aus. Deshalb vereinen wir Filialen in derselben Straße. Es gibt sogar verschiedene Filialen im selben Gebäude! Zum Glück gibt es nur wenige.
Einfach nehmen und verbinden das Register funktioniert nicht
Zusätzlich zu diesen Problemen ist das Unified State Register of Legal Entities voller Fehler auf der Ebene von Symbolen, Adressen und anderen Kleinigkeiten. Wenn Sie beispielsweise anstelle von "LLC" drei Nullen im Verzeichnis treffen, ist dies nicht einmal überraschend.
Es gibt auch Adressen mit Fehlern, wo ohne sie. Zum Beispiel ist „Leningrad“ anstelle von „St. Petersburg“ ein sehr wichtiger Fall. Eine profanere Option: Die Adresse der Organisation Zheleznodorozhny in der Region Moskau wird als Stadt angegeben, obwohl sie seit mehreren Jahren ein Balashikha-Distrikt ist.
Tatsächlich ist im Verzeichnis alles wahr, da die USRLE die Details aus den konstituierenden Dokumenten der Organisation speichert. Aber um mit der Datenbank zu arbeiten, um sie zu durchsuchen, müssen die Daten in die Realität umgesetzt werden. Unsere Benutzer suchen nach Organisationen in St. Petersburg, die nicht einmal in Leningrad registriert sind.
Daher ist es eine weitere Aufgabe, das einheitliche staatliche Register der juristischen Personen zu eröffnen und eine für den industriellen Betrieb geeignete Basis zu erhalten. Ich möchte Sie an die Bände erinnern: Wenn Sie das vollständige Nachschlagewerk zu Beginn des Jahres 2015 und alle Aktualisierungen bis heute verwenden, erhalten Sie 100 Millionen Einträge.
Für das Parsen der USRLE haben wir einen Algorithmus geschrieben: Er empfängt alle Einträge am Eingang seit 2015 und am Ausgang 10 Millionen relevante. Verwaltet irgendwo in einer Stunde. Ein wichtiger Teil des Prozesses ist unser
Einzelkundenprodukt . Er räumt die Daten auf: Bereinigt Adressen, findet Duplikate, korrigiert Tippfehler.
Wenn Sie komplexe Nachschlagewerke analysieren, Daten strukturieren und in eine menschliche Form bringen möchten, kommen Sie zu uns, um zu arbeiten. Jetzt suchen wir nach einem Javista, Gehalt - 195.000-250.000 ₽ vor Abzug, Details - auf hh.ru. Und Sie benötigen auch eine Qualitätssicherung: von 115.000 bis 150.000 ₽, Details zur gleichen hh .