Überprüfen Sie die Informationen zur Unzuverlässigkeit in Auszügen aus dem Register. Kleben Sie pdf in Python

Gegenwärtig bleibt die Möglichkeit der Steuerbehörde, ein Unternehmen von der USRLE auszuschließen, indem sie lediglich die sogenannten ungenauen Informationen über das Unternehmen „preisgibt“, ein sehr dringendes Thema. Wie Statistiken zeigen, hat der Bundessteuerdienst ab September 2018 90.000 Organisationen aus dem einheitlichen staatlichen Register der juristischen Personen ausgeschlossen, in denen die Ungenauigkeit der Informationen über den Leiter, den Gründer oder die Adresse der juristischen Person vermerkt ist. Um festzustellen, dass es ungenaue Informationen zum Unternehmen gibt, kann dies nur durch Auszug aus dem Register angezeigt werden.

Es sieht so aus:



Das Problem wird durch die Tatsache verschärft, dass Daten zur Ungenauigkeit aufgrund der Maßnahmen der Steuerbehörde sowohl auf Antrag der interessierten Person als auch „allein“ erscheinen können. Um sich vor einem plötzlichen Verlassen des Registers zu schützen, müssen regelmäßig Auszüge eingegangen sein. Wie dies schnell und schmerzlos geht, wenn sich eine große Anzahl von Unternehmen in der Holding befindet, haben wir in einem früheren Beitrag untersucht .

Dieses Mal werden wir analysieren, wie in den Auszügen des Registers der juristischen Personen nach Informationen über die Unzuverlässigkeit gesucht werden kann.

Wir gehen davon aus, dass wir die n-te Anzahl von Aussagen haben, die wir von der FTS-Website heruntergeladen haben. Anweisungen haben die Erweiterung .pdf und einige Namen.

Alles, was von uns verlangt wird, ist, in jeder PDF-Datei nach dem Wort „Mangel“ zu suchen.

Das Öffnen jedes PDFs mit einer Anweisung und das Suchen ist nicht unsere Methode. Dies kann sehr lange dauern. Sie können alle Dateien in Abbyy Finereader kleben, aber es wird auch genug Zeit in Anspruch nehmen.

Wir werden ein Programm schreiben, das alle PDF-Dateien in eine klebt. Mit Python können Sie dies in Sekunden erledigen!

In Zukunft können wir die erstellte Datei öffnen und sofort nach dem gewünschten Wort für alle Auszüge aus dem Register suchen.

Fangen wir an.

* Anweisungen aus der USRLE befinden sich im Verzeichnis C: \ 1.
In der neuen Python-Datei importieren wir Module für die Arbeit mit PDF und dem gesamten System:

import PyPDF2, os 

Erstellen Sie als Nächstes eine leere Liste und wechseln Sie in das Verzeichnis C: \ 1, in dem sich alle unsere Anweisungen befinden.

Dieses Verzeichnis muss nicht leer sein. Im Programm haben wir nur die Verarbeitung der Dateien mit der Erweiterung pdf vorgesehen:

 pdfFiles = [] os.chdir('C:\\1') for filename in os.listdir('.'): if filename.endswith('.pdf'): pdfFiles.append(filename) pdfFiles.sort() 

Der nächste Block klebt Anweisungen aneinander und fügt jede nachfolgende Anweisung am Ende hinzu:

 pdfWriter = PyPDF2.PdfFileWriter() # Loop through all the PDF files. for filename in pdfFiles: pdfFileObj = open(filename, 'rb') pdfReader = PyPDF2.PdfFileReader(pdfFileObj) # Loop through all the pages and add them. for pageNum in range(0, pdfReader.numPages): pageObj = pdfReader.getPage(pageNum) pdfWriter.addPage(pageObj) 

Es bleibt nur das Ergebnis zu speichern:

 pdfOutput = open('all.pdf', 'wb') pdfWriter.write(pdfOutput) pdfOutput.close() 

Nach der Arbeit des Programms haben wir also die Datei all.pdf erhalten, mit der bereits nach den erforderlichen Informationen über die Ungenauigkeit der Informationen gesucht werden kann.

Laden Sie hier das Programm zum Kleben von PDFs in einem herunter.

Fortsetzung vom 11/08/2019


Wir schneiden die Aussagen des Registers aus und behalten die ersten 4 Seiten jeder Aussage bei.
Angaben zur Unzuverlässigkeit des Rechts. Person fallen in verschiedene Teile des Registers.
Am Ende des Auszuges befinden sich Aufzeichnungen über die Unzuverlässigkeit, die von der Steuer annulliert wurden.
Daher ist es kaum ratsam, das Programm für ganze Auszüge aus dem Unified State Register of Legal Entities auszuführen: Das Programm wird auch diese veralteten Einträge finden.
Daher werden wir pyhton verwenden, um die heruntergeladenen Anweisungen aus der USRLE zu schneiden und die ersten 4 Seiten von jeder zu speichern. Diese Seiten reichen in der Regel aus, um Anzeichen von Ungenauigkeiten in der Adresse oder im alleinigen Exekutivorgan zu finden.
Verschieben Sie alle zuvor heruntergeladenen Auszüge (PDF-Dateien) in den bedingten Ordner entlang des Pfads 'C: \ 1 \ 2' und führen Sie den Python-Code aus:
 #! python3 import PyPDF2, os from datetime import datetime start = datetime.now() os.chdir('C:\\1\\2') pdfFiles = [] for filename in os.listdir('.'): if filename.endswith('.pdf'): pdfFiles.append(filename) pdfFiles.sort() pdfWriter = PyPDF2.PdfFileWriter() # Loop through all the PDF files. for filename in pdfFiles: pdfFileObj = open(filename, 'rb') pdfReader = PyPDF2.PdfFileReader(pdfFileObj) # Loop through all the pages and add them. for pageNum in range(0, 4): pageObj = pdfReader.getPage(pageNum) pdfWriter.addPage(pageObj) # Save the resulting PDF to a file. pdfOutput = open('all-small.pdf', 'wb') pdfWriter.write(pdfOutput) pdfOutput.close() print(datetime.now()- start) 

Am Ausgang erhalten wir die Registeranweisungen, die in eine einzige PDF-Datei geklebt sind - "all-small.pdf". Darüber hinaus werden von jeder Aussage nur die ersten 4 Seiten sein.

Lassen Sie uns nun "all-small.pdf" ausführen, indem Sie nach dem Ausdruck "Fehler" suchen:
 #!/usr/bin/python import fitz,os filename = "all-small.pdf" search_term = "" pdf_document = fitz.open(filename) for current_page in range(len(pdf_document)): page = pdf_document.loadPage(current_page) if page.searchFor(search_term): print("%s    %i" % (search_term, current_page+1)) 


Das Programm arbeitet viel schneller als die Suche in einer einzelnen geklebten PDF-Datei über den 'Acrobat Reader' und zeigt gleichzeitig die Seiten an, auf denen die Unzuverlässigkeit im Terminal festgestellt wurde.

Source: https://habr.com/ru/post/de456060/


All Articles