🕛 👩🏾‍🤝‍👩🏼 👃🏿 Verifique la información sobre la falta de confiabilidad en los extractos del registro. Pegar pdf en python 😜 🧜🏿 👲

Actualmente, la posibilidad de que la autoridad fiscal excluya a una empresa del Registro Estatal Unificado de Entidades Legales simplemente "revelando" la llamada información inexacta sobre la empresa sigue siendo un tema muy urgente. Como muestran las estadísticas, a partir de septiembre de 2018, el Servicio de Impuestos Federales excluyó a 90,000 organizaciones del Registro Estatal Unificado de Entidades Legales con un registro de la inexactitud de información sobre el jefe, fundador o dirección de la entidad jurídica. Para descubrir el hecho de que hay información inexacta sobre la empresa, solo se puede ver extrayéndolo del registro.

Se ve así:

El problema se ve agravado por el hecho de que los datos sobre la inexactitud pueden aparecer tanto a petición de la persona interesada como "por sí mismos", como resultado de las acciones de la autoridad fiscal. Para protegerse de una salida repentina del registro, se requiere que los extractos se reciban regularmente. Cómo hacer esto de forma rápida e indolora si hay una gran cantidad de empresas en el holding, examinamos en una publicación anterior.

Esta vez analizaremos cómo buscar información sobre la falta de fiabilidad en los extractos del registro de entidades jurídicas.

Asumimos que tenemos el enésimo número de declaraciones que descargamos del sitio web de FTS. Las declaraciones tienen la extensión .pdf y algunos nombres.

Todo lo que se requiere de nosotros es buscar la palabra "falta" en cada archivo pdf.

Abrir cada pdf con una declaración y buscar no es nuestro método. Esto puede llevar un tiempo excesivamente largo. Puede pegar todos los archivos en Abbyy Finereader, pero también llevará suficiente tiempo.

Escribiremos un programa que pegue todos los archivos pdf en uno. ¡Python te permite hacer esto en segundos!

En el futuro, podremos abrir el archivo creado y realizar una búsqueda de la palabra deseada inmediatamente en todos los extractos del registro.

Empecemos

* Las declaraciones de USRLE se encuentran en el directorio C: \ 1.
En el nuevo archivo de Python, importamos módulos para trabajar con pdf y el sistema en su conjunto:

import PyPDF2, os

A continuación, cree una lista vacía y vaya al directorio C: \ 1, en el que se ubicarán todas nuestras declaraciones.

Este directorio no tiene que estar vacío. En el programa, proporcionamos el procesamiento de solo aquellos archivos que tienen la extensión pdf:

 pdfFiles = [] os.chdir('C:\\1') for filename in os.listdir('.'): if filename.endswith('.pdf'): pdfFiles.append(filename) pdfFiles.sort()

El siguiente bloque pega declaraciones entre sí, agregando cada declaración posterior al final:

 pdfWriter = PyPDF2.PdfFileWriter() # Loop through all the PDF files. for filename in pdfFiles: pdfFileObj = open(filename, 'rb') pdfReader = PyPDF2.PdfFileReader(pdfFileObj) # Loop through all the pages and add them. for pageNum in range(0, pdfReader.numPages): pageObj = pdfReader.getPage(pageNum) pdfWriter.addPage(pageObj)

Solo queda guardar el resultado:

 pdfOutput = open('all.pdf', 'wb') pdfWriter.write(pdfOutput) pdfOutput.close()

Entonces, después del trabajo del programa, recibimos el archivo all.pdf, por el cual ya es posible buscar la información requerida sobre la inexactitud de la información.

Descargue el programa para pegar pdf en uno, aquí .

Continuación desde 11/08/2019

Cortamos las declaraciones del registro, manteniendo las primeras 4 páginas de cada declaración.
Información sobre la falta de fiabilidad del jur. persona cae en diferentes partes del registro.
Al final del extracto contiene registros de falta de fiabilidad, que fueron cancelados por el impuesto.
Por lo tanto, no es aconsejable ejecutar el programa para extractos completos del Registro Estatal Unificado de Entidades Legales: el programa también encontrará estas entradas obsoletas.
Por lo tanto, usaremos pyhton para cortar las declaraciones descargadas de USRLE, guardando las primeras 4 páginas de cada una. Como regla, estas páginas son suficientes para encontrar signos de inexactitud en la dirección o en el único órgano ejecutivo.
Mueva todos los extractos que descargó anteriormente (archivos pdf) a la carpeta condicional a lo largo de la ruta 'C: \ 1 \ 2' y ejecute el código python:

 #! python3 import PyPDF2, os from datetime import datetime start = datetime.now() os.chdir('C:\\1\\2') pdfFiles = [] for filename in os.listdir('.'): if filename.endswith('.pdf'): pdfFiles.append(filename) pdfFiles.sort() pdfWriter = PyPDF2.PdfFileWriter() # Loop through all the PDF files. for filename in pdfFiles: pdfFileObj = open(filename, 'rb') pdfReader = PyPDF2.PdfFileReader(pdfFileObj) # Loop through all the pages and add them. for pageNum in range(0, 4): pageObj = pdfReader.getPage(pageNum) pdfWriter.addPage(pageObj) # Save the resulting PDF to a file. pdfOutput = open('all-small.pdf', 'wb') pdfWriter.write(pdfOutput) pdfOutput.close() print(datetime.now()- start)

A la salida, recibiremos las declaraciones de registro pegadas en un único archivo pdf: "all-small.pdf". Además, de cada declaración serán solo las primeras 4 páginas.

Ahora ejecutemos "all-small.pdf" buscando la frase "defectos":

 #!/usr/bin/python import fitz,os filename = "all-small.pdf" search_term = "" pdf_document = fitz.open(filename) for current_page in range(len(pdf_document)): page = pdf_document.loadPage(current_page) if page.searchFor(search_term): print("%s    %i" % (search_term, current_page+1))

El programa funciona mucho más rápido que buscar en un solo archivo pdf pegado a través del 'lector Acrobat' y al mismo tiempo muestra las páginas en las que se encontró la falta de confiabilidad en el terminal.

Verifique la información sobre la falta de confiabilidad en los extractos del registro. Pegar pdf en python

Continuación desde 11/08/2019

More articles: