检查有关寄存器摘录中不可靠性的信息。 胶在python中的pdf

目前,税务机关仅通过“透露”有关公司的所谓不准确信息就可以将公司从USRLE中排除的可能性仍然是一个非常紧迫的话题。 如统计数据所示,自2018年9月起,联邦税务局将90,000个组织从法律实体的负责人,创始人或地址的信息不正确记录中排除在外。 要发现有关公司的信息不正确的事实,只能通过从注册表中提取来查看。

看起来像这样:



由于税务机关的行动,有关不准确的数据既可以应利害关系人的要求出现,也可以“独自”出现,这一事实使问题更加严重。 为了保护自己免于突然离开注册簿,需要定期接收摘录。 如果我们持有大量公司,那么如何快速而轻松地执行此操作,我们在上一篇文章中进行了探讨。

这次,我们将分析如何在法律实体登记册摘录中查找有关不可靠性的信息。

我们假设我们拥有从FTS网站下载的第n个语句。 语句具有扩展名.pdf和一些名称。

我们需要做的就是在每个pdf文件中搜索“ lack”一词。

用语句打开每个pdf并搜索不是我们的方法。 这可能会花费很长时间。 您可以在Abbyy Finereader中粘贴所有文件,但这也将花费足够的时间。

我们将编写一个程序,将所有pdf文件粘贴到一个文件中。 Python使您可以在几秒钟内完成此操作!

将来,我们将能够打开创建的文件,并立即从寄存器的所有摘录中搜索所需的单词。

让我们开始吧。

*来自USRLE的语句位于C:\ 1目录中。
在新的python文件中,我们导入用于使用pdf和整个系统的模块:

import PyPDF2, os 

接下来,创建一个空列表并移动到目录C:\ 1,所有语句都将位于该目录中。

该目录不必为空。 在该程序中,我们只处理了具有pdf扩展名的文件:

 pdfFiles = [] os.chdir('C:\\1') for filename in os.listdir('.'): if filename.endswith('.pdf'): pdfFiles.append(filename) pdfFiles.sort() 

下一个块将语句彼此粘合,将每个后续语句添加到末尾:

 pdfWriter = PyPDF2.PdfFileWriter() # Loop through all the PDF files. for filename in pdfFiles: pdfFileObj = open(filename, 'rb') pdfReader = PyPDF2.PdfFileReader(pdfFileObj) # Loop through all the pages and add them. for pageNum in range(0, pdfReader.numPages): pageObj = pdfReader.getPage(pageNum) pdfWriter.addPage(pageObj) 

它仅保留来保存结果:

 pdfOutput = open('all.pdf', 'wb') pdfWriter.write(pdfOutput) pdfOutput.close() 

因此,在该程序工作之后,我们收到了all.pdf文件,通过该文件,已经可以搜索有关信息不准确的所需信息。

下载程序,将pdf粘贴到此处

从11/08/2019延续


我们剪切寄存器的语句,保留每个语句的前4页。
有关jur不可靠的信息。 人属于登记册的不同部分。
摘录末尾包含不可靠的记录,这些记录已被税收取消。
因此,几乎不建议对统一法人实体州注册簿的全部摘录运行该程序:该程序还会找到这些过时的条目。
因此,我们将使用pyhton剪切从USRLE下载的语句,并保存每个语句的前4页。 通常,这些页面足以在地址或唯一的执行机构中找到不正确的迹象。
将所有先前下载的语句(pdf文件)沿路径“ C:\ 1 \ 2”移动到条件文件夹,然后执行python代码:
 #! python3 import PyPDF2, os from datetime import datetime start = datetime.now() os.chdir('C:\\1\\2') pdfFiles = [] for filename in os.listdir('.'): if filename.endswith('.pdf'): pdfFiles.append(filename) pdfFiles.sort() pdfWriter = PyPDF2.PdfFileWriter() # Loop through all the PDF files. for filename in pdfFiles: pdfFileObj = open(filename, 'rb') pdfReader = PyPDF2.PdfFileReader(pdfFileObj) # Loop through all the pages and add them. for pageNum in range(0, 4): pageObj = pdfReader.getPage(pageNum) pdfWriter.addPage(pageObj) # Save the resulting PDF to a file. pdfOutput = open('all-small.pdf', 'wb') pdfWriter.write(pdfOutput) pdfOutput.close() print(datetime.now()- start) 

在输出中,我们将收到粘贴到单个pdf文件中的register语句-“ all-small.pdf”。 而且,来自每个语句的只有前4页。

现在,通过搜索短语“ flaws”来运行“ all-small.pdf”:
 #!/usr/bin/python import fitz,os filename = "all-small.pdf" search_term = "" pdf_document = fitz.open(filename) for current_page in range(len(pdf_document)): page = pdf_document.loadPage(current_page) if page.searchFor(search_term): print("%s    %i" % (search_term, current_page+1)) 


该程序比通过“ Acrobat Reader”在单个粘贴的pdf文件中搜索要快得多,并且同时显示在终端中发现不可靠的页面。

Source: https://habr.com/ru/post/zh-CN456060/


All Articles