🥠 🗺️ 🍫 Periksa informasi tentang ekstrak yang tidak dapat diandalkan dari register. Lem pdf dalam python 🔤 🎊 👨🏿‍🎨

Saat ini, kemungkinan otoritas pajak untuk mengecualikan perusahaan dari USRLE hanya dengan "mengungkapkan" informasi yang tidak akurat yang disebut mengenai perusahaan tetap menjadi topik yang sangat mendesak. Seperti yang ditunjukkan statistik, sejak September 2018, Layanan Pajak Federal mengecualikan 90.000 organisasi dari Daftar Badan Hukum Negara Kesatuan dengan catatan ketidaktepatan informasi tentang kepala, pendiri atau alamat badan hukum. Untuk menemukan fakta bahwa ada informasi yang tidak akurat mengenai perusahaan hanya dapat dilihat dengan mengekstraksi dari daftar.

Ini terlihat seperti ini:

Masalahnya diperparah oleh fakta bahwa data tentang ketidakakuratan dapat muncul baik atas permintaan orang yang berminat dan "sendiri", sebagai akibat dari tindakan otoritas pajak. Untuk melindungi diri Anda dari keberangkatan tiba-tiba dari register, ekstrak harus diterima secara teratur. Cara melakukan ini dengan cepat dan tanpa rasa sakit jika ada sejumlah besar perusahaan di holding, kami memeriksa di posting sebelumnya.

Kali ini kami akan menganalisis cara mencari informasi tentang tidak dapat diandalkan dalam ekstrak daftar badan hukum.

Kami berasumsi bahwa kami memiliki jumlah pernyataan ke-n yang kami unduh dari situs web FTS. Pernyataan memiliki ekstensi .pdf dan beberapa nama.

Semua yang diperlukan dari kita adalah mencari kata "kurang" di setiap file pdf.

Membuka setiap pdf dengan pernyataan dan pencarian bukanlah metode kami. Ini bisa memakan waktu terlalu lama. Anda dapat merekatkan semua file di Abbyy Finereader, tetapi itu juga akan memakan waktu yang cukup.

Kami akan menulis sebuah program yang akan merekatkan semua file pdf menjadi satu. Python memungkinkan Anda melakukan ini dalam hitungan detik!

Di masa mendatang, kita akan dapat membuka file yang dibuat dan melakukan pencarian untuk kata yang diinginkan segera pada semua ekstrak dari register.

Mari kita mulai.

* Pernyataan dari USRLE berada di direktori C: \ 1.
Dalam file python baru, kami mengimpor modul untuk bekerja dengan pdf dan sistem secara keseluruhan:

import PyPDF2, os

Selanjutnya, buat daftar kosong dan pindah ke direktori C: \ 1, di mana semua pernyataan kami akan ditemukan.

Direktori ini tidak harus kosong. Dalam program ini, kami menyediakan hanya untuk pemrosesan file-file yang memiliki ekstensi pdf:

 pdfFiles = [] os.chdir('C:\\1') for filename in os.listdir('.'): if filename.endswith('.pdf'): pdfFiles.append(filename) pdfFiles.sort()

Blok berikutnya menempelkan pernyataan satu sama lain, menambahkan setiap pernyataan berikutnya sampai akhir:

 pdfWriter = PyPDF2.PdfFileWriter() # Loop through all the PDF files. for filename in pdfFiles: pdfFileObj = open(filename, 'rb') pdfReader = PyPDF2.PdfFileReader(pdfFileObj) # Loop through all the pages and add them. for pageNum in range(0, pdfReader.numPages): pageObj = pdfReader.getPage(pageNum) pdfWriter.addPage(pageObj)

Tetap hanya untuk menyimpan hasilnya:

 pdfOutput = open('all.pdf', 'wb') pdfWriter.write(pdfOutput) pdfOutput.close()

Jadi, setelah program selesai, kami menerima file all.pdf, yang memungkinkan untuk mencari informasi yang diperlukan tentang ketidakakuratan informasi tersebut.

Unduh program untuk menempelkan pdf dalam satu - di sini .

Lanjutan dari 11/08/2019

Kami memotong pernyataan register, menjaga 4 halaman pertama dari setiap pernyataan.
Informasi tentang tidak dapat diandalkannya jur. orang jatuh ke berbagai bagian register.
Pada akhir ekstrak berisi catatan tidak dapat diandalkan, yang dibatalkan oleh pajak.
Dengan demikian, hampir tidak disarankan untuk menjalankan program untuk seluruh ekstrak dari Daftar Badan Hukum Negara Bersatu: program ini juga akan menemukan entri yang sudah usang ini.
Oleh karena itu, kami akan menggunakan pyhton untuk memotong pernyataan yang diunduh dari USRLE, menyimpan 4 halaman pertama dari masing-masing. Sebagai aturan, halaman ini cukup untuk menemukan tanda-tanda ketidaktepatan alamat atau badan eksekutif tunggal.
Pindahkan semua ekstrak yang Anda unduh sebelumnya (file pdf) ke folder bersyarat di sepanjang jalur 'C: \ 1 \ 2' dan jalankan kode python:

 #! python3 import PyPDF2, os from datetime import datetime start = datetime.now() os.chdir('C:\\1\\2') pdfFiles = [] for filename in os.listdir('.'): if filename.endswith('.pdf'): pdfFiles.append(filename) pdfFiles.sort() pdfWriter = PyPDF2.PdfFileWriter() # Loop through all the PDF files. for filename in pdfFiles: pdfFileObj = open(filename, 'rb') pdfReader = PyPDF2.PdfFileReader(pdfFileObj) # Loop through all the pages and add them. for pageNum in range(0, 4): pageObj = pdfReader.getPage(pageNum) pdfWriter.addPage(pageObj) # Save the resulting PDF to a file. pdfOutput = open('all-small.pdf', 'wb') pdfWriter.write(pdfOutput) pdfOutput.close() print(datetime.now()- start)

Di pintu keluar, kami akan menerima pernyataan register yang direkatkan menjadi satu file pdf - “all-small.pdf”. Selain itu, dari setiap pernyataan hanya akan ada 4 halaman pertama.

Sekarang mari kita jalankan "all-small.pdf" dengan mencari frasa "cacat":

 #!/usr/bin/python import fitz,os filename = "all-small.pdf" search_term = "" pdf_document = fitz.open(filename) for current_page in range(len(pdf_document)): page = pdf_document.loadPage(current_page) if page.searchFor(search_term): print("%s    %i" % (search_term, current_page+1))

Program ini bekerja jauh lebih cepat daripada mencari dalam satu file pdf yang direkatkan melalui 'Acrobat reader' dan pada saat yang sama menampilkan halaman-halaman di mana ketidakpastian ditemukan di terminal.

Periksa informasi tentang ekstrak yang tidak dapat diandalkan dari register. Lem pdf dalam python

Lanjutan dari 11/08/2019

More articles: