في الوقت الحالي ، تظل إمكانية قيام هيئة الضرائب باستبعاد شركة من USRLE بمجرد "الكشف" عن المعلومات غير الدقيقة المزعومة المتعلقة بالشركة موضوعًا ملحًا للغاية. كما تبين الإحصاءات ، اعتبارًا من سبتمبر 2018 ، استبعدت مصلحة الضرائب الفيدرالية 90،000 مؤسسة من سجل الدولة الموحد للكيانات القانونية مع سجل لعدم دقة المعلومات حول رئيس أو مؤسس أو عنوان الكيان القانوني. لاكتشاف حقيقة أن هناك معلومات غير دقيقة بخصوص الشركة لا يمكن مشاهدتها إلا من خلال الاستخراج من السجل.
يبدو مثل هذا:

تتفاقم المشكلة من خلال حقيقة أن البيانات حول عدم الدقة يمكن أن تظهر بناءً على طلب الشخص المعني و "من تلقاء نفسه" ، نتيجة لإجراءات السلطة الضريبية. لحماية نفسك من الخروج المفاجئ عن السجل ، يجب أن يتم استلام المقتطفات بانتظام. كيفية القيام بذلك بسرعة ودون ألم إذا كان هناك عدد كبير من الشركات في القابضة ، درسنا في
وظيفة سابقة.
سنحلل هذه المرة كيفية البحث عن معلومات حول عدم الموثوقية في مقتطفات سجل الكيانات القانونية.
نحن نفترض أن لدينا العدد التاسع من العبارات التي قمنا بتنزيلها من موقع FTS. البيانات لها الامتداد .pdf وبعض الأسماء.
كل ما هو مطلوب منا هو البحث عن كلمة "نقص" في كل ملف pdf.
فتح كل ملف pdf مع بيان والبحث ليست طريقتنا. هذا يمكن أن يستغرق وقتا طويلا للغاية. يمكنك لصق جميع الملفات في Abbyy Finereader ، لكن الأمر سيستغرق أيضًا وقتًا كافيًا.
سنكتب برنامجًا سيصمم جميع ملفات pdf في ملف واحد. بيثون يتيح لك القيام بذلك في ثوان!
في المستقبل ، سنتمكن من فتح الملف الذي تم إنشاؤه وإجراء بحث عن الكلمة المطلوبة فورًا على جميع المقتطفات من السجل.
لنبدأ.
* توجد بيانات من USRLE في الدليل C: \ 1.
في ملف python الجديد ، نستورد وحدات للعمل مع pdf والنظام ككل:
import PyPDF2, os
بعد ذلك ، قم بإنشاء قائمة فارغة وانتقل إلى الدليل C: \ 1 ، حيث سيتم وضع جميع بياناتنا.
لا يجب أن يكون هذا الدليل فارغًا. في البرنامج ، قدمنا معالجة الملفات التي لها ملحق pdf فقط:
pdfFiles = [] os.chdir('C:\\1') for filename in os.listdir('.'): if filename.endswith('.pdf'): pdfFiles.append(filename) pdfFiles.sort()
كتلة المادة التالية تلصق ببعضها البعض ، وتضيف كل عبارة لاحقة إلى النهاية:
pdfWriter = PyPDF2.PdfFileWriter() # Loop through all the PDF files. for filename in pdfFiles: pdfFileObj = open(filename, 'rb') pdfReader = PyPDF2.PdfFileReader(pdfFileObj) # Loop through all the pages and add them. for pageNum in range(0, pdfReader.numPages): pageObj = pdfReader.getPage(pageNum) pdfWriter.addPage(pageObj)
يبقى فقط لحفظ النتيجة:
pdfOutput = open('all.pdf', 'wb') pdfWriter.write(pdfOutput) pdfOutput.close()
لذلك ، بعد عمل البرنامج ، تلقينا الملف all.pdf ، والذي أصبح من الممكن بالفعل البحث عن المعلومات المطلوبة حول عدم دقة المعلومات.
قم بتنزيل برنامج الإلتصاق pdf في ملف واحد -
هنا .
استمرار من 11/08/2019
قمنا بقص بيانات السجل ، مع الاحتفاظ بالصفحات الأربع الأولى من كل عبارة.معلومات حول عدم موثوقية المحلف. يقع الشخص في أجزاء مختلفة من السجل.
في نهاية استخراج يحتوي على سجلات عدم الموثوقية ، والتي تم إلغاؤها من قبل الضريبة.
وبالتالي ، فمن المستحسن تشغيل البرنامج للحصول على مقتطفات بأكملها من السجل: سيجد البرنامج هذه الإدخالات القديمة.
لذلك ، سوف نستخدم pyhton لقص العبارات التي تم تنزيلها من USRLE ، مع توفير الصفحات الأربعة الأولى من كل منها. كقاعدة عامة ، تكون هذه الصفحات كافية للعثور على علامات عدم الدقة في العنوان أو في الجهاز التنفيذي الوحيد.
انقل جميع المقتطفات التي قمت بتنزيلها مسبقًا (ملفات pdf) إلى المجلد الشرطي على طول المسار 'C: \ 1 \ 2' وقم بتنفيذ شفرة python:
عند الخروج ، سوف نتلقى بيانات التسجيل الملصقة في ملف pdf واحد - "all-small.pdf". علاوة على ذلك ، من كل عبارة سيكون فقط 4 صفحات.
الآن لنقم بتشغيل "all-small.pdf" من خلال البحث عن عبارة "العيوب":
يعمل البرنامج بشكل أسرع بكثير من البحث في ملف pdf واحد لاصق من خلال "قارئ Acrobat" وفي الوقت نفسه يعرض الصفحات التي تم العثور على عدم الموثوقية في الجهاز.