Kami menangani kesalahan dan "penopang" dalam Daftar Badan Hukum Negara Bersatu - register negara dari badan hukum



Pekan lalu, kami merilis sebuah artikel tentang register register - registrasi negara dengan data dari 10 juta perusahaan. Materi itu berbicara tentang hal-hal mendasar, jadi yang terbaik adalah memulainya.

Di sini kami akan mengungkapkan topik yang kaya dan subur - masalah dari Entitas Hukum Negara Kesatuan yang mencegah pengembang kami bosan.

Struktur Xml rusak secara berkala


Pada 2017, setiap dua hingga tiga bulan, pembaruan membawa xmls dalam format yang salah. Ada satu set lengkap: tag tidak dikenal, tag terbuka, ketidakcocokan tipe data. Sebagai contoh, di xsd tipe tanggal ditentukan, tetapi sebenarnya ada string yang tidak bisa dipahami.

Ketika ini terjadi, tetap menulis ke dukungan teknis dan menunggu dengan rendah hati. Tidak ada lagi yang bisa dilakukan. Tetapi kita harus mengakui bahwa pada 2018 tidak ada masalah, semuanya jelas.

Dan dalam pembongkaran lengkap untuk 2015 terletak xml rusak, yang tidak akan pernah diperbaiki. Layanan Pajak Federal mengatakan mereka tahu tentang hal itu, tetapi tidak bermaksud untuk memperbaikinya: ambil, kata mereka, pembaruan berikut.

Pembaruan muncul di folder dari tanggal lama


Situasi: Anda mengunduh buku referensi lengkap pada awal 2018, menerapkan semua pembaruan dan pembaruan yang diunduh setiap hari. Anda santai dan tenteram, karena Anda tahu: dalam database Anda, data yang paling relevan tentang badan hukum.

Tapi Anda masih melewatkan satu fakta: semalam Layanan Pajak Federal tidak hanya merilis pembaruan berikutnya, tetapi juga memasukkan file baru ke folder tiga bulan lalu. Baiklah, basis Anda sudah ketinggalan zaman.

Pembaruan retroaktif datang dalam dua jenis:

  • Ubah file yang ada
  • tambahkan yang baru.

Untuk menghapus sesuatu, kami tidak melihat.

Kami sedang berjuang dengan semua ini di sini. Direktori lokal kami berisi potongan data saat ini dari server FTS - standar. Setiap malam kami mengunduh sepenuhnya semua arsip dari server register dan membandingkannya dengan standar.

Kami menemukan file-file baru dengan jelas caranya: mereka tidak ada di direktori lokal. Jika file itu, tetapi tanggal perubahan dalam referensi dan database baru berbeda, bandingkan checksum. Ketika itu berbeda, ambil xml-ku baru dan terapkan pembaruan.

Tapi ada nuansa! Terkadang informasi yang tidak relevan datang dalam pembaruan surut, maka itu tidak dapat diterapkan. Sekarang akan ada contoh yang sedikit membingungkan, perhatikan tangan Anda.

Misalkan, pada 21 Mei, pembaruan dirilis untuk LLC Romashka. Itu terletak di folder 06/21/2018 . Dan pada 22 Mei, Layanan Pajak Federal meletakkan file di direktori pada 20/06/2018 , ia juga memiliki sesuatu tentang "Daisy". Ini adalah sesuatu yang tidak akan kami sentuh. Meskipun file baru segar, isinya tidak relevan karena pembaruan 21 Mei.

Rekaman hilang antara tahun


Tampaknya jika Anda mengambil arsip 01/01 / 2015_FULL dan kemudian memutar semua pembaruan untuk 2015, Anda akan mendapatkan data dari 01/01 / 2016_FULL. Dan tidak!

Situasi biasa dari dunia kita yang tidak sempurna:

  1. Semua 2016 dalam daftar tidak ada tentang perusahaan. Baik di arsip lengkap di awal tahun, maupun di pembaruan.
  2. Pada 01.01.2017_FULL, perusahaan tiba-tiba muncul dan hidup dengan tenang sepanjang tahun.
  3. Dan kemudian bam - pada 01/01/ 20188_FULL tidak ada perusahaan lagi. Dengan sedikit keberuntungan, dia akan datang kemudian di salah satu pembaruan, tetapi tidak sama sekali fakta.

Sekitar 1000 badan hukum hilang dari tahun ke tahun.


LLC yang luar biasa ini hanya menyala sekali dalam Daftar Badan Hukum Negara Bersatu: dalam pembaruan 02.21.2017. Tidak ada perusahaan di tempat lain, tidak dalam satu bongkar penuh

Karena itu, tidak akan berfungsi untuk melakukan pembongkaran lengkap di awal tahun dan menerapkan semua pembaruan hingga hari ini. Mohon mulai dari tahun 2015, jika tidak pendaftaran Anda tidak akan lengkap.

Xsd berubah tiba-tiba


Beberapa kali sejak 2015, Layanan Pajak Federal tiba-tiba berubah xsd. Sepertinya ini: pembaruan datang, Anda mencoba menguraikannya sesuai dengan format lama, tetapi tidak ada yang berhasil. Menyegarkan!

Untuk beradaptasi dengan xsd baru, secara umum, adalah hal sehari-hari. Masalahnya adalah tidak ada yang memperingatkan tentang perubahan. Aerobatik - memposting pengumuman di bagian sewenang-wenang di situs web Layanan Pajak Federal, tetapi biasanya tidak. Anda akan belajar tentang segalanya berdasarkan fakta.

Tidak jelas cara mengidentifikasi afiliasi.


Seperti yang saya katakan di artikel sebelumnya, cabang-cabang di USRLE bukan catatan yang terpisah, mereka adalah atribut badan hukum. Secara hukum, cabang dan kantor perwakilan tidak dapat berdiri sendiri, itulah sebabnya mereka disimpan dalam catatan perusahaan utama.

Tetapi pelanggan kami memiliki kebutuhan mereka sendiri: mereka memberikan layanan kepada cabang-cabang perusahaan lain, menandatangani dokumen bersama dengan mereka, dan memelihara cabang dalam sistem akuntansi mereka sebagai entitas yang terpisah. Karena itu, kami akan mengubah cabang dan kantor perwakilan dari USRLE menjadi kartu yang terpisah dan mengikat ke master record.

Kartu afiliasi yang dibuat perlu diidentifikasi. Struktur USRLE menyediakan PPC, nama singkatan, nama lengkap, dan bahkan nama dalam bahasa Latin. Tetapi untuk membuatnya lebih menyenangkan, Layanan Pajak Federal dijamin hanya mengisi alamat. Cara menunjukkan cabang, bukan untuk menampilkan alamat.


Contoh tipikal: cabang dalam pembongkaran tidak memiliki apa-apa selain alamat

Pertama, kita masih mencari di lapangan dengan nama yang disingkat: tiba-tiba ada sesuatu yang terbaring di sana. Dalam 50% kasus, bidang ini benar-benar tidak kosong, tetapi meskipun demikian masih terlalu dini untuk bersukacita: nama mungkin sama untuk semua cabang badan hukum. Sebagai pengidentifikasi, ini tidak lebih berguna daripada bidang kosong.

Jika nama cabang kosong atau tidak unik, kami membuatnya sendiri.

Sebagai contoh, kami akan mengambil semua LLC yang sama "Camomile". Ia memiliki tiga cabang dengan nama kosong dan alamat seperti itu:

  • Moskow, Turchaninov Lane;
  • Moskow, tanggul Ozerkovskaya;
  • St. Petersburg, Nevsky Prospect.

Kami mengambil data perusahaan itu, dan mengubahnya menjadi pengenal nama waras cabang.

  1. Tambahkan kata "Cabang" atau "Divisi" dalam nama, atribut yang berbeda disediakan untuk mereka dalam Daftar Badan Hukum Negara Bersatu.
  2. Sertakan dalam nama nama pendek dari organisasi utama. Sekarang kami memiliki tiga nama identik "Cabang LLC Romashka."
  3. Kami mengambil alamat cabang dan dalam tanda kurung kami menambahkan nama-nama bagian yang berbeda dari alamat.

    Kami mengaitkan alamat dengan bagian yang unik: untuk dua cabang pertama dari "Aster" ini adalah alamat lengkap, dan untuk yang ketiga - hanya "St. Petersburg". Jika semua kota berbeda, mereka hanya akan menambahkan kota ke nama cabang.

Dalam contoh kami, cabang-cabangnya adalah sebagai berikut:

  • "Cabang LLC Romashka (Moskow, Jalur Turchaninov)";
  • "Cabang LLC Romashka (Moskow, Tanggul Ozerkovskaya)";
  • "Cabang LLC Romashka (St. Petersburg)."

Ya, jika cabang di USRLE memiliki nama, tetapi tidak unik, kami melewatkan dua langkah pertama. Kami menambahkan bagian alamat ke nama yang tidak unik ini.

Kami mengambil alamat untuk nama ke maksimum ke jalan, karena neraka dimulai dengan bagian rumah seperti "dmvld 3, building 5, room 14/51, dari. 145. " Sulit untuk dibongkar, tetapi sebagai bagian dari nama cabang itu terlihat konyol. Karena itu, kami menyatukan cabang-cabang yang terletak di jalan yang sama. Bahkan ada cabang berbeda di gedung yang sama! Untungnya, ada beberapa.

Cukup ambil dan hubungkan register tidak berfungsi


Selain masalah ini, Daftar Badan Hukum Negara Kesatuan penuh dengan kesalahan pada tingkat simbol, alamat, dan hal-hal sepele lainnya. Misalnya, ketika alih-alih “LLC” Anda bertemu tiga nol di direktori, ini bahkan tidak mengejutkan.

Ada juga alamat dengan kesalahan, di mana tanpa itu. Sebagai contoh, "Leningrad" bukannya "St. Petersburg" adalah kasus yang sangat signifikan. Opsi yang lebih biasa: alamat organisasi Zheleznodorozhny di Wilayah Moskow diindikasikan sebagai kota, meskipun telah menjadi distrik Balashikha selama beberapa tahun.

Faktanya, semuanya benar dalam direktori, karena USRLE menyimpan rincian dari dokumen konstituen organisasi. Tetapi untuk bekerja dengan database, untuk mencarinya, data harus dibawa ke kenyataan. Pengguna kami mencari organisasi yang berlokasi di St. Petersburg, dan tidak pernah terdaftar di Leningrad.

Oleh karena itu, untuk membuka Daftar Badan Hukum Negara Kesatuan dan untuk memperoleh basis yang sesuai untuk operasi industri adalah tugas lain. Biarkan saya mengingatkan Anda volume: jika Anda mengambil buku referensi lengkap pada awal 2015 dan semua pembaruan hingga hari ini, Anda mendapatkan 100 juta entri.

Untuk mem-parsing USRLE, kami menulis sebuah algoritma: ia menerima semua entri pada input sejak 2015, dan pada output memberikan 10 juta yang relevan. Mengelola suatu tempat dalam satu jam. Bagian penting dari proses ini adalah produk Klien Tunggal kami. Dia merapikan data: membersihkan alamat, menemukan duplikat, mengoreksi kesalahan ketik.

Jika Anda ingin mengurai buku referensi yang kompleks, menyusun data, dan membawanya ke bentuk manusia, datanglah kepada kami untuk bekerja. Sekarang kami sedang mencari javista, gaji - 195.000-250.000 sebelum dikurangi, detail - di hh.ru. Dan Anda juga membutuhkan QA: dari 115.000 hingga 150.000 ₽, perincian tentang jam yang sama .

Source: https://habr.com/ru/post/id414885/


All Articles