
Dari beberapa bulan yang lalu, kami bereksperimen: apakah mungkin untuk
mengumpulkan direktori unit yang sesuai yang mengeluarkan paspor Rusia di Habré? Masalahnya bermanfaat: banyak orang membutuhkan data ini, tidak ada sumber kanonik, dan yang ada sangat-sangat-begitu.
Dan Anda tahu, semuanya berhasil. Direktori yang dapat digunakan siap, Anda dapat mengunduh dan menggunakan. Dan kami juga membuat kiat yang mempercepat masuknya unit ke dalam bentuk elektronik.
CSV "Naked" - dalam domain publik
Referensi yang dikompilasi dan dibersihkan yang kami posting di GitHub. Di dalam, semuanya sederhana, CSV dengan dua bidang:
- kode departemen;
- nama unit.
Itu terletak di sini
github.com/hflabs/fms-unit/releases/latest .
Ada juga tips siap pakai untuk formulir input (apalagi, gratis)
Kami mengumpulkan unit untuk membuat layanan siap pakai - kiat untuk formulir input. Dan di sini mereka sudah siap.
"Tips" DaData.ru dapat diintegrasikan ke dalam situs, CRM atau CMS dan lulus untuk sesama yang peduli: pengguna hanya perlu memasukkan kode unit, dan nama akan mengisi layanan.
Semua orang sepertinya benci mengisi nama unit. Kami berusaha meringankan penderitaan orang-orang.Bahkan "Tips" menarik wilayah dan jenis unit dari kode, terkadang dengan mudah. Berikut adalah spesifikasi singkat jawabannya.
Kami memberikan hingga 10.000 pertanyaan ke "Tips" sehari gratis, ini adalah ≈300 formulir yang sudah diisi. Lebih banyak - sebagai bagian dari langganan, dari 5.000 ₽ per tahun. Ia bekerja melalui jQuery-plugin, API atau komponen untuk berbagai CRM, CMS, "1C" dan banyak lagi.
Detailnya ada di
dadata.ru/suggestions/outward/fms_unit/ .
"Habr" banyak membantu dengan data
Pertanyaan pertama dari mereka yang mendengar tentang proyek: "Sungguh, melalui Habr, sudahkah Anda mengumpulkannya?" Bukan hanya "Habr" yang membantu, tetapi kontribusi para penjaja sangat bagus dan luas. Kami bersyukur dan sedikit terkejut: pertama kali kami beralih ke komunitas, dan segera hasilnya seperti itu.
Awalnya, kami memiliki beberapa perkembangan. Tapi, pertama, jauh dari referensi lengkap. Kedua, saya ingin memeriksa seberapa memadai data untuk paspor asli.
Banyak yang mengirim unit dari paspor mereka melalui formulir pengumpulan ketika kami menjerit. Mereka mengirim satu dan lima hingga sepuluh catatan masing-masing. Pahlawan yang tidak terlalu malas mengemudi semua ini dengan tangan - hormat.
Tiga orang menawarkan dalam basis data pribadi ukuran terhormat. Ramah dan gratis.
Mereka yang khawatir tentang keamanan: semua direktori dikirim secara anonim, bukan byte data pribadiHadiah seperti itu secara signifikan memajukan segalanya. Akibatnya, setelah tiga minggu kami mengumpulkan volume yang tidak memalukan untuk membuat produk yang cocok untuk keperluan industri.
Jalan menuju sukses - "Banyak data mentah + 300 regekspov + sedikit pitonochki"
Jadi, data mentah ada di tangan produk makanan Dadata nalgeon. Dia menggambarkan tarian lebih lanjut dengan kutipan dari judul. Semua yang kami kumpulkan telah melalui serangkaian transformasi yang luar biasa.
Untuk memulai, normalkan nama-nama unit. Di sini saya harus sungguh-sungguh bekerja dengan file. Misalnya, dalam paspor "langsung", jumlah unit teritorial ditandai dengan "Tidak": "TP No. 1 di G. Khimki ...". Hal yang sama ada di sebagian besar direktori yang dikumpulkan, kecuali satu - itu berisi semua angka tanpa "Tidak": "TP 1 di G. Khimki ...". Saya harus menanamkan.
Tahun-tahun runtuh. Di beberapa direktori, nama unit "kabur" berdasarkan tahun, bahkan ketika mereka tidak berubah seiring waktu.
500-168, . . ,2007
500-168, . . ,2008
500-168, . . ,2009
500-168, . . ,2010
Kami menggabungkan catatan ini, mengikat mereka ke suatu periode: dalam contoh di atas, dari empat catatan, kami mendapat satu dengan tanggal "2007-2010".
Kami mengumpulkan buku referensi lain - “2018+”. Pada tahun 2018, kudeta terjadi - sekarang nama departemen "tertinggi" Kementerian Dalam Negeri di wilayah ini tidak tertulis di paspor. Oleh karena itu, dalam dokumen yang dikeluarkan di Wilayah Krasnoyarsk, terlepas dari kode, mereka menunjukkan "GU Kementerian Dalam Negeri Rusia di seluruh Wilayah Krasnoyarsk".
Kami mengambil semua kode yang dikumpulkan, dibagi berdasarkan wilayah dan menghasilkan nama yang sama untuk mereka dengan gaya 2018. Nama-nama itu diambil dari direktori yang dikumpulkan, sesuatu harus dicari di Internet. Ternyata sesuatu seperti itu.
240-001, ,2018
240-002, ,2018
240-003, ,2018
Tahun-tahun dihapus. Ternyata ada kekacauan yang sempurna di direktori: di suatu tempat, ada tahun, di suatu tempat tidak. Masih ada di mana-mana untuk menghapus tahun untuk referensi yang lebih lengkap, atau hanya meninggalkan unit selama bertahun-tahun demi itu tidak jelas apa. Pilih referensi yang lebih lengkap.
Direktori digabungkan , data dalam ekstasi digabung menjadi satu. Mereka menggosok hasilnya secara menyeluruh dengan kain, menyisirnya dan mengingatkannya: misalnya, "RA" jika perlu diubah menjadi "Republik Altai" dan selusin perubahan lainnya dilakukan.
Dan sekarang, panduannya sudah siap. Gunakan itu, Anda melakukannya sendiri (sebenarnya, Anda melakukannya sendiri :).
Beberapa seluk untuk korosif
Ada banyak entri dalam direktori dengan kode unit yang sama. Ini disebabkan oleh fakta bahwa pada tahun-tahun yang berbeda di paspor, pengejaan unit yang sama berbeda. Kami menggabungkan opsi serupa, tetapi meninggalkan yang sangat berbeda: biarkan pengguna memilih bagaimana ia memilikinya dalam dokumen.
Mungkin ternyata paspor dan direktori Anda ditulis sedikit berbeda. Tanpa normalisasi minimal, setiap unit akan memiliki banyak opsi serupa sehingga Anda dapat menemukan yang tepat. Oleh karena itu, kami mengurangi "DEPARTEMEN AFFAIRS INTERNAL" menjadi "ATC", "CITIES" dan "MOUNTAIN." - ke "G.", "DEPARTEMEN PASPOR DAN LAYANAN VISA" - ke "OPVS", dll.
Jika Anda mulai mengetik nama, "Tips" juga akan berkontribusiTapi! Tidak ada undang-undang atau peraturan yang mewajibkan bahwa nama unit dalam dokumen surat demi surat bertepatan dengan opsi dalam paspor. Singkatan dan kelalaian diizinkan. Yang utama adalah detail lainnya kira-kira sama dan sama: seri, angka, tanggal, kode unit.
Kesalahan dapat dilaporkan kepada kami dadata.ru/fix/fms . Tunjukkan kode dan nama catatan masalah, dan tuliskan di komentar apa yang salah. Perbaiki dan layangkan panduan yang diperbarui untuk semua orang. Atau kirim permintaan kumpulan ke GitHub.
Secara alami, Anda dapat memperbaiki CSV dengan tangan Anda jika memiliki manual kosong tanpa "Tips". Tetapi tidak jelas bagaimana semuanya akan macet jika Anda pernah mengambil versi direktori berikutnya dari kami.
Secara umum, gunakan kesehatan Anda:
Jika Anda berbagi artikel, bantu orang yang mencari direktori unit dari paspor. Penderita yang menderita, mereka akan berterima kasih.