Produk HFLabs mencari pelanggan duplikat di database perusahaan federal. Cara yang paling jelas untuk menemukan kartu pelanggan yang sama adalah dengan membandingkan paspor atau dokumen identifikasi lainnya.
Sebelumnya, kami membandingkan jumlah dokumen dengan ketat: sama - sangat baik, tidak - maaf. Untuk analisis manual, karena kesalahan ketik di ruangan, bahkan kartu-kartu yang memiliki nama dan alamat yang sama ditinggalkan. Pendekatan ini tidak perlu membebani staf pelanggan.
Oleh karena itu, kami masuk ke dalam data, memeriksa statistik dan menyimpulkan kriteria - ketika angka yang berbeda benar-benar berbeda, dan ketika datang ke kesalahan ketik. Saya memberi tahu Anda bagaimana algoritma bekerja.
Memperkenalkan koefisien angka "kesamaan"
Membagi jumlah paspor dan dokumen lain menjadi "tidak cocok" adalah keputusan yang terlalu kasar. Anda dapat bertindak lebih baik dan menangkap kesalahan sederhana.
Katakanlah perusahaan memiliki aturan berikut untuk menemukan duplikat (DUL - dokumen identitas):
- “Nama, alamat, dan DUL benar-benar bersamaan” - faktor duplikasi - 100;
- "Nama lengkap dan nama lengkap" - 97;
- "Nama dan alamat benar-benar bertepatan" - 95
- "Nama sepenuhnya bertepatan" - 80.
Otomasi menggabungkan kartu dengan rasio lebih tinggi dari 97. Selebihnya suatu hari nanti akan dibongkar oleh orang-orang khusus - pelayan data. Jika Anda beruntung dan giliran datang.
Hasilnya - dalam antrian untuk analisis manual adalah duplikat yang cukup jelas. Bahkan kartu-kartu dengan nama dan alamat yang sama dengan nomor paspor dibedakan dengan kesalahan ketik yang umum. Seperti dalam kasus
4 6 01 859473 dan
4 5 01 859473 (kunci 6 dan 5 di dekatnya, mereka sering bingung.)
Pengurus data terganggu oleh kesalahan ketik sederhana, dan duplikat nyata terdeteksi lebih lambat.
Melihat apa yang terjadi, kami mengajarkan produk kami untuk menghitung "kesamaan" angka dalam dokumen. Pelanggan sudah menggunakan opsi baru dalam aturan untuk penggabungan duplikat otomatis.
Kami menganggap "kesamaan" sesuai dengan aturan yang jelas
Membandingkan dokumen, algoritma pertama-tama membersihkan angka dari sampah. Hanya menyisakan huruf dan angka: A - Z, A - YaE, 0–9. Dan kemudian keajaiban dimulai, di mana saya menulis artikel ini - perhitungan koefisien "kesamaan".
Peringatan penting: kemungkinan tidak mungkin. Nomor ini diperlukan untuk membagi duplikat menjadi grup dengan jenis kesalahan yang sama. Tidak peduli apa “kesamaan” dalam nilai absolut - itu hanya parameter untuk membandingkan angka.
Dan sekarang - dengan aturan perhitungan.
"Kesamaan" diambil sebagai parameter ketika kami mencari pelanggan yang sama
Bank federal sudah menggunakan aturan baru - dengan bantuan mereka, mereka mencari duplikat di antara calon pelanggan. Selanjutnya kita akan menghubungkan asuransi besar.
Selama integrasi, kami menyesuaikan skrip pencarian duplikat untuk memperhitungkan "kesamaan" angka dalam dokumen.
Kembali ke aturan umum untuk menemukan duplikat, saya menggambarkannya di awal:
- “Nama, alamat, dan DUL benar-benar bersamaan” - faktor duplikasi - 100;
- "Nama lengkap dan nama lengkap" - 97;
- "Nama dan alamat benar-benar bertepatan" - 95
- "Nama sepenuhnya bertepatan" - 80.
Dengan memperkenalkan aturan baru untuk membandingkan angka, kami mengubah skrip untuk menemukan duplikat dari pelanggan:
- "Nama lengkap, alamat, DUL" - 100;
- "Nama lengkap, alamat, DUL bertepatan 90 ke atas" - 98;
- "Nama lengkap dan nama lengkap" - 97;
- “Nama dan alamat benar-benar bertepatan” - 95;
- "Nama sepenuhnya bertepatan" - 80.
Otomasi masih "menyatu" semua kartu dengan koefisien di atas 97. Tetapi dengan pesanan baru, kartu yang tidak berbeda hanya dalam kesalahan ketik nomor dokumen tidak akan hilang untuk analisis manual. Duplikat eksplisit langsung runtuh, dan pelayan data memilah kasus yang sangat kompleks.
Artikel ini pertama kali muncul di blog HFLabs .