👩🏾‍🤝‍👨🏻 🧕🏿 🚪 Cara menghitung "kesamaan" angka dalam paspor. Dan menemukan yang sama bahkan dengan kesalahan ketik 🤸 👨🏽‍✈️ 🚆

Produk HFLabs mencari pelanggan duplikat di database perusahaan federal. Cara yang paling jelas untuk menemukan kartu pelanggan yang sama adalah dengan membandingkan paspor atau dokumen identifikasi lainnya.

Sebelumnya, kami membandingkan jumlah dokumen dengan ketat: sama - sangat baik, tidak - maaf. Untuk analisis manual, karena kesalahan ketik di ruangan, bahkan kartu-kartu yang memiliki nama dan alamat yang sama ditinggalkan. Pendekatan ini tidak perlu membebani staf pelanggan.

Oleh karena itu, kami masuk ke dalam data, memeriksa statistik dan menyimpulkan kriteria - ketika angka yang berbeda benar-benar berbeda, dan ketika datang ke kesalahan ketik. Saya memberi tahu Anda bagaimana algoritma bekerja.

Memperkenalkan koefisien angka "kesamaan"

Membagi jumlah paspor dan dokumen lain menjadi "tidak cocok" adalah keputusan yang terlalu kasar. Anda dapat bertindak lebih baik dan menangkap kesalahan sederhana.

Katakanlah perusahaan memiliki aturan berikut untuk menemukan duplikat (DUL - dokumen identitas):

“Nama, alamat, dan DUL benar-benar bersamaan” - faktor duplikasi - 100;
"Nama lengkap dan nama lengkap" - 97;
"Nama dan alamat benar-benar bertepatan" - 95
"Nama sepenuhnya bertepatan" - 80.

Otomasi menggabungkan kartu dengan rasio lebih tinggi dari 97. Selebihnya suatu hari nanti akan dibongkar oleh orang-orang khusus - pelayan data. Jika Anda beruntung dan giliran datang.

Hasilnya - dalam antrian untuk analisis manual adalah duplikat yang cukup jelas. Bahkan kartu-kartu dengan nama dan alamat yang sama dengan nomor paspor dibedakan dengan kesalahan ketik yang umum. Seperti dalam kasus 4 6 01 859473 dan 4 5 01 859473 (kunci 6 dan 5 di dekatnya, mereka sering bingung.) Pengurus data terganggu oleh kesalahan ketik sederhana, dan duplikat nyata terdeteksi lebih lambat.

Melihat apa yang terjadi, kami mengajarkan produk kami untuk menghitung "kesamaan" angka dalam dokumen. Pelanggan sudah menggunakan opsi baru dalam aturan untuk penggabungan duplikat otomatis.

Kami menganggap "kesamaan" sesuai dengan aturan yang jelas

Membandingkan dokumen, algoritma pertama-tama membersihkan angka dari sampah. Hanya menyisakan huruf dan angka: A - Z, A - YaE, 0–9. Dan kemudian keajaiban dimulai, di mana saya menulis artikel ini - perhitungan koefisien "kesamaan".

Peringatan penting: kemungkinan tidak mungkin. Nomor ini diperlukan untuk membagi duplikat menjadi grup dengan jenis kesalahan yang sama. Tidak peduli apa “kesamaan” dalam nilai absolut - itu hanya parameter untuk membandingkan angka.

Dan sekarang - dengan aturan perhitungan.

Aturannya	Rasio Kesamaan	Contoh	Komentar
Pertandingan penuh	100	46 07 324654; 46 07 324654	Tidak ada yang perlu dibicarakan, semuanya jelas
Transgraphics	100	AB 4358333; AB 4358333	Transgraphics adalah ketika karakter satu alfabet diganti dengan yang sama dari yang lain. Dalam kasus pertama, karakter adalah Cyrillic, di kedua - Latin. Kesalahan ketik biasa yang tidak berbahaya
Satu kesalahan ketik umum	95	50 16 631 5 02; 50 16 631 6 02	Salah ketik yang umum adalah ketika karakter terletak dekat pada salah satu blok nomor keyboard atau serupa dalam pengejaan. "Faktor" sedang mencari kesalahan ketik umum pada tabel "kesamaan" yang telah dikompilasi oleh analis kami. (Lebih baik mengunduhnya lebih cepat sampai kolega Anda dipaksa untuk menghapus tautan)
Perubahan tata letak	94	AS 98787; TA 98787	Ini berfungsi jika hanya ada angka dan cyrillic di satu baris, dan hanya angka dan Latin di yang lain. Jika tidak, tampaknya seseorang dengan itikad baik tidak membuat kesalahan dengan tata letak
Mengganti Angka Romawi dengan Bahasa Arab	93	XIX 987987; 19 987987	Hanya berfungsi di awal baris. Logikanya adalah ini: angka Romawi "jujur" hanya dapat berupa seri, dan seri - hanya di awal
Satu kesalahan ketik umum	90	1 234 987987; 3 234 987987	Kesalahan ketik biasa - salah satu yang tidak termasuk dalam tabel umum
Satu permutasi dua karakter	90	3.554 46 36 78; 3554 46 63 78	Kesalahan ketik yang umum, tidak ada yang ditambahkan
Pasangan karakter dicampuradukkan	89	12 34 987987 34 12 987987	Hanya berfungsi untuk episode yang panjangnya lebih dari empat karakter. Kami menganggap itu salah ketik hanya jika itu terjadi di awal baris. Ini adalah kesalahan pernyataan umum ketika memasukkan serangkaian dokumen. Dan tidak heran - pada formulir seri dicetak dengan dua pasang angka. Di tengah dan akhir baris, permutasi seperti itu adalah kesalahan.
Satu nomor termasuk dalam yang lain	88	12 3456789 ; 3456789	Dengan perbandingan ini, kami menangkap kasus "seri yang hilang". Hanya berfungsi untuk string dengan panjang enam karakter atau lebih. Enam karakter - panjang angka minimum dalam dokumen yang diketahui oleh kami. Untuk kesalahan ketik, kami hanya menghitung di awal atau di akhir baris. Jika tidak, alih-alih alat peraga yang dipangkas secara acak, akan ada kejadian terpisah dari beberapa urutan di tempat lain. Jadi, Anda dapat mengambil kode pos di dalam TIN untuk kesalahan ketik yang baik
Ada dua kesalahan ketik	80	15 0 2 47864 3 ; 15 0 5 47 864 8	Sudah cukup dekat dengan perbatasan, tetapi kesalahan masih tampak seperti kesalahan ketik "jujur"
Semua kasus lainnya	0	46 07 987987; 32 34 987987	Mengetik perbedaan yang tersisa berbahaya. Probabilitas kesalahan terlalu tinggi

"Kesamaan" diambil sebagai parameter ketika kami mencari pelanggan yang sama

Bank federal sudah menggunakan aturan baru - dengan bantuan mereka, mereka mencari duplikat di antara calon pelanggan. Selanjutnya kita akan menghubungkan asuransi besar.

Selama integrasi, kami menyesuaikan skrip pencarian duplikat untuk memperhitungkan "kesamaan" angka dalam dokumen.

Kembali ke aturan umum untuk menemukan duplikat, saya menggambarkannya di awal:

“Nama, alamat, dan DUL benar-benar bersamaan” - faktor duplikasi - 100;
"Nama lengkap dan nama lengkap" - 97;
"Nama dan alamat benar-benar bertepatan" - 95
"Nama sepenuhnya bertepatan" - 80.

Dengan memperkenalkan aturan baru untuk membandingkan angka, kami mengubah skrip untuk menemukan duplikat dari pelanggan:

"Nama lengkap, alamat, DUL" - 100;
"Nama lengkap, alamat, DUL bertepatan 90 ke atas" - 98;
"Nama lengkap dan nama lengkap" - 97;
“Nama dan alamat benar-benar bertepatan” - 95;
"Nama sepenuhnya bertepatan" - 80.

Otomasi masih "menyatu" semua kartu dengan koefisien di atas 97. Tetapi dengan pesanan baru, kartu yang tidak berbeda hanya dalam kesalahan ketik nomor dokumen tidak akan hilang untuk analisis manual. Duplikat eksplisit langsung runtuh, dan pelayan data memilah kasus yang sangat kompleks.

Artikel ini pertama kali muncul di blog HFLabs .

Cara menghitung "kesamaan" angka dalam paspor. Dan menemukan yang sama bahkan dengan kesalahan ketik

Memperkenalkan koefisien angka "kesamaan"

Kami menganggap "kesamaan" sesuai dengan aturan yang jelas

"Kesamaan" diambil sebagai parameter ketika kami mencari pelanggan yang sama

More articles: