Cara menghitung "kesamaan" angka dalam paspor. Dan menemukan yang sama bahkan dengan kesalahan ketik



Produk HFLabs mencari pelanggan duplikat di database perusahaan federal. Cara yang paling jelas untuk menemukan kartu pelanggan yang sama adalah dengan membandingkan paspor atau dokumen identifikasi lainnya.

Sebelumnya, kami membandingkan jumlah dokumen dengan ketat: sama - sangat baik, tidak - maaf. Untuk analisis manual, karena kesalahan ketik di ruangan, bahkan kartu-kartu yang memiliki nama dan alamat yang sama ditinggalkan. Pendekatan ini tidak perlu membebani staf pelanggan.

Oleh karena itu, kami masuk ke dalam data, memeriksa statistik dan menyimpulkan kriteria - ketika angka yang berbeda benar-benar berbeda, dan ketika datang ke kesalahan ketik. Saya memberi tahu Anda bagaimana algoritma bekerja.

Memperkenalkan koefisien angka "kesamaan"


Membagi jumlah paspor dan dokumen lain menjadi "tidak cocok" adalah keputusan yang terlalu kasar. Anda dapat bertindak lebih baik dan menangkap kesalahan sederhana.

Katakanlah perusahaan memiliki aturan berikut untuk menemukan duplikat (DUL - dokumen identitas):

  • “Nama, alamat, dan DUL benar-benar bersamaan” - faktor duplikasi - 100;
  • "Nama lengkap dan nama lengkap" - 97;
  • "Nama dan alamat benar-benar bertepatan" - 95
  • "Nama sepenuhnya bertepatan" - 80.

Otomasi menggabungkan kartu dengan rasio lebih tinggi dari 97. Selebihnya suatu hari nanti akan dibongkar oleh orang-orang khusus - pelayan data. Jika Anda beruntung dan giliran datang.

Hasilnya - dalam antrian untuk analisis manual adalah duplikat yang cukup jelas. Bahkan kartu-kartu dengan nama dan alamat yang sama dengan nomor paspor dibedakan dengan kesalahan ketik yang umum. Seperti dalam kasus 4 6 01 859473 dan 4 5 01 859473 (kunci 6 dan 5 di dekatnya, mereka sering bingung.) Pengurus data terganggu oleh kesalahan ketik sederhana, dan duplikat nyata terdeteksi lebih lambat.

Melihat apa yang terjadi, kami mengajarkan produk kami untuk menghitung "kesamaan" angka dalam dokumen. Pelanggan sudah menggunakan opsi baru dalam aturan untuk penggabungan duplikat otomatis.

Kami menganggap "kesamaan" sesuai dengan aturan yang jelas


Membandingkan dokumen, algoritma pertama-tama membersihkan angka dari sampah. Hanya menyisakan huruf dan angka: A - Z, A - YaE, 0–9. Dan kemudian keajaiban dimulai, di mana saya menulis artikel ini - perhitungan koefisien "kesamaan".

Peringatan penting: kemungkinan tidak mungkin. Nomor ini diperlukan untuk membagi duplikat menjadi grup dengan jenis kesalahan yang sama. Tidak peduli apa “kesamaan” dalam nilai absolut - itu hanya parameter untuk membandingkan angka.

Dan sekarang - dengan aturan perhitungan.
AturannyaRasio KesamaanContohKomentar
Pertandingan penuh100
  • 46 07 324654;
  • 46 07 324654
Tidak ada yang perlu dibicarakan, semuanya jelas
Transgraphics100
  • AB 4358333;
  • AB 4358333
Transgraphics adalah ketika karakter satu alfabet diganti dengan yang sama dari yang lain.

Dalam kasus pertama, karakter adalah Cyrillic, di kedua - Latin.

Kesalahan ketik biasa yang tidak berbahaya
Satu kesalahan ketik umum95
  • 50 16 631 5 02;
  • 50 16 631 6 02
Salah ketik yang umum adalah ketika karakter terletak dekat pada salah satu blok nomor keyboard atau serupa dalam pengejaan.

"Faktor" sedang mencari kesalahan ketik umum pada tabel "kesamaan" yang telah dikompilasi oleh analis kami. (Lebih baik mengunduhnya lebih cepat sampai kolega Anda dipaksa untuk menghapus tautan)
Perubahan tata letak94
  • AS 98787;
  • TA 98787
Ini berfungsi jika hanya ada angka dan cyrillic di satu baris, dan hanya angka dan Latin di yang lain. Jika tidak, tampaknya seseorang dengan itikad baik tidak membuat kesalahan dengan tata letak
Mengganti Angka Romawi dengan Bahasa Arab93
  • XIX 987987;
  • 19 987987
Hanya berfungsi di awal baris. Logikanya adalah ini: angka Romawi "jujur" hanya dapat berupa seri, dan seri - hanya di awal
Satu kesalahan ketik umum90
  • 1 234 987987;
  • 3 234 987987
Kesalahan ketik biasa - salah satu yang tidak termasuk dalam tabel umum
Satu permutasi dua karakter90
  • 3.554 46 36 78;
  • 3554 46 63 78
Kesalahan ketik yang umum, tidak ada yang ditambahkan
Pasangan karakter dicampuradukkan89
  • 12 34 987987
  • 34 12 987987
Hanya berfungsi untuk episode yang panjangnya lebih dari empat karakter.

Kami menganggap itu salah ketik hanya jika itu terjadi di awal baris. Ini adalah kesalahan pernyataan umum ketika memasukkan serangkaian dokumen. Dan tidak heran - pada formulir seri dicetak dengan dua pasang angka.

Di tengah dan akhir baris, permutasi seperti itu adalah kesalahan.
Satu nomor termasuk dalam yang lain88
  • 12 3456789 ;
  • 3456789
Dengan perbandingan ini, kami menangkap kasus "seri yang hilang".

Hanya berfungsi untuk string dengan panjang enam karakter atau lebih. Enam karakter - panjang angka minimum dalam dokumen yang diketahui oleh kami.

Untuk kesalahan ketik, kami hanya menghitung di awal atau di akhir baris. Jika tidak, alih-alih alat peraga yang dipangkas secara acak, akan ada kejadian terpisah dari beberapa urutan di tempat lain. Jadi, Anda dapat mengambil kode pos di dalam TIN untuk kesalahan ketik yang baik
Ada dua kesalahan ketik80
  • 15 0 2 47864 3 ;
  • 15 0 5 47 864 8

Sudah cukup dekat dengan perbatasan, tetapi kesalahan masih tampak seperti kesalahan ketik "jujur"
Semua kasus lainnya0
  • 46 07 987987;
  • 32 34 987987
Mengetik perbedaan yang tersisa berbahaya. Probabilitas kesalahan terlalu tinggi

"Kesamaan" diambil sebagai parameter ketika kami mencari pelanggan yang sama


Bank federal sudah menggunakan aturan baru - dengan bantuan mereka, mereka mencari duplikat di antara calon pelanggan. Selanjutnya kita akan menghubungkan asuransi besar.

Selama integrasi, kami menyesuaikan skrip pencarian duplikat untuk memperhitungkan "kesamaan" angka dalam dokumen.

Kembali ke aturan umum untuk menemukan duplikat, saya menggambarkannya di awal:

  • “Nama, alamat, dan DUL benar-benar bersamaan” - faktor duplikasi - 100;
  • "Nama lengkap dan nama lengkap" - 97;
  • "Nama dan alamat benar-benar bertepatan" - 95
  • "Nama sepenuhnya bertepatan" - 80.

Dengan memperkenalkan aturan baru untuk membandingkan angka, kami mengubah skrip untuk menemukan duplikat dari pelanggan:

  • "Nama lengkap, alamat, DUL" - 100;
  • "Nama lengkap, alamat, DUL bertepatan 90 ke atas" - 98;
  • "Nama lengkap dan nama lengkap" - 97;
  • “Nama dan alamat benar-benar bertepatan” - 95;
  • "Nama sepenuhnya bertepatan" - 80.

Otomasi masih "menyatu" semua kartu dengan koefisien di atas 97. Tetapi dengan pesanan baru, kartu yang tidak berbeda hanya dalam kesalahan ketik nomor dokumen tidak akan hilang untuk analisis manual. Duplikat eksplisit langsung runtuh, dan pelayan data memilah kasus yang sangat kompleks.

Artikel ini pertama kali muncul di blog HFLabs .

Source: https://habr.com/ru/post/id483348/


All Articles