如何计算护照号码的“相似性”。 而且即使有错别字也能找到



HFLabs产品正在联邦公司的数据库寻找重复的客户。 查找相同客户卡的最明显方法是比较护照或其他身份证件。

以前,我们严格比较文件数量:相同-很好,不-对不起。 为了进行手动分析,由于房间里有错字,甚至留下了那些名字和地址相同的卡片。 这种方法不必要地加重了客户人员的负担。

因此,我们深入研究了数据,检查了统计数据并推导出了标准-当不同的数字实际上是不同的,以及涉及错别字时。 我告诉你算法是如何工作的。

引入了“相似”数的系数


将护照和其他证件的数量划分为“不匹配”是不明智的决定。 您可以采取更好的行动并发现简单的错误。

假设该公司具有以下规则以查找重复项(DUL-身份证明文件):

  • “名称,地址和DUL完全重合”-重复系数-100;
  • “全名和全名”-97;
  • “姓名和地址完全重合”-95
  • “名字完全重合”-80。

自动化将系数大于97的卡组合在一起。其余的某天将由特殊人员-数据管理员亲自挑选。 如果幸运的话,转机来了。

结果-在手动分析队列中,是很明显的重复项。 即使是那些名称和地址与护照号码相同的卡也可以通过常见的错字来区分。 就像4 6 01 8594734 5 01 859473 (键6和5在附近,它们经常被混淆)一样。数据管家会因简单的错字而分散注意力,而真正的重复项则被发现得更慢。

看看发生了什么,我们教我们的产品计算文档中数字的“相似性”。 客户已经在自动重复合并规则中使用了新选项。

我们根据明确的规则考虑“相似性”


比较文档,该算法首先从垃圾中清除数字。 仅保留字母和数字:A-Z,A-YaE,0-9。 然后魔术开始了,我为此写了这篇文章-“相似性”系数的计算。

重要警告:可能性不大。 需要使用此数字将重复项分为相同类型的错误。 绝对值的“相似性”甚至无关紧要,它只是用于比较数字的参数。

现在-计算规则。
规则相似率例子评注
全场比赛100
  • 46 07 324654;
  • 46 07 324654
没什么可谈的,一切都清楚了
影像学100
  • AB 4358333;
  • AB 4358333
转写是将一个字母的字符替换为另一个字母的字符。

在第一种情况下,字符是西里尔字母,第二种是拉丁语。

典型的无害错字
一种常见的错字95
  • 50 16 631 5 02;
  • 50 16 631 6 02
常见的错字是字符紧密位于键盘的一个数字块上或拼写相似时。

“因素”是在我们的分析师编制的“相似性”表上寻找常见的错别字。 (最好尽快下载,直到您的同事强迫删除链接为止)
布局变更94
  • AS 98787;
  • 98787
如果一行中仅包含数字和西里尔字母,而另一行中仅包含数字和拉丁语,则此方法有效。 否则,似乎一个真诚的人似乎并没有在布局上犯错
用阿拉伯语替换罗马数字93
  • XIX 987987;
  • 19 987987
仅适用于行首。 逻辑是这样的:“诚实的”罗马数字只能是一个系列,而一个系列只能在开头
一种常见的错字90
  • 1234 987987;
  • 3234 987987
非常见错别字-常见表格中未包含的错别字
两个字符的一个排列90
  • 3,554 46 36 78;
  • 3554 46 63 78
典型的错别字,没什么可添加的
字符对混在一起89
  • 12 34 987987
  • 34 12 987987
仅适用于超过四个字符的剧集。

仅当它出现在行首时,我们才认为它是错别字。 输入一系列文档时,这是一个典型的语句错误。 难怪-在表格上印有两对数字的系列。

在一行的中间和结尾,这样的排列是一个错误。
一个号码包含在另一个号码中88
  • 12 3456789 ;
  • 3456789
通过比较,我们发现了“丢失系列”的情况。

仅适用于长度为六个字符或更多的字符串。 六个字符-我们已知文件中的最小数字长度。

对于错别字,我们仅在行的开头或结尾进行计数。 否则,代替随机裁剪的道具,某些序列会零碎出现在其他序列中。 因此,您可以在TIN中输入邮政编码,以获得良好的输入错误
任意两个错别字80
  • 15 0 2 47864 3 ;
  • 15 0 5 47 864 8

距离边境已经很近了,但错误看起来仍然像是“诚实”的错别字
所有其他情况0
  • 46 07 987987;
  • 32 34 987987
输入其余的差异很危险。 错误的可能性太高

我们在寻找相同的客户时,将“相似性”作为参数


联邦银行已经在使用新规则-在这些规则的帮助下,他们正在潜在客户中寻找重复的规则。 接下来,我们将连接大型保险。

在集成过程中,我们会调整重复的搜索脚本,以考虑文档中数字的“相似性”。

回到寻找重复项的典型规则,我在一开始就对它们进行了描述:

  • “名称,地址和DUL完全重合”-重复系数-100;
  • “全名和全名”-97;
  • “姓名和地址完全重合”-95
  • “名字完全重合”-80。

通过引入比较数字的新规则,我们更改了从客户那里查找重复项的脚本:

  • “全名,地址,DUL”-100;
  • “全名,地址,DUL等于或大于90”-98;
  • “全名和全名”-97;
  • “姓名和地址完全重合”-95;
  • “名字完全重合”-80。

自动化仍然会将系数大于97的所有卡“粘在一起”。但是,有了新订单,那些单号错别率不大的卡就不会被人工分析。 显式副本会立即崩溃,数据管理员会整理出非常复杂的案例。

该文章首先出现在HFLabs博客上

Source: https://habr.com/ru/post/zh-CN483348/


All Articles