HFLabs产品正在联邦公司的数据库
中寻找重复的客户。 查找相同客户卡的最明显方法是比较护照或其他身份证件。
以前,我们严格比较文件数量:相同-很好,不-对不起。 为了进行手动分析,由于房间里有错字,甚至留下了那些名字和地址相同的卡片。 这种方法不必要地加重了客户人员的负担。
因此,我们深入研究了数据,检查了统计数据并推导出了标准-当不同的数字实际上是不同的,以及涉及错别字时。 我告诉你算法是如何工作的。
引入了“相似”数的系数
将护照和其他证件的数量划分为“不匹配”是不明智的决定。 您可以采取更好的行动并发现简单的错误。
假设该公司具有以下规则以查找重复项(DUL-身份证明文件):
- “名称,地址和DUL完全重合”-重复系数-100;
- “全名和全名”-97;
- “姓名和地址完全重合”-95
- “名字完全重合”-80。
自动化将系数大于97的卡组合在一起。其余的某天将由特殊人员-数据管理员亲自挑选。 如果幸运的话,转机来了。
结果-在手动分析队列中,是很明显的重复项。 即使是那些名称和地址与护照号码相同的卡也可以通过常见的错字来区分。 就像
4 6 01 859473和
4 5 01 859473 (键6和5在附近,它们经常被混淆)一样。数据管家会因简单的错字而分散注意力,而真正的重复项则被发现得更慢。
看看发生了什么,我们教我们的产品计算文档中数字的“相似性”。 客户已经在自动重复合并规则中使用了新选项。
我们根据明确的规则考虑“相似性”
比较文档,该算法首先从垃圾中清除数字。 仅保留字母和数字:A-Z,A-YaE,0-9。 然后魔术开始了,我为此写了这篇文章-“相似性”系数的计算。
重要警告:可能性不大。 需要使用此数字将重复项分为相同类型的错误。 绝对值的“相似性”甚至无关紧要,它只是用于比较数字的参数。
现在-计算规则。
我们在寻找相同的客户时,将“相似性”作为参数
联邦银行已经在使用新规则-在这些规则的帮助下,他们正在潜在客户中寻找重复的规则。 接下来,我们将连接大型保险。
在集成过程中,我们会调整重复的搜索脚本,以考虑文档中数字的“相似性”。
回到寻找重复项的典型规则,我在一开始就对它们进行了描述:
- “名称,地址和DUL完全重合”-重复系数-100;
- “全名和全名”-97;
- “姓名和地址完全重合”-95
- “名字完全重合”-80。
通过引入比较数字的新规则,我们更改了从客户那里查找重复项的脚本:
- “全名,地址,DUL”-100;
- “全名,地址,DUL等于或大于90”-98;
- “全名和全名”-97;
- “姓名和地址完全重合”-95;
- “名字完全重合”-80。
自动化仍然会将系数大于97的所有卡“粘在一起”。但是,有了新订单,那些单号错别率不大的卡就不会被人工分析。 显式副本会立即崩溃,数据管理员会整理出非常复杂的案例。
该文章首先出现在HFLabs博客上 。