我们如何学会快速处理支票扫描

在本文中,我将告诉您我们如何学会识别支票(或更确切地说是支票),他们踩的是哪种耙子以及我们实现了哪种效率。

我将从简短的介绍开始。 我们通过对各种消费品的制造商和销售商进行促销来赚钱。 通常,这是“购买商品-查找代码-发送给我们-赢得奖品”类别中的内容。 我们的主要产品是一个平台,可以生成,接受,处理这些代码,帮助与参与者进行交流,支付奖金并做更多的工作。

最近,我们开始越来越多地看到商店中同事的促销活动,其中购买确认不是促销代码(如上例所示),而是支票的照片。 现在这种现象已经变得普遍。 不允许远离。

首先,我用发现的支票在所有股票中进行了登记(老实说,不是全部,我在第二个十点就累了)。 我想您没有任何支票,所以我决定在抽象背景上使用猫的照片代替支票。 想象一下,当我在所有活动中(除了其中一项)在领奖之前都接受并接纳我的猫时感到惊讶。 在某些地方,他们甚至以促销代码的形式向在线图书馆颁发了即时奖。 老实说,在那次行动中猫也被接受了,但答应要在8(!)小时内将它送去进行审理,以解决我参与行动的问题。

此选项显然不适合我们。 首先,不允许任何人玩任何照片都是不好的。 只要平台允许一次,他就可以上传同一张支票的照片,从而一再提高获胜的机会。 这些应用程序之一中奖时,将出示该单张支票的原件并领取奖金。 当然,有机会赢得两次并背叛自己,但是我们已经对此感到厌恶。 其次,在这个将访问者花费在网站上超过15秒的访问者视为目标的世界中,不给人们8个小时的反馈似乎很可笑。 第三,为猫的照片颁奖意味着向自己展示自己不是一个非常有能力的组织者。 顺便说一句,他在这里。



结论很明显:我们需要学习如何识别支票。 任务很艰巨,所以我们去了专业人士-一家知名公司。 幸运的是,他们有一个识别支票的解决方案,不幸的是,这种解决方案还没有在俄罗斯市场上本地化。 为此,他们给了我们1000次免费尝试以识别支票的承诺,希望能为您提供建议,并祝他们好运。

到那时,来自客户的请求出现了。 我们的任务是为大型零售商店网络采取行动。 展望未来,我要说的是,他们每天最多接受1000个注册。 为了获得促销奖品的资格,您必须在一定时间内以N卢布的价格购买某些东西。 并请务必使用VISA卡付款。 购买单据时获得的照片应上传到我们的促销网站。 如果您被认为是获胜者,则必须在票房出示一张纸条和一张VISA卡并领取奖品。 一张照片-一种获胜的机会。 根据特殊公式,将在所有加载正确单据的参与者中计算获胜者。 我们现阶段的任务是接受纸条并允许/不允许某人参与绘图。 同时,我们希望能切入最大的花样,可以尝试使我们滑两次,在动作开始之前滑印出的滑纸,以及更多有趣的事物,包括但不限于猫的照片。

对一家大公司的产品进行的多次测试表明,它确定了支票印刷的购买金额,卡类型,卡号,时间和日期。 似乎是这样的:我们将其复制(为此,计算识别出的参数和图片本身的哈希值),我们识别金额,日期,支付系统和卡号。 是的,它可以识别错误,但不是全部。

让我提醒您,中奖者在发放奖品时会检查纸条金额和卡,或者卡号的后4位。 数据由注册表检查,注册表根据抽奖结果由我们的系统自动发送到商店。 也就是说,该数据必须完全正确。

我们必须做出第一个妥协:我们要求参与者手动输入购买金额和卡号的最后4位数字。 此外,如果人员输入的内容与机器识别的内容一致,并且付款系统和发票打印日期正确,我们允许参与者绘画。
我们认为原来只允许71%的付款单。 剩下的29%是不正确或质量较差的图像,并且以大约50/50的比率校正但识别不正确的图像。

那14.5%被错误拒绝的支票怎么办? 解决方案很快就出现了,他们开始将手动应用程序发送到友好的联系中心。 缺点:昂贵而漫长。 如果一分钟内有71%的幸运者获得了结果,那么这些人不得不报告等待长达8个小时。 决定尝试在我们的系统中标准化识别结果。

我们启用分析功能:我们手动验证照片中的数据和识别结果。 识别结果如下:分别是“日期”,“金额”等字段。 分别是全文,即通常在图像中找到的所有内容。 通常,通过眼睛可以在全文中找到第一字段中未包含的数据。 基于对数百张单据的分析,我们决定执行以下操作:

1)我们将支票与单据区分开:在所有接受的单据中,我们正在寻找行数最大的单据。 对于任何被拒绝(出于任何原因)的文档,我们都会考虑行数,如果该行数超出了先前计算的最大值,我们会与对方说:“也许您正试图下载支票,而不是单据。 与支票分开拍摄一张单据,然后重试。” 因此,一个人可以更好地理解他的照片出了什么问题。

2)如果无法识别日期:我们尝试在全文中使用掩码“ XX / XX / XU”搜索该片段,其中X是任何数字,Y是任何字符。 当找到片段Y时,将其更改为6(或7,具体取决于验证年份),并以找到的片段为单据的打印日期。 是的,是的,该系统主要在日期的最后一位数字上显示。 赢了2%

3)如果无法识别该金额:在全文中搜索掩码“ ZXXXX.XX RU”,其中X是任何数字,Z是任何字符,包括空格或不存在字符。 将找到的片段与参与者输入的片段进行比较。 如果存在差异,则将找到的片段中的所有6个字符乘8个字符一一替换,然后与您输入的内容进行比较。 由于某种原因,该机器通常恰好混淆了6和8,而不是8和6(即6和8)。增益约为3%。

4)卡号:在全文中搜索掩码“ ** XXXX”,其中X是任何数字。 X个字符之间可能有空格或标点符号,我们将其丢弃。 将所得的号码与手动输入的卡号进行比较。 + 1%。

5)支付卡:在全文中搜索以下片段之一:“卡:V”,“卡:V”,“卡V”,“ VISH”。 如果已找到,则将该卡视为VISA卡。 + 3%。

因此,我们将在一分钟内接受的申请数量增加到80%。 las,规范化的可能性实际上已经用尽了,我们改用提高手动识别的效率(但这是另一回事了)。

据我所知,总的来说,我们证明这是该国第一个真正用机器识别支票的活动。 在我看来,这是第一次取得不错的成绩,但是到了夏天,我们的合作伙伴承诺通过正式提交其服务的俄文版本来大大提高识别质量。

Source: https://habr.com/ru/post/zh-CN401391/


All Articles