实验:我们收集发放护照的单位目录



输入护照时最麻烦的字段是“签发人”。 乘“马里埃尔共和国梅德韦杰夫斯基区内政部”穿上制服是一件繁琐的事。 人们会生气,在必要时简称,犯错误。

建议单位代码的选项会很好。


长期梦想着发放护照的部门的技巧

没有好的参考(但是有不好的参考)


我们已经有了提示:地址,公司,银行,名称,电子邮件 。 也就是说,引擎已准备就绪,只需要数据。

问题在于,根本没有开放的FMS单位正式目录。 当然,它存在于部门大肠中的某个地方,有七个印章,但没有出现在外面。 从何处获取信息尚不清楚。

这个基础不断涌现。 但我们检查了其作者身份,并且内部数据的质量很低。 更糟糕的是,单位名称存储在主格中,而在调查表中则要求工具名称。 如有必要,请使用本健康指南,但我们不承担任何责任。

而且,您仍然必须在某个地方寻找良好的数据:每天我们都被要求提供有关“发布地点”的提示。 这是可以理解的,因为总是在配置文件中找到该字段。 最后,我们别无选择,只能自己编译目录。 好吧,作为我们自己……在大厅的帮助下。

整理出适合所有人的指南,美丽而完整


我们想到了-为什么不对一起签发护照的单位进行编目。 他们启动了一个收集数据的表格dadata.ru/fix/fms 。 这个想法是这样的。

  1. 那些希望留下护照中指定单位信息的人。 以三个字段的形式,该数据中没有任何个人信息。
  2. 我们使用工具清理数据,将其转换为单一格式,然后以.csv格式收集。
  3. 我们以开放获取的方式出版了现成的参考书。

要获得最终指南,您不能离开您的数据。 我们将与所有人共享它, 即使现在也要使用它

如果您与签发护照的单位共享,则使项目的完成更加紧密。 我们将完善有关光辉和崩溃复杂双打的最终指南。

我们将报告进度


这一切都是实验。 我们不知道会发生什么。 也许没有人会只共享数据,那么冒险就没有了。 甚至更多,我们不知道我们将收集目录多长时间。

但是我们承诺要做的是在Twitter上进行报道。 每天都不太可能,但是我们一定会通知您重要的里程碑。 我们还将在这里介绍实验结果。

根据我们的估计,该国签发护照的单位少于10,000个。 毕竟这是相当多的。 让我们尝试收集它们。

UPD:聚集!


感谢使用“ Habr”的用户和其他人一样! 我们收集了16500条记录的目录的第一版。

下载CSV | 尝试现成的“提示”

如果缺少某个部门,您知道该怎么做:

Source: https://habr.com/ru/post/zh-CN442012/


All Articles