
从几个月前开始,我们进行了试验:是否有可能在哈勃尔
收集发行俄罗斯护照的单位的适当目录 ? 事情是有用的:许多人需要此数据,没有规范的来源,现有的信息非常一般。
而且,一切顺利。 可用目录已准备就绪,您可以下载和使用。 此外,我们还提供了一些技巧,可加快单位输入电子表格的速度。
“裸” CSV-公共领域
我们在GitHub上发布了经过编译和整理的参考。 在内部,一切都很简单,CSV具有两个字段:
躺在这里
github.com/hflabs/fms-unit/releases/latest 。
输入表单也有现成的技巧(此外,免费)
我们聚集了单位以提供现成的服务-输入表单的提示。 在这里,他们准备好了。
可以将“提示” DaData.ru集成到站点,CRM或CMS中,并传递给有爱心的同伴:用户只需要输入单位代码,名称就可以填写服务。
每个人似乎都讨厌填写单位名称。 我们试图减轻人们的痛苦。即使是“技巧”,有时也会从代码中提取单元的区域和类型。 这是答案的简要说明。
每天我们免费提供多达10,000个“提示”的查询,这是≈300个完整的表格。 更多-作为订阅的一部分,每年5 000 from起。 它通过jQuery插件,API或适用于不同CRM,CMS,“ 1C”等的组件工作。
详细信息在
dadata.ru/suggestions/outward/fms_unit/中 。
“ Habr”对数据的帮助很大
那些听说过该项目的人的第一个问题是:“真的,通过Habr,您已经收集了它吗?” “哈勃”不仅有帮助,小贩的贡献也很大而广泛。 我们很感激并且有些惊讶:我们第一次来到社区,并立即得到了这样的结果。
最初,我们有了一些发展。 但是,首先,远没有完整的参考。 其次,我想检查一下真实护照的数据是否足够。
当我们大喊大叫时,
许多人从护照上通过收集表寄出了单位 。 他们分别发送了1到5到10条记录。 不太懒惰的英雄不愿用手推动这一切-尊重。
三个人在一个个人数据库中提供了可观的大小。 友好和免费。
那些担心安全性的人:所有目录都是匿名发送的,不是一个字节的个人数据这样的礼物大大推动了事情的发展。 结果,三周后,我们收集到了足以制造适合工业用途的产品的信息。
成功之路-“大量原始数据+ 300 regekspov +一点pitonochki”
因此,原始数据掌握在Dadata nalgeon食品中。 他在标题上引述了更多的舞蹈。 我们收集的所有内容都经历了一系列精彩的转换。
首先,标准化单位名称。 在这里,我不得不认真地处理文件。 例如,在“有效”护照中,领土单位的编号用“编号”表示:“ G。Khimki ...中的TP编号1”。 除一个目录外,大多数目录都是相同的-它包含所有编号,但不带“ No”:“ G。Khimki中的TP 1 ...”。 我必须嵌入。
几年崩溃了。 在几个目录中,单位名称会按年份“模糊化”,即使它们不会随时间变化。
500-168, . . ,2007
500-168, . . ,2008
500-168, . . ,2009
500-168, . . ,2010
我们合并了这些记录,将它们绑定到一个时期:在上面的示例中,在四个记录中,我们得到了一个日期为“ 2007-2010”的记录。
我们收集了另一本参考书-“ 2018+”。 2018年发生了政变-现在内政部该地区“最高”部门的名字没有写在护照上。 因此,在克拉斯诺亚尔斯克地区发行的文件中,无论代码是什么,它们都表示“横跨克拉斯诺亚尔斯克地区的俄罗斯内政部的总司令”。
我们采用了所有收集的代码,按地区划分,并以2018年的样式为其生成了相同的名称。 名称取自收集的目录,必须在Internet上进行搜索。 原来是这样的。
240-001, ,2018
240-002, ,2018
240-003, ,2018
这些年被删除了。 原来,目录中有一个完美的烂摊子:某个地方,有几年,没有地方。 它仍然无处不在以删除年份以提供更完整的参考,或者仅保留多年来的单位以免不清楚。 选择更完整的参考。
目录被合并 ,销魂中的数据合并在一起。 他们用抹布彻底擦拭结果,梳理并提醒:例如,在必要时将“ RA”变成“ Altai Republic”,并进行了十几次此类更改。
现在,指南已准备就绪。 使用它,您自己完成了(实际上,您自己完成了:)。
腐蚀性的一些微妙之处
目录中有许多条目具有相同的单位代码。 这是由于以下事实:在不同年份的护照中,同一单元的拼写不同。 我们组合了类似的选项,但留下了非常不同的选项:让用户选择他在文档中的使用方式。
事实证明,您的护照和电话簿的书写方式略有不同。 如果没有最小化的标准化,每个单元将具有大量类似的选项,因此您可以找到合适的选项。 因此,我们将“内部事务部”缩减为“ ATC”,“ Cities”和“ Mountain”。 -到“ G.”,“护照和签证服务部门”-到“ OPVS”等
如果您开始输入名称,“提示”也将有所帮助但是! 没有法律或细则要求文件中字母的单位名称与护照中的选项一致。 允许使用缩写和省略。 最主要的是其他细节大致相同:序列,数字,日期,单位代码。
错误可以报告给我们dadata.ru/fix/fms 。 指出问题记录的代码和名称,并在注释中写错。 为每个人更正并布置更新的指南。 或将池请求发送到GitHub。
自然,如果您有没有“提示”的简单手册,就可以用手校正CSV。 但是,如果您从我们这里获取该目录的下一个版本,那么一切将如何停滞还不清楚。
通常,请注意以下几点:
如果您分享文章,请帮助正在寻找护照目录的人员。 痛苦的受害者,他们将不胜感激。