下午好 在公共领域,终于出现了包含产品名称,类别和品牌的巨大条形码目录。
我们已经研究了大约8年,现在它已经具有EAN(EAN-13,EAN-8)和UPC(UPC-A,UPC-E)标准的约300万个条形码。
那里有什么?
有一个表,其中包含条形码条目和相应的产品名称,在所有条目中都有一个类别,在很多情况下都有一个品牌。
展示的产品范围非常广泛。 那里没有重型设备,但是可能存在所有的消费细分市场(药品,香水,化妆品,食品,玩具,性用品分类,书籍,文具,五金,工具等)。
手册的原始在线版本存储在Universe-HTT服务器上。
开放版本发布在
github上 。 请注意,碎片数据库存储在源中。 完整文件
位于发行版中 。
为什么需要它?
那些在Internet或其他任何地方搜索(大部分未成功)以寻找条形码指南的人,他们已经知道为什么需要它。 对于其余的内容,我将列出如此广泛的数据数组的有用属性:
- 首先,这是带有“固定”标识符的产品列表。 也就是说,您拿起任意产品,例如躺在床头柜上,然后通过包装上印刷的条形码,可以将其与位于里约热内卢仓库中某处的类似产品进行比较。
- 前一段的结果将是促进企业之间电子文档流动的机会,因为大多数(当然不是全部)商品的同步问题消失了。
- 您可以快速开设新商店而无需将商品带到会计系统中,而是可以通过搜索条形码从这样的目录中获取它们(非常理想的示例,很好)。
上面的选项及其可能的变化非常普遍。 本指南还有更多有趣的用途:
- 商标词典分析
- 训练神经网络进行商品分类和名称标准化
- 开发“智能”系统以比较不同来源的报价
- 关联企业销售及其他业务比较分析
- ...这份清单继续您的想象力
简报格式
数据库由UTF-8编码的文本文件表示,其字段由制表符分隔。
记录的结构如下:
- ID:内部产品标识符
- UPCEAN:条形码
- 名称:产品名称
- CategoryID:内部类别标识符
- CategoryName:类别的名称。 由于类别目录是分层目录,因此此名称是复合名称-从产品的最高级别到终端级别。 液位分离器-斜线('/')
- BrandID:内部品牌标识
- 品牌名称:品牌名称
内部标识符对于任何人来说都不是很有趣-我们仅出于我们自己的目的上传它们(如果您突然有外部问题,如果您突然需要准确地标识指向记录的链接)。
自由分发格式的记录按产品名称按字母顺序排序。
特色功能
如果仔细研究所提供的数据,您会注意到,与Internet上大多数可用的类似目录(付费目录和免费目录)不同,对商品名称进行了大量的工作。
关于我们如何做到的几句话。
首先,使用
我曾经在Habré上描述的技术自动处理目录(在
OpenPapyrus系统中管理)。
我想说的是,所提到的技术可以为我们做一切。 但是a。 半自动和手动模式下必须完成大量工作。
许多物品必须“解密”-在原始来源中,它们可能包含难以想象的缩写,并且完全忽略了我们的商品命名系统:)
确保在公共领域发布的所有条形码都经过测试是否符合以下四个标准之一:EAN-13,EAN-8,UPC-A,UPC-E,并包括校验位。 可能的缺陷和问题将在下面描述。
完整性和相关性
对于典型的问题“目录中是否所有条形码?” 答案是刻板印象:不,不能。
如果您通过不存在条形码而偶然引起您注意的概率来评估目录的完整性,那么这将是10%到15%(我自己非常粗略的估计,此外,他们自己也理解,有偏见)。 无论如何,公共领域的规模再也不是什么了
地理覆盖范围(按销售商品的国家划分)非常重要:俄罗斯,乌克兰,白俄罗斯,美国,英国,欧盟,南非,巴西,马来西亚等。
演讲语言主要是俄语和英语。 我们通常会忽略其他语言的来源,因为在这些语言中没有任何意义(例外,西班牙语,捷克语和其他语言中有职位)。
我们会以几个月的频率更新Universe-HTT服务器上的目录(当我们在初步缓冲区中积累了足够数量的数据时)。 他们上一次在今年6月上传数据。 那里大多数新职位很可能缺席。 但是,尽管这似乎令人惊讶,但新条形码却很少出现。 许多具有相同代码的产品零售了多年。
我们还计划不时更新目录的打开版本。
资料来源
我们从什么来源获取所有这些数据? 主要来自互联网。 我们收集各种价格表,公开报告,包括来自政府机构的报告(例如,美国某些州发布采购数据)。
杂草
该目录包含许多缺陷。 它们并不多,但是有必要报告它们。
不良代码
首先,遇到的条形码被误解为UPC-A,而实际上是EAN-13,没有校验位。 原因是原始来源(我们不知道是哪个来源)包含没有校验位的EAN-13代码,但最后一位满足了UPC-A的校验位计算规则,而我们适度的算法认为此代码与UPC-A有关。 可以纠正此问题,但发现为时已晚且指针未达到质量调整范围。
这样的问题已经很小了,但是,正如他们所说的,可惜。
严重不匹配
此外,商品中存在混乱。 也就是说,在某些(极为罕见的情况)下,条形码所对应的名称与之完全无关。
私人密码
一些条形码可能是私有的。 那些以2开头的EAN-13会在一开始就被丢弃,但有时会出问题并且遇到私钥,要么以'2'开头,要么以其他数字开头私有的,未在与此相关的任何组织(例如GS1)中注册。
分类
由于我们未尝试建立目录的良好分类-不可能太多。 三分之一的职位属于默认组-即,绝对没有分类。 其余的很可能被错误地分类了。
尽管我们在此问题上非常努力,但并非所有产品都与品牌相关。
怎么帮?
如果您希望帮助扩展目录,那么我们将非常感谢您发送的有关您已知条形码的数据。 我强烈怀疑是否有人想要,但是以防万一,我告知您,根据个人资料中的信息,找到我并不难。
任何能够对目录项进行自动分类并共享想法和最佳实践的人都将获得一个非常友善的人的头衔。 就我们而言,我们承诺将我们在这一领域的研究成功告知公众。
自私
如果您喜欢该指南,请在星号上将其标记为星号。 如果您真的喜欢它,还请在
星号上标记
OpenPapyrus项目,因为目录的所有管理和管理都是在它的帮助下进行的。
使用条款
没有。 如您所愿,使用它。 如果您给我们提供链接-谢谢,不-我们将生存。
苦涩的遗憾
不想放弃需求作为美德,让我知道我们希望以某种方式将正在讨论的参考书货币化。 但是,在过去的几年中,我们未能在该领域取得显著成就。 因此,他们决定:一般性比他妈的强。 这样的事情看起来像是我们采取指示行动的动机。
谢谢您的关注。