Descarga gratuita de la base de datos de códigos de barras sin registro (y otros caquis)

Buenas tardes En el dominio público, finalmente apareció un enorme directorio de códigos de barras con nombres de productos, categorías y marcas.

Hemos estado trabajando en ello durante aproximadamente 8 años y ahora tiene alrededor de 3 millones de códigos de barras en los estándares EAN (EAN-13, EAN-8) y UPC (UPC-A, UPC-E).

Que hay


Hay una tabla que contiene entradas de código de barras y los nombres de productos correspondientes, en todas las entradas hay una categoría y, en muchas, una marca.

La gama de productos presentados es muy amplia. No hay equipos pesados ​​allí, pero probablemente todos los segmentos de consumidores están presentes (productos farmacéuticos, perfumes, cosméticos, alimentos, juguetes, surtido de sexshop, libros, papelería, hardware, herramientas, etc., etc.)

La versión original en línea del manual se almacena en el servidor Universe-HTT.
La versión abierta se publica en github . Tenga en cuenta que la base de datos fragmentada se almacena en las fuentes. El archivo completo está en la versión .

¿Por qué es necesario?


Aquellos que buscaron (en su mayoría sin éxito) en Internet o en cualquier otro lugar una guía de código de barras y ya saben por qué es necesaria. Por lo demás, enumeraré las propiedades útiles de una matriz de datos tan extensa:

  • En primer lugar, esta es una lista de productos con identificadores "sólidos". Es decir, toma un producto arbitrario, por ejemplo, acostado en su mesita de noche, y con el código de barras impreso en el paquete, puede compararlo con un producto similar ubicado en algún lugar de un almacén en Río de Janeiro.
  • La consecuencia del párrafo anterior será la oportunidad de facilitar el flujo de documentos electrónicos entre empresas, porque el problema de sincronización de la mayoría (pero no todos, por supuesto) de los bienes desaparece.
  • Puede abrir rápidamente una nueva tienda sin introducir los productos en el sistema de contabilidad, sino obtenerlos de dicho directorio buscando un código de barras (un ejemplo muy idealizado, bueno).

Las opciones anteriores y sus posibles variaciones son bastante comunes. Hay usos mucho más interesantes para esta guía:

  • Análisis del Diccionario de Marcas
  • Formación de redes neuronales para la clasificación de bienes y la normalización de sus nombres.
  • Desarrollo de sistemas "inteligentes" para comparar ofertas de precios de diferentes fuentes
  • Análisis comparativo de ventas y otras operaciones en empresas no relacionadas.
  • ... La lista sigue con tu imaginación

Formato de presentación


La base de datos está representada por un archivo de texto en codificación UTF-8 con campos separados por un carácter de tabulación.

La estructura del registro es la siguiente:

  • ID: Identificador interno del producto
  • UPCEAN: código de barras
  • Nombre: Nombre del producto
  • Id. De categoría: identificador de categoría interno
  • CategoryName: el nombre de la categoría. Como el directorio de categorías es jerárquico, este nombre es compuesto, desde el nivel más alto hasta el nivel terminal al que pertenece el producto. Separadores de nivel: barra inclinada ('/')
  • BrandID: Identificador de marca interno
  • BrandName: nombre de marca

Los identificadores internos no son interesantes para nadie: los cargamos solo para nuestros propios fines (si de repente necesita identificar con precisión el enlace al registro si tiene alguna pregunta desde el exterior).

Los registros en un formato distribuido libremente se ordenan por nombre de producto en orden alfabético.

Caracteristicas


Si estudia cuidadosamente los datos presentados, notará que, a diferencia de la mayoría de los directorios similares disponibles en Internet (tanto de pago como gratuitos), se realizó un trabajo intensivo sobre los nombres de los productos.

Algunas palabras sobre cómo hacemos esto.

En primer lugar, el directorio (administrado en el sistema OpenPapyrus ) se procesa automáticamente utilizando la tecnología que una vez describí en el Habré .

Me gustaría decir que la tecnología mencionada hace todo por nosotros. Pero por desgracia. Se debe realizar una gran cantidad de trabajo en los modos semiautomático y manual.

Muchos elementos tienen que ser "descifrados": en la fuente original pueden contener abreviaturas inconcebibles y descuidar completamente nuestro sistema de denominación de productos :)

Se garantiza que todos los códigos de barras publicados en el dominio público serán probados para verificar que cumplen con uno de los 4 estándares: EAN-13, EAN-8, UPC-A, UPC-E e incluyen un dígito de verificación. Los posibles defectos y problemas se describirán a continuación.

Integridad y relevancia


A la pregunta típica "¿están todos los códigos de barras en el directorio?" La respuesta es estereotípica: no y no puede ser.

Si evalúa la integridad del directorio por la probabilidad de la ausencia de un código de barras que accidentalmente llamó su atención, entonces será del 10 al 15 por ciento (mi propia estimación muy aproximada, además, ellos mismos entienden, sesgada). En cualquier caso, ya no hay nada similar en tamaño en el dominio público.

La cobertura geográfica (por países en los que se venden los productos) es significativa: Rusia, Ucrania, Bielorrusia, Estados Unidos, Gran Bretaña, la Unión Europea, Sudáfrica, Brasil, Malasia y muchos otros.

Los idiomas de presentación son principalmente ruso e inglés. Por lo general, ignoramos las fuentes con otros idiomas, ya que nada es significativo en esos idiomas (como excepción, hay posiciones en español, checo y otros idiomas).

Actualizamos el directorio en el servidor Universe-HTT con una frecuencia de varios meses (cuando acumulamos una cantidad suficiente de datos en el búfer preliminar). La última vez que subieron datos en junio de este año. Es probable que la mayoría de los nuevos puestos estén ausentes. Sin embargo, si bien esto puede parecer sorprendente, los nuevos códigos de barras no aparecen con tanta frecuencia. Muchos productos con los mismos códigos se venden al por menor durante años.

También planeamos actualizar la versión abierta del directorio de vez en cuando.

Fuentes


¿De qué fuentes tomamos todos estos datos? Principalmente de internet. Recopilamos varias listas de precios, informes abiertos, incluso de agencias gubernamentales (por ejemplo, algunos estados en los Estados Unidos publican datos de adquisiciones).

Malezas


El directorio contiene varios defectos. No hay muchos de ellos, pero es necesario informarlos.

Códigos defectuosos


En primer lugar, aparecen códigos de barras que se interpretan erróneamente como UPC-A, mientras que en realidad es EAN-13 sin un dígito de verificación. La razón es que la fuente original (no sabemos cuál) contenía el código EAN-13 sin un dígito de verificación, pero el último dígito cumplió con la regla de cálculo de dígitos de verificación para UPC-A, y nuestro algoritmo modesto contó este código en relación con UPC-A. Esto se pudo corregir, pero se notó demasiado tarde y las manos no alcanzaron el ajuste de masa.
Los problemas de este tipo son muy pequeños, pero, como dicen, desgraciadamente.

Desajuste bruto


Además, hay confusión en los bienes. Es decir, en algunos (casos extremadamente raros) un código de barras corresponde a un nombre que no está relacionado en absoluto con él.

Códigos privados


Algunos códigos de barras pueden ser privados. Esos EAN-13 que comienzan en 2 los descartamos al principio, pero a veces algo sale mal y aparecen códigos privados, ya sea comenzando en '2', o aquellos que comienzan con algún otro dígito, sin embargo privado, no registrado en ninguna de las organizaciones involucradas en esto (GS1, por ejemplo).

Clasificación


Como no intentamos establecer una buena clasificación del directorio, no fue posible mucho. Un tercio de las posiciones pertenecen al grupo predeterminado, es decir, no está clasificado en absoluto. El resto bien puede clasificarse erróneamente.

No todos los productos están asociados con marcas, aunque trabajamos muy duro en este tema.

Como ayudar


Si desea ayudar a expandir el directorio, le agradeceremos los datos enviados sobre los códigos de barras que conoce. Dudo mucho que haya alguien que quiera, pero por si acaso, le informo que de acuerdo con la información en el perfil no es difícil encontrarme.

Cualquiera que tenga la capacidad de implementar una clasificación automática de elementos del directorio y compartir ideas y mejores prácticas recibirá el título de una persona increíblemente amable. Por nuestra parte, nos comprometemos a informar al público sobre el éxito de nuestra propia investigación en esta área.

Interés propio


Si le gustó la guía, márquela en github con un asterisco. Si realmente le gustó, marque también el proyecto OpenPapyrus con un asterisco , porque toda la administración y gestión del directorio se lleva a cabo con su ayuda.

Términos de uso


No hay ninguno Como lo desees, úsalo. Si nos proporciona un enlace, gracias, no, sobreviviremos.

Lamento amargo


No queriendo pasar por alto la necesidad como virtud, hágame saber que esperamos monetizar de alguna manera el libro de referencia en discusión. Sin embargo, no hemos podido lograr éxitos notables en este campo en los últimos años. Por lo tanto, decidieron: es mejor ser general que joder. Algo así se parece a nuestros motivos para la acción indicada.

Gracias por su atencion

Source: https://habr.com/ru/post/es420585/


All Articles