Base de données de codes à barres téléchargement gratuit sans inscription (et autres kakis)

Bon après-midi Dans le domaine public, un immense répertoire de codes-barres avec les noms de produits, les catégories et les marques est enfin apparu.

Nous y travaillons depuis environ 8 ans et il a maintenant environ 3 millions de codes-barres aux normes EAN (EAN-13, EAN-8) et UPC (UPC-A, UPC-E).

Qu'y a-t-il?


Il y a un tableau contenant les entrées de codes-barres et les noms de produits correspondants, dans toutes les entrées il y a une catégorie et dans plusieurs - une marque.

La gamme de produits présentés est très large. Il n'y a pas d'équipement lourd là-bas, mais probablement tous les segments de consommateurs sont présents (produits pharmaceutiques, parfums, cosmétiques, produits alimentaires, jouets, assortiment de sex-shop, livres, papeterie, quincaillerie, outils, etc., etc.)

La version originale en ligne du manuel est stockée sur le serveur Universe-HTT.
La version ouverte est publiée sur github . Veuillez noter que la base de données fragmentée est stockée dans les sources. Le fichier complet est dans la version .

Pourquoi est-il nécessaire?


Ceux qui ont cherché (principalement en vain) sur Internet ou ailleurs pour un guide de codes à barres et savent déjà pourquoi il est nécessaire. Pour le reste, je vais énumérer les propriétés utiles d'un tableau de données aussi étendu:

  • Tout d'abord, il s'agit d'une liste de produits avec des identifiants "solides". Autrement dit, vous prenez un produit arbitraire, par exemple, allongé sur votre table de chevet, et par le code à barres imprimé sur l'emballage, vous pouvez le comparer avec un produit similaire situé quelque part dans un entrepôt à Rio de Janeiro.
  • La conséquence du paragraphe précédent sera l'occasion de faciliter la circulation électronique des documents entre les entreprises, car le problème de synchronisation de la plupart (mais pas de la totalité, bien sûr) des marchandises disparaît.
  • Vous pouvez rapidement ouvrir un nouveau magasin sans introduire les marchandises dans le système de comptabilité, mais en les récupérant à partir d'un tel répertoire en recherchant un code-barres (un exemple très idéalisé, eh bien).

Les options ci-dessus et leurs variations possibles sont assez courantes. Il existe des utilisations beaucoup plus intéressantes de ce guide:

  • Analyse du dictionnaire des marques
  • Formation des réseaux de neurones pour le classement des biens et la normalisation de leurs noms
  • Développement de systèmes «intelligents» pour comparer les offres de prix de différentes sources
  • Analyse comparative des ventes et autres opérations dans des entreprises indépendantes
  • ... La liste continue avec votre imagination

Format de présentation


La base de données est représentée par un fichier texte en encodage UTF-8 avec des champs séparés par un caractère de tabulation.

La structure de l'enregistrement est la suivante:

  • ID: identifiant de produit interne
  • UPCEAN: Barcode
  • Nom: Nom du produit
  • CategoryID: identifiant de catégorie interne
  • CategoryName: nom de la catégorie. Le répertoire des catégories étant hiérarchique, ce nom est composé - du niveau le plus élevé au niveau terminal auquel appartient le produit. Séparateurs de niveau - barre oblique ('/')
  • BrandID: identifiant de marque interne
  • BrandName: Brand Name

Les identifiants internes ne sont guère intéressants pour personne - nous les téléchargeons uniquement à nos propres fins (si vous devez soudainement identifier avec précision le lien vers l'enregistrement si vous avez des questions de l'extérieur).

Les enregistrements dans un format librement distribué sont triés par nom de produit dans l'ordre alphabétique.

CARACTÉRISTIQUES


Si vous étudiez attentivement les données présentées, vous remarquerez que, contrairement à la majorité des répertoires similaires disponibles sur Internet (à la fois payants et gratuits), un travail intensif a été effectué sur les noms des produits.

Quelques mots sur la façon dont nous procédons.

Tout d'abord, le répertoire (administré dans le système OpenPapyrus ) est automatiquement traité à l'aide de la technologie que j'ai déjà décrite sur le Habré .

Je voudrais dire que la technologie mentionnée fait tout pour nous. Mais hélas. Une grande quantité de travail doit être effectuée en modes semi-automatique et manuel.

De nombreux éléments doivent être «déchiffrés» - dans la source d'origine, ils peuvent contenir des abréviations inconcevables et négliger complètement notre système de dénomination des marchandises :)

Tous les codes à barres publiés dans le domaine public sont garantis pour être testés pour la conformité à l'une des 4 normes: EAN-13, EAN-8, UPC-A, UPC-E et comprennent un chiffre de contrôle. Les éventuels défauts et problèmes seront décrits ci-dessous.

Complétude et pertinence


À la question typique "tous les codes-barres sont-ils dans le répertoire?" la réponse est stéréotypée: non et elle ne peut pas l'être.

Si vous évaluez l'intégralité du répertoire par la probabilité de l'absence d'un code-barres qui a accidentellement attiré votre attention, alors ce sera 10-15% (ma propre estimation très approximative, d'ailleurs, ils comprennent eux-mêmes, biaisée). En tout cas, rien de similaire en taille dans le domaine public n'est plus

La couverture géographique (par pays dans lesquels les marchandises sont vendues) est importante: Russie, Ukraine, Biélorussie, États-Unis, Grande-Bretagne, Union européenne, Afrique du Sud, Brésil, Malaisie et bien d'autres.

Les langues de présentation sont principalement le russe et l'anglais. Nous ignorons généralement les sources avec d'autres langues, car rien n'a de sens dans ces langues (à titre d'exception, il existe des positions en espagnol, en tchèque et dans d'autres langues).

Nous mettons à jour le répertoire sur le serveur Universe-HTT avec une fréquence de plusieurs mois (lorsque nous accumulons une quantité suffisante de données dans le tampon préliminaire). La dernière fois qu'ils ont téléchargé des données en juin de cette année. La plupart des nouveaux postes sont probablement absents. Cependant, bien que cela puisse paraître surprenant, les nouveaux codes-barres n'apparaissent pas si souvent. De nombreux produits avec les mêmes codes sont vendus au détail depuis des années.

Nous prévoyons également de mettre à jour la version ouverte du répertoire de temps en temps.

Les sources


De quelles sources prenons-nous toutes ces données? Surtout sur Internet. Nous collectons diverses listes de prix, des rapports ouverts, y compris auprès d'agences gouvernementales (par exemple, certains États américains publient des données sur les achats).

Les mauvaises herbes


Le répertoire contient un certain nombre de défauts. Il n'y en a pas beaucoup, mais il faut les signaler.

Codes défectueux


Tout d'abord, des codes à barres apparaissent qui sont interprétés à tort comme UPC-A alors qu'en réalité c'est EAN-13 sans chiffre de contrôle. La raison en est que la source d'origine (nous ne savons pas encore laquelle) contenait le code EAN-13 sans chiffre de contrôle, mais le dernier chiffre respectait la règle de calcul des chiffres de contrôle pour UPC-A et notre modeste algorithme a compté ce code comme lié à UPC-A. Cela pourrait être corrigé, mais remarqué trop tard et les aiguilles n'ont pas atteint le réglage de masse.
Les problèmes de ce genre sont extrêmement petits, mais, comme on dit, hélas.

Inadéquation brute


De plus, il y a confusion dans les marchandises. Autrement dit, dans certains cas (extrêmement rares), un code-barres correspond à un nom qui ne lui est pas du tout lié.

Codes privés


Certains codes-barres peuvent être privés. Ces EAN-13 qui commencent à 2, nous les éliminons au début, mais parfois quelque chose ne va pas et des codes privés apparaissent, soit à partir de '2', soit ceux commençant par un autre chiffre, néanmoins privé, non enregistré dans aucune des organisations impliquées dans ce domaine (GS1, par exemple).

Classification


Comme nous n'avons pas essayé d'établir une bonne classification du répertoire - peu de choses étaient possibles. Un tiers des postes appartiennent au groupe par défaut, c'est-à-dire qu'il n'est absolument pas classé. Le reste pourrait bien être classé par erreur.

Tous les produits ne sont pas associés à des marques, bien que nous ayons travaillé très dur sur cette question.

Comment aider?


Si vous souhaitez aider à développer le répertoire, nous vous serons reconnaissants pour les données envoyées sur les codes à barres que vous connaissez. Je doute fortement qu'il y ait quelqu'un qui le veuille, mais juste au cas où, je vous informe que selon les informations du profil il n'est pas difficile de me trouver.

Quiconque a la capacité de mettre en œuvre une classification automatique des éléments de l'annuaire et de partager des idées et des meilleures pratiques recevra le titre d'une personne incroyablement gentille. Pour notre part, nous nous engageons à informer le public du succès de nos propres recherches dans ce domaine.

Intérêt personnel


Si vous avez aimé le guide, marquez-le sur github avec un astérisque. Si vous avez vraiment aimé, marquez également le projet OpenPapyrus avec un astérisque , car toute l'administration et la gestion du répertoire sont effectuées avec son aide.

Conditions d'utilisation


Il n'y en a pas. Comme vous le souhaitez, utilisez-le. Si vous nous donnez un lien - merci, non - nous survivrons.

Des regrets amers


Ne voulant pas faire passer le besoin pour vertu, faites-moi savoir que nous espérions en quelque sorte monétiser le livre de référence en discussion. Cependant, nous n'avons pas été en mesure de réaliser des succès notables dans ce domaine au cours des dernières années. Par conséquent, ils ont décidé: il vaut mieux être général que le bordel. Quelque chose comme ça ressemble à nos motivations pour l'action indiquée.

Merci de votre attention.

Source: https://habr.com/ru/post/fr420585/


All Articles