Guten Tag. Im öffentlichen Bereich ist endlich ein riesiges Verzeichnis von Barcodes mit Produktnamen, Kategorien und Marken erschienen.
Wir arbeiten seit ungefähr 8 Jahren daran und jetzt gibt es ungefähr 3 Millionen Barcodes in den Standards EAN (EAN-13, EAN-8) und UPC (UPC-A, UPC-E).
Was ist dort?
Es gibt eine Tabelle mit Barcode-Einträgen und den entsprechenden Produktnamen, in allen Einträgen gibt es eine Kategorie und in vielen eine Marke.
Die Produktpalette ist sehr breit. Es gibt dort keine schwere Ausrüstung, aber wahrscheinlich sind alle Verbrauchersegmente vorhanden (Pharmazeutika, Parfums, Kosmetika, Lebensmittel, Spielzeug, Sexshop-Sortiment, Bücher, Schreibwaren, Hardware, Werkzeuge usw. usw.).
Die ursprüngliche Online-Version des Handbuchs wird auf dem Universe-HTT-Server gespeichert.
Die offene Version wird auf
github veröffentlicht . Bitte beachten Sie, dass die fragmentierte Datenbank in den Quellen gespeichert ist. Die vollständige Datei befindet sich
in der Version .
Warum wird es benötigt?
Diejenigen, die (meistens erfolglos) im Internet oder anderswo nach einem Barcode-Leitfaden gesucht haben und bereits wissen, warum er benötigt wird. Im Übrigen werde ich die nützlichen Eigenschaften eines so umfangreichen Datenarrays auflisten:
- Dies ist zunächst eine Liste von Produkten mit "festen" Kennungen. Das heißt, Sie nehmen ein beliebiges Produkt, das beispielsweise auf Ihrem Nachttisch liegt, und können es anhand des auf der Verpackung aufgedruckten Barcodes mit einem ähnlichen Produkt vergleichen, das sich irgendwo in einem Lagerhaus in Rio de Janeiro befindet.
- Die Konsequenz des vorhergehenden Absatzes wird die Möglichkeit sein, den elektronischen Dokumentenfluss zwischen Unternehmen zu erleichtern, da das Problem der Synchronisation der meisten (aber natürlich nicht aller) Waren verschwindet.
- Sie können schnell ein neues Geschäft eröffnen, ohne die Waren in das Buchhaltungssystem zu leiten, aber Sie können sie aus einem solchen Verzeichnis abrufen, indem Sie nach einem Barcode suchen (ein sehr idealisiertes Beispiel, na ja).
Die oben genannten Optionen und ihre möglichen Variationen sind weit verbreitet. Es gibt viel interessantere Anwendungen für diesen Leitfaden:
- Markenwörterbuchanalyse
- Training neuronaler Netze zur Klassifizierung von Waren und zur Normalisierung ihrer Namen
- Entwicklung „intelligenter“ Systeme zum Vergleich von Preisangeboten aus verschiedenen Quellen
- Vergleichende Analyse von Verkäufen und anderen Vorgängen in unabhängigen Unternehmen
- ... Die Liste geht mit Ihrer Fantasie weiter
Präsentationsformat
Die Datenbank wird durch eine Textdatei in UTF-8-Codierung mit Feldern dargestellt, die durch ein Tabulatorzeichen getrennt sind.
Die Struktur des Datensatzes ist wie folgt:
- ID: Interne Produktkennung
- UPCEAN: Barcode
- Name: Produktname
- CategoryID: Interne Kategorie-ID
- CategoryName: Der Name der Kategorie. Da das Verzeichnis der Kategorien hierarchisch ist, ist dieser Name zusammengesetzt - von der höchsten Ebene bis zur Terminalebene, zu der das Produkt gehört. Ebenentrennzeichen - Schrägstrich ('/')
- BrandID: Interne Markenkennung
- Markenname: Markenname
Interne Kennungen sind für niemanden interessant - wir laden sie nur für unsere eigenen Zwecke hoch (wenn Sie den Link zum Datensatz plötzlich genau identifizieren müssen, wenn Sie Fragen von außen haben).
Datensätze in einem frei verteilten Format werden nach Produktnamen in alphabetischer Reihenfolge sortiert.
Eigenschaften
Wenn Sie die präsentierten Daten sorgfältig studieren, werden Sie feststellen, dass im Gegensatz zu den meisten ähnlichen Verzeichnissen, die im Internet verfügbar sind (sowohl kostenpflichtig als auch kostenlos), intensive Arbeiten an den Namen der Waren durchgeführt wurden.
Ein paar Worte darüber, wie wir das machen.
Zunächst wird das Verzeichnis (das im
OpenPapyrus- System verwaltet wird) automatisch mit der Technologie verarbeitet,
die ich einmal auf dem Habré beschrieben habe .
Ich möchte sagen, dass die erwähnte Technologie alles für uns tut. Aber leider. Im halbautomatischen und manuellen Modus muss viel Arbeit geleistet werden.
Viele Artikel müssen „entschlüsselt“ werden - in der Originalquelle können sie unvorstellbare Abkürzungen enthalten und unser System zur Benennung von Waren völlig vernachlässigen :)
Alle öffentlich zugänglichen Barcodes werden garantiert auf Übereinstimmung mit einem der vier Standards getestet: EAN-13, EAN-8, UPC-A, UPC-E und enthalten eine Prüfziffer. Mögliche Mängel und Probleme werden nachfolgend beschrieben.
Vollständigkeit und Relevanz
Auf die typische Frage "Sind alle Barcodes im Verzeichnis?" Die Antwort ist stereotyp: Nein und kann es nicht sein.
Wenn Sie die Vollständigkeit des Verzeichnisses anhand der Wahrscheinlichkeit bewerten, dass dort ein Barcode fehlt, der Ihnen versehentlich aufgefallen ist, dann sind dies 10 bis 15 Prozent (meine eigene sehr grobe Schätzung, außerdem verstehen sie selbst, voreingenommen). In jedem Fall ist nichts Ähnliches im öffentlichen Bereich nicht mehr vorhanden
Die geografische Abdeckung (nach Ländern, in denen die Waren verkauft werden) ist erheblich: Russland, Ukraine, Weißrussland, USA, Großbritannien, Europäische Union, Südafrika, Brasilien, Malaysia und viele andere.
Die Präsentationssprachen sind hauptsächlich Russisch und Englisch. Wir ignorieren normalerweise Quellen mit anderen Sprachen, da in diesen Sprachen nichts von Bedeutung ist (ausnahmsweise gibt es Positionen in Spanisch, Tschechisch und anderen Sprachen).
Wir aktualisieren das Verzeichnis auf dem Universe-HTT-Server mit einer Häufigkeit von mehreren Monaten (wenn wir eine ausreichende Datenmenge im vorläufigen Puffer sammeln). Das letzte Mal, dass sie im Juni dieses Jahres Daten hochgeladen haben. Die meisten neuen Stellen fehlen höchstwahrscheinlich. Obwohl dies überraschend erscheinen mag, erscheinen neue Barcodes nicht so oft. Viele Produkte mit den gleichen Codes werden seit Jahren im Einzelhandel verkauft.
Wir planen auch, die offene Version des Verzeichnisses von Zeit zu Zeit zu aktualisieren.
Quellen
Aus welchen Quellen beziehen wir all diese Daten? Meistens aus dem Internet. Wir sammeln verschiedene Preislisten, offene Berichte, auch von Regierungsbehörden (zum Beispiel veröffentlichen einige US-Bundesstaaten Beschaffungsdaten).
Unkraut
Das Verzeichnis enthält eine Reihe von Fehlern. Es gibt nicht viele von ihnen, aber es ist notwendig, sie zu melden.
Fehlerhafte Codes
Zunächst werden Barcodes gefunden, die fälschlicherweise als UPC-A interpretiert werden, während es sich in Wirklichkeit um EAN-13 ohne Prüfziffer handelt. Der Grund dafür ist, dass die ursprüngliche Quelle (wir wissen noch nicht, welche) den EAN-13-Code ohne Prüfziffer enthielt, die letzte Ziffer jedoch die Regel zur Berechnung der Prüfziffer für UPC-A erfüllte und unser bescheidener Algorithmus diesen Code als mit UPC-A verwandt zählte. Dies konnte korrigiert werden, wurde aber zu spät bemerkt und die Hände erreichten nicht die Masseneinstellung.
Probleme dieser Art sind verschwindend klein, aber leider.
Grobe Nichtübereinstimmung
Darüber hinaus gibt es Verwirrung in der Ware. Das heißt, in einigen (äußerst seltenen Fällen) entspricht ein Barcode einem Namen, der überhaupt nicht damit zusammenhängt.
Private Codes
Einige Barcodes sind möglicherweise privat. Diese EAN-13, die bei 2 beginnen, werden zu Beginn verworfen, aber manchmal geht etwas schief und private Codes werden angezeigt, entweder ab '2' oder solche, die mit einer anderen Ziffer beginnen privat, nicht in einer der beteiligten Organisationen registriert (z. B. GS1).
Klassifizierung
Da wir nicht versucht haben, eine gute Klassifizierung des Verzeichnisses zu erstellen, war nicht viel möglich. Ein Drittel der Positionen gehört zur Standardgruppe - das heißt, sie ist absolut nicht klassifiziert. Der Rest kann durchaus fälschlicherweise kategorisiert werden.
Nicht alle Produkte sind mit Marken verbunden, obwohl wir sehr hart an diesem Thema gearbeitet haben.
Wie kann ich helfen?
Wenn Sie beim Erweitern des Verzeichnisses helfen möchten, sind wir Ihnen für die Daten dankbar, die über die Ihnen bekannten Barcodes gesendet wurden. Ich bezweifle stark, dass es jemanden gibt, der möchte, aber für alle Fälle informiere ich Sie, dass es nach den Informationen im Profil nicht schwierig ist, mich zu finden.
Jeder, der die Möglichkeit hat, eine automatische Klassifizierung von Verzeichniselementen zu implementieren und Ideen und Best Practices auszutauschen, erhält den Titel einer unglaublich freundlichen Person. Unsererseits verpflichten wir uns, die Öffentlichkeit über den Erfolg unserer eigenen Forschung auf diesem Gebiet zu informieren.
Eigennutz
Wenn Ihnen die Anleitung gefallen hat, markieren Sie sie auf dem
Github mit einem Sternchen. Wenn es Ihnen wirklich gefallen hat, markieren Sie das
OpenPapyrus- Projekt auch mit einem
Sternchen , da die gesamte Verwaltung und Verwaltung des Verzeichnisses mit seiner Hilfe erfolgt.
Nutzungsbedingungen
Es gibt keine. Verwenden Sie es, wie Sie möchten. Wenn Sie uns einen Link geben - danke, nein - werden wir überleben.
Bitteres Bedauern
Lassen Sie mich wissen, dass wir gehofft haben, das zur Diskussion stehende Nachschlagewerk irgendwie zu monetarisieren, da wir das Bedürfnis nicht als Tugend ausgeben wollen. In diesem Bereich konnten wir in den letzten Jahren jedoch keine spürbaren Erfolge erzielen. Deshalb haben sie beschlossen: Es ist besser, allgemein zu sein als zum Teufel. So etwas sieht aus wie unsere Motive für die angegebene Aktion.
Vielen Dank für Ihre Aufmerksamkeit.