Selamat siang Dalam domain publik, direktori besar barcode dengan nama produk, kategori dan merek akhirnya muncul.
Kami telah mengerjakannya selama sekitar 8 tahun dan sekarang memiliki sekitar 3 juta barcode dalam standar EAN (EAN-13, EAN-8) dan UPC (UPC-A, UPC-E).
Ada apa disana
Ada tabel yang berisi entri barcode dan nama produk yang sesuai, di semua entri ada kategori dan banyak - merek.
Rangkaian produk yang disajikan sangat luas. Tidak ada alat berat di sana, tetapi mungkin semua segmen konsumen ada (farmasi, parfum, kosmetik, bahan makanan, mainan, bermacam-macam toko seks, buku, alat tulis, perangkat keras, alat, dll.)
Versi online asli dari manual disimpan di server Universe-HTT.
Versi terbuka diposting di
github . Harap dicatat bahwa basis data yang terpecah disimpan dalam sumber. File lengkapnya ada
di rilis .
Mengapa itu dibutuhkan?
Mereka yang mencari (kebanyakan tidak berhasil) di Internet atau di mana pun untuk panduan barcode dan sudah tahu mengapa itu diperlukan. Untuk selebihnya, saya akan mencantumkan properti berguna dari array data yang luas:
- Pertama-tama, ini adalah daftar produk dengan pengidentifikasi "solid". Artinya, Anda mengambil produk yang sewenang-wenang, misalnya, berbaring di meja samping tempat tidur Anda, dan dengan barcode yang tercetak di kemasan, Anda dapat membandingkannya dengan produk serupa yang terletak di suatu tempat di sebuah gudang di Rio de Janeiro.
- Konsekuensi dari paragraf sebelumnya akan menjadi peluang untuk memfasilitasi aliran dokumen elektronik antara perusahaan, karena masalah sinkronisasi sebagian besar (tetapi tidak semua, tentu saja) barang hilang.
- Anda dapat dengan cepat membuka toko baru tanpa memasukkan barang ke dalam sistem akuntansi, tetapi mendapatkannya dari direktori seperti itu dengan mencari barcode (contoh yang sangat ideal, oh well).
Pilihan di atas dan kemungkinan variasinya sangat lumrah. Ada banyak kegunaan yang lebih menarik untuk panduan ini:
- Analisis Kamus Merek Dagang
- Pelatihan jaringan saraf untuk klasifikasi barang dan normalisasi nama mereka
- Pengembangan sistem "pintar" untuk membandingkan penawaran harga dari berbagai sumber
- Analisis komparatif penjualan dan operasi lainnya di perusahaan yang tidak terkait
- ... Daftar berlanjut dengan imajinasi Anda
Format presentasi
Basis data diwakili oleh file teks dalam pengkodean UTF-8 dengan bidang yang dipisahkan oleh karakter tab.
Struktur catatan adalah sebagai berikut:
- ID: Pengidentifikasi Produk Internal
- UPCEAN: Barcode
- Nama: Nama Produk
- CategoryID: Pengidentifikasi kategori internal
- CategoryName: Nama kategori. Karena direktori kategori bersifat hierarkis, nama ini majemuk - dari level tertinggi ke level terminal tempat produk tersebut berada. Pemisah Level - Slash ('/')
- BrandID: Pengidentifikasi Merek Internal
- BrandName: Nama Merek
Pengidentifikasi internal hampir tidak menarik bagi siapa pun - kami mengunggahnya hanya untuk keperluan kami sendiri (jika Anda tiba-tiba perlu mengidentifikasi tautan ke catatan secara akurat jika Anda memiliki pertanyaan dari luar).
Catatan dalam format yang didistribusikan secara bebas diurutkan berdasarkan nama produk dalam urutan abjad.
Fitur
Jika Anda dengan cermat mempelajari data yang disajikan, Anda akan melihat bahwa, tidak seperti mayoritas direktori serupa yang tersedia di Internet (baik berbayar maupun gratis), pekerjaan intensif dilakukan berdasarkan nama barang.
Beberapa kata tentang bagaimana kita melakukan ini.
Pertama-tama, direktori (dikelola dalam sistem
OpenPapyrus ) secara otomatis diproses menggunakan teknologi
yang pernah saya jelaskan di Habré .
Saya ingin mengatakan bahwa teknologi yang disebutkan itu melakukan segalanya untuk kita. Tapi sayang sekali. Sejumlah besar pekerjaan harus dilakukan dalam mode semi-otomatis dan manual.
Banyak item yang harus “didekripsi” - dalam sumber aslinya mungkin mengandung singkatan yang tak terbayangkan dan sepenuhnya mengabaikan sistem penamaan barang kami :)
Semua barcode yang diterbitkan dalam domain publik dijamin akan diuji kepatuhannya dengan salah satu dari 4 standar: EAN-13, EAN-8, UPC-A, UPC-E dan termasuk digit periksa. Kemungkinan cacat dan masalah akan dijelaskan di bawah ini.
Kelengkapan dan relevansi
Untuk pertanyaan umum "apakah semua barcode dalam direktori?" jawabannya stereotip: tidak dan tidak mungkin.
Jika Anda mengevaluasi kelengkapan direktori dengan kemungkinan tidak adanya barcode di sana yang secara tidak sengaja menarik perhatian Anda, maka ini akan menjadi 10-15 persen (perkiraan saya sendiri yang sangat kasar, selain itu, mereka sendiri mengerti, bias). Bagaimanapun, tidak ada yang serupa dalam ukuran di domain publik tidak lebih
Cakupan geografis (oleh negara-negara di mana barang-barang tersebut dijual) sangat penting: Rusia, Ukraina, Belarus, Amerika Serikat, Inggris, Uni Eropa, Afrika Selatan, Brasil, Malaysia, dan banyak lainnya.
Bahasa presentasi terutama Rusia dan Inggris. Kami biasanya mengabaikan sumber dengan bahasa lain, karena tidak ada yang berarti dalam bahasa tersebut (sebagai pengecualian, ada posisi dalam bahasa Spanyol, Ceko, dan bahasa lainnya).
Kami memperbarui direktori pada server Universe-HTT dengan frekuensi beberapa bulan (ketika kami mengakumulasi jumlah data yang cukup dalam buffer awal). Terakhir kali mereka mengunggah data pada bulan Juni tahun ini. Sebagian besar posisi baru ada kemungkinan besar tidak ada. Namun, walaupun ini mungkin tampak mengejutkan, barcode baru tidak terlalu sering muncul. Banyak produk dengan kode yang sama dijual secara eceran selama bertahun-tahun.
Kami juga berencana untuk memperbarui versi direktori yang terbuka dari waktu ke waktu.
Sumber
Dari sumber apa kita mengambil semua data ini? Sebagian besar dari internet. Kami mengumpulkan berbagai daftar harga, membuka laporan, termasuk dari lembaga pemerintah (misalnya, beberapa negara bagian di AS menerbitkan data pengadaan).
Gulma
Direktori berisi sejumlah cacat. Tidak banyak dari mereka, tetapi perlu melaporkannya.
Kode yang rusak
Pertama-tama, barcode menemukan yang secara keliru ditafsirkan sebagai UPC-A sementara pada kenyataannya itu adalah EAN-13 tanpa digit periksa. Alasannya adalah bahwa sumber asli (kami belum tahu yang mana) berisi kode EAN-13 tanpa digit periksa, tetapi digit terakhir memenuhi aturan perhitungan digit periksa untuk UPC-A, dan algoritma sederhana kami menghitung kode ini terkait dengan UPC-A. Ini bisa diperbaiki, tetapi perhatikan terlambat dan tangan tidak mencapai penyesuaian massa.
Masalah seperti ini semakin kecil, tetapi, seperti kata mereka, sayang sekali.
Ketidakcocokan bruto
Lebih lanjut, ada kebingungan dalam barang. Artinya, dalam beberapa (kasus yang sangat jarang) barcode sesuai dengan nama yang sama sekali tidak terkait dengannya.
Kode pribadi
Beberapa barcode mungkin bersifat pribadi. EAN-13 yang dimulai pada 2 kita abaikan di awal, tetapi terkadang ada yang salah dan kode privat muncul, baik mulai dari '2', atau yang dimulai dengan angka lain, tetap saja pribadi, tidak terdaftar di organisasi mana pun yang terlibat dalam hal ini (GS1, misalnya).
Klasifikasi
Karena kami tidak mencoba membuat klasifikasi direktori yang bagus - tidak banyak yang bisa dilakukan. Sepertiga dari posisi tersebut adalah milik grup default - yaitu, sama sekali tidak diklasifikasikan. Sisanya mungkin dikategorikan salah.
Tidak semua produk dikaitkan dengan merek, meskipun kami bekerja sangat keras untuk masalah ini.
Bagaimana cara membantu?
Jika Anda memiliki keinginan untuk membantu memperluas direktori, maka kami akan berterima kasih atas data yang dikirim tentang barcode yang diketahui oleh Anda. Saya sangat meragukan bahwa ada orang yang ingin, tetapi untuk berjaga-jaga, saya memberitahu Anda bahwa menurut informasi di profil itu tidak sulit untuk menemukan saya.
Siapa pun yang memiliki kemampuan untuk menerapkan klasifikasi otomatis dari item direktori dan berbagi ide dan praktik terbaik akan menerima gelar sebagai orang yang sangat baik. Untuk bagian kami, kami berjanji untuk menginformasikan kepada publik tentang keberhasilan penelitian kami sendiri di bidang ini.
Minat diri sendiri
Jika Anda menyukai panduan ini, tandai di
github dengan tanda bintang. Jika Anda benar-benar menyukainya, tandai juga proyek
OpenPapyrus dengan
tanda bintang , karena semua administrasi dan manajemen direktori dilakukan dengan bantuannya.
Ketentuan penggunaan
Tidak ada Terserah Anda, gunakan itu. Jika Anda memberikan tautan kepada kami - terima kasih, tidak - kami akan selamat.
Penyesalan yang pahit
Karena tidak ingin mengabaikan kebutuhan sebagai kebajikan, beri tahu saya bahwa kami berharap dapat menghasilkan uang dari buku referensi yang sedang dibahas. Namun, kami belum dapat mencapai keberhasilan yang nyata dalam bidang ini selama beberapa tahun terakhir. Karena itu, mereka memutuskan: lebih baik bersikap umum daripada apa adanya. Sesuatu seperti ini terlihat seperti motif kami untuk tindakan yang ditunjukkan.
Terima kasih atas perhatian anda