تحميل قاعدة بيانات الباركود مجانا بدون تسجيل (وغيرها من الكاكا)

مساء الخير في المجال العام ، ظهر أخيرًا دليل ضخم من الرموز الشريطية بأسماء المنتجات والفئات والعلامات التجارية.

لقد عملنا عليه منذ حوالي 8 سنوات والآن لديه حوالي 3 ملايين باركود في معايير EAN (EAN-13 ، EAN-8) و UPC (UPC-A ، UPC-E).

ماذا يوجد؟


يوجد جدول يحتوي على إدخالات الباركود وأسماء المنتجات المقابلة ، في جميع الإدخالات هناك فئة وفي كثير - علامة تجارية.

مجموعة المنتجات المعروضة واسعة للغاية. لا توجد معدات ثقيلة هناك ، ولكن من المحتمل أن جميع شرائح المستهلكين موجودة (الأدوية ، العطور ، مستحضرات التجميل ، المواد الغذائية ، الألعاب ، تشكيلة متجر الجنس ، الكتب ، القرطاسية ، الأجهزة ، الأدوات ، إلخ.)

يتم تخزين النسخة الأصلية من الدليل على خادم Universe-HTT.
تم نشر النسخة المفتوحة على جيثب . يرجى ملاحظة أنه يتم تخزين قاعدة البيانات المجزأة في المصادر. الملف الكامل في الإصدار .

لماذا هو مطلوب؟


أولئك الذين بحثوا (غير ناجح في الغالب) على الإنترنت أو في أي مكان آخر عن دليل الباركود ويعرفون بالفعل سبب الحاجة إليه. بالنسبة للبقية ، سأدرج الخصائص المفيدة لمجموعة مصفوفة بيانات واسعة النطاق:

  • بادئ ذي بدء ، هذه قائمة المنتجات ذات المعرفات "الصلبة". أي أنك تأخذ منتجًا تعسفيًا ، على سبيل المثال ، مستلقيًا على طاولة جانب السرير ، وبواسطة الباركود المطبوع على العبوة ، يمكنك مقارنته بمنتج مماثل موجود في مكان ما في مستودع في ريو دي جانيرو.
  • ستكون نتيجة الفقرة السابقة فرصة لتسهيل تدفق المستندات الإلكترونية بين الشركات ، لأن مشكلة مزامنة معظم السلع (ولكن ليس كلها بالطبع) تختفي.
  • يمكنك فتح متجر جديد بسرعة دون دفع البضائع إلى نظام المحاسبة ، ولكن الحصول عليها من هذا الدليل من خلال البحث عن الباركود (مثال مثالي للغاية ، حسنًا).

الخيارات المذكورة أعلاه واختلافاتها المحتملة شائعة جدًا. هناك استخدامات أكثر إثارة للاهتمام لهذا الدليل:

  • تحليل قاموس العلامات التجارية
  • تدريب الشبكات العصبية على تصنيف البضائع وتطبيع أسمائها
  • تطوير أنظمة "ذكية" لمقارنة عروض الأسعار من مصادر مختلفة
  • تحليل مقارن للمبيعات والعمليات الأخرى في الشركات غير ذات الصلة
  • ... القائمة تمضي في خيالك

تنسيق العرض التقديمي


يتم تمثيل قاعدة البيانات بملف نصي بترميز UTF-8 مع حقول مفصولة بحرف علامة تبويب.

هيكل السجل على النحو التالي:

  • ID: معرف المنتج الداخلي
  • UPCEAN: الباركود
  • الاسم: اسم المنتج
  • CategoryID: معرف الفئة الداخلية
  • CategoryName: اسم الفئة. نظرًا لأن دليل الفئات هرمي ، فإن هذا الاسم مركب - من أعلى مستوى إلى المستوى النهائي الذي ينتمي إليه المنتج. فواصل المستوى - الخط المائل ('/')
  • BrandID: معرف العلامة التجارية الداخلية
  • اسم العلامة التجارية: اسم العلامة التجارية

لا تكاد المعرفات الداخلية مثيرة للاهتمام لأي شخص - فنحن نحملها فقط لأغراضنا الخاصة (إذا كنت بحاجة فجأة إلى تحديد رابط التسجيل بدقة إذا كان لديك أي أسئلة من الخارج).

يتم فرز السجلات بتنسيق يتم توزيعه بحرية حسب اسم المنتج بالترتيب الأبجدي.

الميزات


إذا قمت بدراسة البيانات المقدمة بعناية ، ستلاحظ أنه ، على عكس غالبية الأدلة المماثلة المتاحة على الإنترنت (مدفوعة ومجانية على حد سواء) ، تم تنفيذ عمل مكثف على أسماء السلع.

بضع كلمات حول كيفية القيام بذلك.

بادئ ذي بدء ، تتم معالجة الدليل ( المُدار في نظام OpenPapyrus ) تلقائيًا باستخدام التكنولوجيا التي وصفتها ذات مرة في حبري .

أود أن أقول إن التكنولوجيا المذكورة تفعل كل شيء لنا. لكن للأسف. يجب القيام بقدر كبير من العمل في أوضاع شبه آلية ويدوية.

يجب "فك تشفير" العديد من العناصر - في المصدر الأصلي قد تحتوي على اختصارات لا يمكن تصورها وتتجاهل نظامنا لتسمية البضائع تمامًا :)

يتم ضمان اختبار جميع الرموز الشريطية المنشورة في المجال العام للتأكد من مطابقتها لأحد المعايير الأربعة: EAN-13 و EAN-8 و UPC-A و UPC-E وتتضمن رقم فحص. سيتم وصف العيوب والمشكلات المحتملة أدناه.

الكمال والأهمية


إلى السؤال النموذجي "هل جميع الباركود في الدليل؟" الجواب نمطي: لا ، ولا يمكن أن يكون كذلك.

إذا قمت بتقييم اكتمال الدليل من خلال احتمال عدم وجود رمز شريطي هناك لفت انتباهك عن طريق الخطأ ، فإن هذا سيكون 10-15 في المائة (تقديري التقريبي للغاية ، إلى جانب أنهم يفهمون أنفسهم ، متحيزين). على أي حال ، لم يعد هناك شيء مماثل في الحجم في المجال العام

تعتبر التغطية الجغرافية (حسب البلدان التي تباع فيها البضائع) مهمة: روسيا وأوكرانيا وبيلاروسيا والولايات المتحدة وبريطانيا العظمى والاتحاد الأوروبي وجنوب إفريقيا والبرازيل وماليزيا وغيرها الكثير.

لغات العرض هي بشكل رئيسي الروسية والإنجليزية. عادة ما نتجاهل المصادر بلغات أخرى ، حيث لا يوجد شيء ذو معنى في هذه اللغات (كإستثناء ، هناك مواقع في الإسبانية والتشيكية ولغات أخرى).

نقوم بتحديث الدليل على خادم Universe-HTT مع تكرار عدة أشهر (عندما نقوم بتجميع كمية كافية من البيانات في المخزن المؤقت الأولي). آخر مرة قاموا فيها بتحميل البيانات في يونيو من هذا العام. معظم المناصب الجديدة غائبة على الأرجح. ومع ذلك ، في حين أن هذا قد يبدو مفاجئًا ، إلا أن الباركود الجديدة لا تظهر كثيرًا. يتم بيع العديد من المنتجات ذات الرموز نفسها في البيع بالتجزئة لسنوات.

نخطط أيضًا لتحديث النسخة المفتوحة من الدليل من وقت لآخر.

مصادر


من أي مصادر نأخذ كل هذه البيانات؟ في الغالب من الإنترنت. نجمع قوائم أسعار مختلفة ، ونفتح التقارير ، بما في ذلك من الوكالات الحكومية (على سبيل المثال ، تنشر بعض الولايات في الولايات المتحدة بيانات الشراء).

الأعشاب


يحتوي الدليل على عدد من العيوب. ليس هناك الكثير ، ولكن من الضروري الإبلاغ عنها.

الرموز المعيبة


بادئ ذي بدء ، تأتي الباركود التي يتم تفسيرها عن طريق الخطأ على أنها UPC-A بينما في الواقع هو EAN-13 بدون رقم فحص. والسبب هو أن المصدر الأصلي (لا نعرف أيهما بالفعل) يحتوي على رمز EAN-13 بدون رقم فحص ، ولكن الرقم الأخير استوفى قاعدة حساب أرقام التحقق لـ UPC-A ، وحسبت الخوارزمية المتواضعة هذا الرمز على أنه مرتبط بـ UPC-A. يمكن تصحيح هذا ، ولكن لوحظ بعد فوات الأوان ولم تصل اليدين إلى التعديل الشامل.
المشاكل من هذا النوع صغيرة للغاية ، ولكن ، كما يقولون ، للأسف.

عدم تطابق إجمالي


علاوة على ذلك ، هناك ارتباك في البضائع. بمعنى ، في بعض الحالات (النادرة للغاية) ، يتوافق الرمز الشريطي مع اسم غير مرتبط به على الإطلاق.

الرموز الخاصة


قد تكون بعض الباركود خاصة. تلك EAN-13s التي تبدأ في 2 نتجاهلها في البداية ، ولكن في بعض الأحيان يحدث شيء خاطئ وتظهر الرموز الخاصة ، إما بدءًا من "2" ، أو تلك التي تبدأ برقم آخر ، مع ذلك خاص ، غير مسجل في أي من المنظمات المشاركة في هذا (GS1 ، على سبيل المثال).

التصنيف


نظرًا لأننا لم نحاول إنشاء تصنيف جيد للدليل - لم يكن هناك الكثير ممكن. ينتمي ثلث المناصب إلى المجموعة الافتراضية - أي أنها غير مصنفة على الإطلاق. قد يتم تصنيف الباقي عن طريق الخطأ.

لا ترتبط جميع المنتجات بالعلامات التجارية ، على الرغم من أننا عملنا بجد في هذه المشكلة.

كيف تساعد؟


إذا كنت ترغب في المساعدة في توسيع الدليل ، فسوف نكون ممتنين للبيانات المرسلة عن الباركود المعروفة لك. أشك بشدة في أن هناك أي شخص يريد ذلك ، ولكن فقط في حالة إبلاغك أنه وفقًا للمعلومات الواردة في الملف الشخصي ليس من الصعب العثور علي.

أي شخص لديه القدرة على تنفيذ تصنيف تلقائي لعناصر الدليل ومشاركة الأفكار وأفضل الممارسات سيحصل على لقب شخص طيب للغاية. من جانبنا ، نتعهد بإبلاغ الجمهور بنجاح أبحاثنا في هذا المجال.

المصلحة الذاتية


إذا أعجبك الدليل ، فضع عليه علامة النجمة بعلامة النجمة. إذا كنت تحب ذلك حقًا ، فقم أيضًا بتمييز مشروع OpenPapyrus بعلامة النجمة ، لأن كل إدارة وتنظيم الدليل يتم بمساعدته.

شروط الاستخدام


لا يوجد. كما يحلو لك ، استخدمه. إذا أعطيت لنا رابطًا - شكرًا لك ، لن ننجو -

تأسف المر


لعدم الرغبة في تمرير الحاجة كفضيلة ، أخبرني بأننا كنا نأمل في تحقيق الدخل من الكتاب المرجعي قيد المناقشة بطريقة أو بأخرى. ومع ذلك ، لم نتمكن من تحقيق نجاحات ملحوظة في هذا المجال على مدى السنوات الماضية. لذلك ، قرروا: من الأفضل أن تكون عامًا من اللعين. شيء من هذا القبيل يبدو وكأنه دوافعنا للعمل المشار إليه.

شكرا لكم على اهتمامكم.

Source: https://habr.com/ru/post/ar420585/


All Articles