لغة طبيعية معالجة الشيكات عبر الإنترنت: دورة من الدروس السحرية لقطة عادية وغيرها من المشاكل

تقوم CleverDATA بتطوير منصة للعمل مع البيانات الضخمة. على وجه الخصوص ، من خلال نظامنا الأساسي ، من الممكن التعامل مع معلومات من اختبارات التسوق عبر الإنترنت. كانت مهمتنا هي معرفة كيفية معالجة البيانات النصية الخاصة بالتحققات وبناء استنتاجات حول المستهلكين عليها لإنشاء الخصائص المقابلة في تبادل البيانات. كان من الطبيعي معالجة التعلم الآلي لحل هذه المشكلة. في هذه المقالة ، نريد التحدث عن المشكلات التي واجهناها في تصنيف نصوص الشيكات عبر الإنترنت.

مصدر

تطور شركتنا حلول تسييل البيانات. أحد منتجاتنا هو تبادل البيانات 1DMC ، والذي يسمح لك بإثراء البيانات من مصادر خارجية (أكثر من 9000 مصدر ، يبلغ جمهورها اليومي حوالي 100 مليون ملف شخصي). إن المهام التي تساعد 1DMC على حلها معروفة جيدًا للمسوقين: بناء شرائح متشابهة ، وشركات وسائط عريضة القاعدة ، وحملات إعلانية موجهة لجمهور متخصص للغاية ، إلخ. إذا كان سلوكك قريبًا من سلوك الجمهور المستهدف لمتجر ما ، فمن المحتمل أن تدخل في قسم الشبه. إذا تم تسجيل معلومات حول إدمانك لأي مجال من مجالات الاهتمام ، فيمكنك الدخول في حملة إعلانية مستهدفة عالية التخصص. في الوقت نفسه ، يتم تنفيذ جميع القوانين المتعلقة بالبيانات الشخصية ، وتتلقى إعلانات أكثر ارتباطًا باهتماماتك ، وتستخدم الشركات ميزانيتها بفعالية لجذب العملاء.

يتم تخزين المعلومات حول الملفات الشخصية في التبادل في شكل سمات مختلفة مفسرة من قبل الإنسان:


قد تكون هذه معلومات أن الشخص يمتلك معدات المحرك ، على سبيل المثال ، المروحية دراجة نارية. أو أن الشخص لديه مصلحة في الطعام من نوع معين ، على سبيل المثال ، فهو نباتي.

بيان المشكلة وطرق حلها


في الآونة الأخيرة ، تلقت 1DMC بيانات من أحد مشغلي البيانات المالية. من أجل تقديمها في شكل سمات ملف تعريف التبادل ، أصبح من الضروري العمل مع نصوص التحقق في شكل أولي. فيما يلي نص تحقق نموذجي لأحد العملاء:


وبالتالي ، فإن المهمة هي مطابقة الاختيار مع السمات. جذب التعلم الآلي لحل المشكلة الموصوفة ، أولاً وقبل كل شيء ، هناك رغبة في تجربة طرق التدريس بدون معلم (التعلم غير الخاضع للإشراف). المعلم هو معلومات حول الإجابات الصحيحة ، وبما أننا لا نملك هذه المعلومات ، فإن طرق التدريس بدون معلم يمكن أن تناسب الحالة التي يتم حلها. هناك طريقة نموذجية للتدريس بدون معلم وهي تجميع المجموعات ، حيث يتم تقسيم عينة التدريب إلى مجموعات أو مجموعات مستقرة. في حالتنا ، بعد تجميع النصوص وفقًا للكلمات ، سيتعين علينا مقارنة المجموعات الناتجة بالسمات. عدد السمات الفريدة كبير جدًا ، لذلك كان من المستحسن تجنب العلامات اليدوية. هناك طريقة أخرى للتدريس بدون مدرس للنصوص تدعى نمذجة المواضيع ، والتي تسمح لك بتحديد الموضوعات الرئيسية في النصوص غير المستقرة. بعد استخدام النمذجة المواضيعية ، تحتاج إلى مقارنة الموضوعات التي تم الحصول عليها بالسمات ، والتي أردت أيضًا تجنبها. بالإضافة إلى ذلك ، من الممكن استخدام القرب الدلالي بين نص الفحص والوصف النصي للسمة بناءً على أي نموذج لغة. ومع ذلك ، أظهرت التجارب أن جودة النماذج القائمة على القرب الدلالي ليست مناسبة لمهامنا. من وجهة نظر العمل ، عليك أن تتأكد من أن الشخص مغرم بالجوجيتسو ولهذا السبب يشتري السلع الرياضية. هو أكثر ربحية عدم استخدام استنتاجات وسيطة ومثيرة للجدل ومشكوك فيها. وبالتالي ، للأسف ، فإن أساليب التعلم غير الخاضعة للرقابة ليست مناسبة للمهمة.

إذا تخلينا عن أساليب التعلم غير الخاضعة للإشراف ، فمن المنطقي أن ننتقل إلى طرق التعلم الخاضعة للإشراف ، وخاصة التصنيف. المعلم هو معلومات حول الفصول الحقيقية ، والنهج المعتاد هو إجراء تصنيف متعدد الفصول ، ولكن في هذه الحالة ، تعقد المهمة بسبب حصولنا على عدد كبير جدًا من الفصول (حسب عدد السمات الفريدة). هناك ميزة أخرى: يمكن أن تعمل السمات على النصوص نفسها في عدة مجموعات ، أي يجب أن يكون التصنيف multilabel. على سبيل المثال ، قد تحتوي المعلومات التي قام شخص ما بشراء علبة للهاتف الذكي على سمات مثل: الشخص الذي يمتلك جهازًا مثل Samsung بهاتف Galaxy ، ويقوم بشراء سمات حقيبة Deppa Sky Case ، ويقوم عادة بشراء الملحقات للهواتف. أي أنه يجب تسجيل العديد من سمات شخص ما في الملف الشخصي في وقت واحد.

لترجمة المهمة إلى فئة "التدريب مع المعلم" ، تحتاج إلى الحصول على علامة. عندما يواجه الأشخاص مثل هذه المشكلة ، فإنهم يقومون بتعيين مقيمين ، وفي مقابل المال والوقت ، يحصلون على علامات جيدة ويصممون نماذج تنبؤية من الترميز. ثم غالبًا ما يتبين أن الترميز كان خاطئًا ، وأن المقيِّمين بحاجة إلى الاتصال بالعمل بانتظام ، لأن تظهر سمات جديدة وموفري البيانات الجدد. طريقة بديلة هي استخدام ياندكس. تولوكي ". يسمح لك بتخفيض تكاليف المقيّمين ، لكن لا يضمن الجودة.

هناك دائمًا خيار لإيجاد نهج جديد ، وقد تقرر المضي بهذه الطريقة. إذا كانت هناك مجموعة من النصوص لسمة واحدة ، فسيكون من الممكن بناء نموذج تصنيف ثنائي. يمكن الحصول على نصوص لكل سمة من استعلامات البحث ، وبالنسبة للبحث ، يمكنك استخدام الوصف النصي للسمة ، وهو في التصنيف. في هذه المرحلة ، نواجه الميزة التالية: نصوص الإخراج ليست متنوعة إلى حد كبير مثل بناء نموذج قوي منها ، وللحصول على مجموعة متنوعة من النصوص من المنطقي اللجوء إلى تكبير النص.

تكبير النص


لتكبير النص ، من المنطقي استخدام نموذج اللغة. نتيجة عمل نموذج اللغة هي الزخارف - هذا تخطيط من مسافة الكلمات في مساحة المتجهات ذات طول ثابت محدد ، وستكون المتجهات المقابلة للكلمات القريبة من المعنى بجوار بعضها البعض في الفراغ الجديد ، وبعيدًا عن المعنى. بالنسبة لمهمة زيادة النص ، هذه الخاصية هي المفتاح ، لأنه في هذه الحالة ، من الضروري البحث عن المرادفات. بالنسبة لمجموعة عشوائية من الكلمات باسم سمة التصنيف ، نقوم بتجربة مجموعة فرعية عشوائية من العناصر المماثلة من مساحة تمثيل النص.


دعونا ننظر إلى زيادة مع مثال. شخص لديه مصلحة في هذا النوع الغامض من السينما. نقوم بتجربة العينة ، ونحصل على مجموعة متنوعة من النصوص التي يمكن إرسالها إلى الزاحف وجمع نتائج البحث. ستكون هذه عينة إيجابية لتدريب المصنف.


ونختار العينة السلبية بسهولة أكبر ، ونقوم بتجربة نفس عدد السمات التي لا ترتبط بموضوع الفيلم:


التدريب النموذجي


عند استخدام نهج TF-IDF (على سبيل المثال ، هنا ) مع عامل تصفية بحسب الترددات والانحدار اللوجستي ، يمكنك بالفعل الحصول على نتائج ممتازة: في البداية تم إرسال نصوص مختلفة جدًا إلى الزاحف ، ويتوافق النموذج جيدًا. بالطبع ، من الضروري التحقق من تشغيل النموذج على البيانات الحقيقية ، أدناه نقدم نتيجة تشغيل النموذج وفقًا للسمة "الاهتمام بشراء معدات AEG".


كل سطر يحتوي على الكلمات AEG ، النموذج تعاملت دون ايجابيات كاذبة. ومع ذلك ، إذا أخذنا حالة أكثر تعقيدًا ، على سبيل المثال ، سيارة GAZ ، فسوف نواجه مشكلة: يركز النموذج على الكلمات الرئيسية ولا يستخدم السياق.

خطأ في التعامل


سوف نبني على نموذج الاهتمام في التعليم المستمر - دورات إعادة التدريب المهني.


مسار الدروس السحرية للقط العادي هو أيضًا حالة صعبة ، يمكن أن تكون مضللة لشخص ما.

لتصفية الإيجابيات الخاطئة ، نستخدم الزخارف: نقوم بحساب مركز العينة الموجبة في مساحة التضمين وقياس المسافة لكل سطر.


الفرق في المسافة بين دورات الدروس السحرية والحصول على الملخصات مرئي للعين المجردة.

مثال آخر: أصحاب العلامات التجارية أودي. يحفظ المسافة في مساحة حفلات الزفاف في هذه الحالة أيضًا من الإيجابيات الخاطئة.



قضية قابلية التوسع


حتى الآن ، يعمل تبادل البيانات بحوالي 30 ألف سمة ، وتظهر سمات جديدة بانتظام. إن الحاجة إلى أتمتة تدريب نماذج جديدة والترميز بسمات جديدة أمر واضح للغاية. فيما يلي تسلسل الخطوات اللازمة لإنشاء نموذج لسمة جديدة:

  1. أخذ اسم السمة من التصنيف ؛
  2. إنشاء قائمة من الاستعلامات إلى محرك البحث باستخدام تكبير النص ؛
  3. اختيار النص kraulim.
  4. نقوم بتدريب نموذج التصنيف على العينة التي تم الحصول عليها ؛
  5. دعنا نقول بيانات نموذج شراء الخام المدربين ؛
  6. تصفية النتيجة بواسطة word2vec إلى مركز الطبقة الإيجابية.

هناك عدد من نقاط الضعف في الخوارزمية الموضحة أعلاه:

  1. من الصعب السيطرة على مجموعة النصوص الراكدة
  2. من الصعب السيطرة على جودة عينة التدريب ؛
  3. لا توجد طريقة لتحديد ما إذا كان نموذج مدربين تدريبا جيدا يقوم بعمله.

من المهم أن نفهم أن المقاييس الكلاسيكية ليست مناسبة لمراقبة الجودة لنموذج مدرب ، لأن المعلومات المفقودة على الطبقات الحقيقية في التحقق من النصوص. يتم التعلم والتنبؤ ببيانات مختلفة ، ويمكن قياس جودة النموذج في نموذج تدريبي ، ولا توجد علامات على نصوص النصوص الرئيسية ، مما يعني أنه لا يمكنك استخدام الطرق المعتادة لتقييم الجودة.

نموذج تقييم الجودة


لتقييم جودة النموذج المدرّب ، نأخذ مجموعتين: الأول يشير إلى كائنات أسفل عتبة استجابة النموذج ، ويشير الثاني إلى الكائنات التي تم تقييم النموذج عليها فوق العتبة.

لكل من السكان ، نقوم بحساب مسافة word2vec إلى مركز عينة التدريب الإيجابية. نحصل على توزيعات المسافة التي تبدو مثل هذا.


يشير اللون الأحمر إلى توزيع المسافات للكائنات التي تجاوزت العتبة ، بينما يشير اللون الأزرق إلى الكائنات الموجودة أسفل العتبة وفقًا لتقييم النموذج. يمكن تقسيم التوزيعات ، ولتقدير المسافة بين التوزيعات ، من المنطقي أولاً الإشارة إلى التباعد Kullback-Leibler (DKL). DCL هي وظيفة غير متناظرة ؛ عدم المساواة في المثلث غير راض عنها. هذا التقييد يعقد استخدام DCL كمقياس ، ولكن يمكن استخدامه إذا كان يعكس التبعية اللازمة. في حالتنا ، افترضت DCL قيمًا ثابتة على جميع الطرز بغض النظر عن قيم العتبة ، لذلك أصبح من الضروري البحث عن طرق أخرى.


لتقدير المسافات بين التوزيعات ، نحسب الفرق بين متوسط ​​قيم التوزيعات. الفرق الناتج قابل للقياس في الانحرافات المعيارية للتوزيع الأولي للمسافات. قم بالإشارة إلى القيمة التي تم الحصول عليها بواسطة Z-metric عن طريق القياس مع Z-value ، وستكون قيمة Z-metric دالة للقيمة الدنيا للنموذج التنبئي. لكل عتبة ثابتة للنموذج ، ترجع الدالة Z-metric الفرق بين التوزيعات في سيجما للتوزيع الأولي للمسافة.

من بين العديد من الطرق التي تم اختبارها ، كان قياس Z هو الذي أعطى الاعتماد اللازم لتحديد جودة النموذج المُصمم.

خذ بعين الاعتبار سلوك المقياس Z: كلما كان المقياس Z أكبر ، كلما تعامل النموذج بشكل أفضل ، لأنه كلما كانت المسافة بين التوزيعات تميز التصنيف النوعي. ومع ذلك ، لا يمكن اشتقاق قاعدة قرار محددة بوضوح لتحديد التصنيف النوعي. على سبيل المثال ، يحصل النموذج ذو المقياس Z في الركن الأيسر السفلي من الشكل على قيمة ثابتة تساوي 10. ويحدد هذا النموذج الاهتمام بالسفر إلى تايلاند. تم الإعلان عن عينة التدريب بشكل أساسي من قبل العديد من المنتجعات الصحية ، وتم تدريب النموذج على نصوص لم تكن لها صلة مباشرة برحلات إلى تايلاند. وهذا هو ، النموذج يعمل بشكل جيد ، لكنه لا يعكس الاهتمام في الرحلات إلى تايلاند.

Z-metic لعدد من النماذج التنبؤية. النماذج في النصف الأيمن من الصورة جيدة ، والنماذج الخمسة في النصف الأيسر سيئة.

خلال عمليات البحث والتجارب ، تراكمت 160 نماذج مع الترميز وفقا لمعيار "جيد / سيء". بناءً على علامات z-metric ، تم بناء نموذج meta يعتمد على زيادة التدرج اللوني يحدد جودة النموذج الذي تم إنشاؤه. وبالتالي ، كان من الممكن تكوين مراقبة جودة النماذج المضمنة في الوضع التلقائي.

النتائج


في الوقت الحالي ، يكون تسلسل الإجراءات كما يلي:

  1. أخذ اسم السمة من التصنيف ؛
  2. إنشاء قائمة من الاستعلامات إلى محرك البحث باستخدام تكبير النص ؛
  3. اختيار النص kraulim.
  4. نقوم بتدريب نموذج التصنيف على العينة التي تم الحصول عليها ؛
  5. دعنا نقول بيانات نموذج شراء الخام المدربين ؛
  6. نحن تصفية النتيجة عن طريق word2vec المسافة إلى مركز الطبقة الإيجابية.
  7. نحسب Z- متري وبناء علامات لنموذج الفوقية.
  8. نحن نستخدم نموذج تعريف ونقيِّم جودة النموذج الناتج ؛
  9. إذا كان النموذج ذو جودة مقبولة ، فسيتم إضافته إلى مجموعة النماذج المستخدمة. خلاف ذلك ، يعود النموذج للمراجعة.

وفقًا لتقييم النموذج التلوي في الوضع التلقائي ، يتم اتخاذ قرار لإدخاله في الإنتاج أو للعودة للمراجعة. التنقيح ممكن بطرق مختلفة تم استخلاصها للمحلل.

  • غالبًا ما تعترض النماذج بعض الكلمات التي لها عدة معانٍ. قائمة سوداء بكلمات مضللة تجعل النموذج أسهل في التعامل معه.
  • هناك طريقة أخرى تتمثل في إنشاء قاعدة لاستبعاد الكائنات من مجموعة التدريب. يساعد هذا النهج إذا كانت الطريقة الأولى لا تعمل.
  • بالنسبة للنصوص المعقدة والسمات متعددة القيم ، يتم نقل قاموس معين إلى النموذج ، مما يحد من النموذج ، ولكنه يسمح لك بالتحكم في الأخطاء.

ولكن ماذا عن الشبكات العصبية؟


بادئ ذي بدء ، كانت هناك رغبة في استخدام الشبكات العصبية للمهمة الموصوفة. على سبيل المثال ، يمكن للمرء تدريب Transformer على مجموعة كبيرة من النصوص ، ثم إجراء نقل التعلم على مجموعة من عينات التدريب الصغيرة من كل سمة. لسوء الحظ ، يجب التخلي عن استخدام هذه الشبكة العصبية للأسباب التالية.

  • إذا توقف النموذج الخاص بسمة واحدة عن العمل بشكل صحيح ، فمن الضروري أن تكون قادرًا على تعطيله دون فقد للسمات المتبقية.
  • إذا كان النموذج لا يعمل بشكل جيد لسمة واحدة ، فمن الضروري ضبط وضبط النموذج بمعزل ، دون التعرض لخطر إفساد النتيجة لسمات أخرى.
  • عند ظهور سمة جديدة ، تحتاج إلى الحصول على نموذج لها في أقرب وقت ممكن ، دون تدريب طويل الأجل لجميع الطرز (أو نموذج كبير واحد).
  • يعد حل مشكلة التحكم في الجودة لسمة واحدة أسرع وأسهل من حل مشكلة التحكم في الجودة لجميع السمات مرة واحدة. إذا لم يتكيف النموذج الكبير مع إحدى السمات ، فسيتعين عليك ضبط وضبط النموذج الكبير بأكمله ، مما يتطلب مزيدًا من الوقت والاهتمام من قِبل أحد المتخصصين.

وهكذا ، تبين أن مجموعة من النماذج الصغيرة المستقلة لحل المشكلة أكثر عملية من نموذج كبير ومعقد. بالإضافة إلى ذلك ، لا يزال يتم استخدام نموذج اللغة والزخارف في مراقبة الجودة وتوسيع النص ، لذلك لم يكن من الممكن الابتعاد تمامًا عن استخدام الشبكات العصبية ، ولم يكن هناك مثل هذا الغرض. يقتصر استخدام الشبكات العصبية على المهام التي تتطلبها.

أن تستمر


يستمر العمل في المشروع: من الضروري تنظيم المراقبة وتحديث النماذج والعمل مع الحالات الشاذة ، إلخ. أحد مجالات الأولوية لمزيد من التطوير هي مهمة جمع وتحليل تلك الحالات التي لم يتم تصنيفها بواسطة أي نموذج من المجموعة. ومع ذلك ، بالفعل نرى الآن نتائج عملنا: حوالي 60 ٪ من الشيكات بعد تطبيق النماذج تتلقى سماتها. من الواضح أن هناك نسبة كبيرة من الشيكات التي لا تحمل معلومات عن مصالح المالكين ، لذلك فإن المستوى المملوك بالكامل غير ممكن. ومع ذلك ، من المشجع أن النتيجة التي تم الحصول عليها حتى الآن تتجاوز بالفعل توقعاتنا ونحن نواصل العمل في هذا الاتجاه.

شارك في كتابة هذا المقال مع samy1010 .

Source: https://habr.com/ru/post/ar462959/


All Articles