غالبًا ما يتم سؤالنا عن سبب عدم ترتيب المسابقات لعلماء البيانات. والحقيقة هي أننا نعلم من التجربة أن الحلول الموجودة بها لا تنطبق على الإطلاق على المنتج. نعم ، ولتوظيف أولئك الذين سيتواجدون في المراكز القيادية ، لا معنى لذلك دائمًا.

غالبًا ما يتم الفوز بهذه المسابقات بمساعدة ما يسمى التراص الصيني ، عندما يتم أخذ جميع الخوارزميات الممكنة وقيم المعلمات المفرطة بطريقة اندماجية ، وتستخدم النماذج الناتجة إشارة من بعضها البعض على عدة مستويات. السواتل المعتادة لهذه الحلول هي التعقيد وعدم الاستقرار وصعوبة تصحيح الأخطاء والدعم ، واستهلاك موارد عالية جدًا في التدريب والتنبؤ ، والحاجة إلى إشراف بشري دقيق في كل دورة من التدريب المتكرر للنماذج. من المنطقي القيام بذلك فقط في المسابقات - من أجل عشرة آلاف في المقاييس والمواقف المحلية في الترتيب.
لكننا حاولنا
منذ حوالي عام ، قررنا محاولة استخدام التراص في الإنتاج. من المعروف أن النماذج الخطية تجعل من الممكن استخراج إشارة مفيدة من النصوص التي تم تمثيلها على أنها حقيبة كلمات وموجهة باستخدام tf-idf ، على الرغم من البعد الكبير لمثل هذه المتجهات. لقد أجرى نظامنا بالفعل مثل هذه الرسوم الموجهة ، لذلك لم يكن من الصعب جدًا بالنسبة لنا الجمع بين ناقلات السير الذاتية ، والشواغر ، وعلى أساسها لتعليم الانحدار اللوجستي بحيث يتنبأ باحتمال نقر المرشح مع سيرة ذاتية معينة لشغل وظيفة معينة.
ثم يتم استخدام هذه التوقعات من قبل النماذج الرئيسية كميزة إضافية ، حيث يعتبر النموذج سمة تعريفية. الجمال هو أنه حتى مع ROC AUC 0.7 ، تكون الإشارة من نماذج السمة الفوقية مفيدة. أعطى التنفيذ حوالي 2000 رد في اليوم. والأهم من ذلك - أدركنا أنه يمكننا المضي قدما.
لا يأخذ النموذج الخطي في الاعتبار التفاعلات غير الخطية بين الميزات. على سبيل المثال ، لا يمكن أن تأخذ في الاعتبار أنه إذا كان هناك "C" في السيرة الذاتية و "مبرمج النظام" في الوظيفة الشاغرة ، فإن احتمال الاستجابة يصبح مرتفعًا جدًا. بالإضافة إلى الشواغر والسيرة الذاتية ، بالإضافة إلى النص ، هناك العديد من المجالات العددية والفئوية ، وفي السيرة الذاتية ينقسم النص إلى العديد من الكتل المنفصلة. لذلك ، قررنا إضافة امتداد تربيعي للميزات للنماذج الخطية وفرز جميع المجموعات الممكنة من ناقلات tf-idf من الحقول والكتل.
لقد جربنا العلامات الفوقية التي تتنبأ باحتمالية الاستجابة في ظل ظروف مختلفة:
- في الوصف الوظيفي هناك مجموعة معينة من المصطلحات والفئات ؛
- في مجال نص الوظيفة الشاغرة وحقل نص السيرة الذاتية ، تمت مصادفة مجموعة معينة من المصطلحات ؛
- في مجال نص الوظيفة الشاغرة ، كانت هناك مجموعة معينة من المصطلحات التي لم يتم استيفائها في حقل النص للسيرة الذاتية ؛
- ظهرت مصطلحات معينة في الوظيفة الشاغرة ، وتم استيفاء قيمة الفئة المحددة في السيرة الذاتية ؛
- في الشواغر والسير الذاتية ، التقى زوج معين من قيم الفئة.
ثم ، بمساعدة اختيار الميزة ، اختاروا العشرات من السمات الفوقية التي أعطت أقصى تأثير ، وأجرت اختبارات A / B وأطلقتها في الإنتاج.
ونتيجة لذلك ، تلقينا أكثر من 23 ألف رد جديد يوميًا. دخلت بعض السمات في أعلى الصفات في القوة.
على سبيل المثال ، في نظام التوصية ، فإن السمات الرئيسية هي
في نموذج الانحدار اللوجستي ، تصفية السير الذاتية المناسبة:- المنطقة الجغرافية من السيرة الذاتية ؛
- منطقة مهنية من السيرة الذاتية ؛
- الفرق بين الأوصاف الوظيفية والخبرة العملية الأخيرة ؛
- اختلاف المناطق الجغرافية في الوظائف الشاغرة والسير الذاتية ؛
- الفرق بين عنوان الوظيفة الشاغرة وعنوان السيرة الذاتية ؛
- الفرق بين التخصصات في الوظائف الشاغرة والسير الذاتية ؛
- احتمالية قيام مقدم الطلب براتب معين في السيرة الذاتية بالنقر فوق وظيفة شاغرة براتب معين (علامة التعريف على الانحدار اللوجستي) ؛
- احتمالية أن ينقر شخص يحمل اسمًا محددًا للسيرة الذاتية على الوظائف الشاغرة ذات الخبرة العملية المعينة (العلامة الوصفية للتراجع اللوجستي)
في نموذج XGBoost يستأنف الترشيح ذو الصلة:- مدى تشابه الشواغر والسير الذاتية في النص ؛
- الفرق بين اسم الوظيفة الشاغرة واسم السيرة الذاتية وجميع المناصب في التجربة في السيرة الذاتية ، مع مراعاة التفاعلات النصية ؛
- الفرق بين عنوان الشاغر والعنوان في السيرة الذاتية ، مع مراعاة التفاعلات النصية ؛
- الفرق بين اسم الوظيفة الشاغرة واسم السيرة الذاتية وجميع المناصب في تجربة السيرة الذاتية ، دون مراعاة التفاعلات النصية ؛
- احتمال أن المرشح الذي لديه خبرة عمل محددة سيذهب إلى وظيفة شاغرة بهذا الاسم (علامة التعريف على الانحدار اللوجستي) ؛
- الفرق بين الوصف الوظيفي والخبرة العملية السابقة في السيرة الذاتية ؛
- مدى اختلاف الشغور والسيرة الذاتية في النص ؛
- الفرق بين الوصف الوظيفي والخبرة العملية السابقة في السيرة الذاتية ؛
- احتمالية استجابة شخص من جنس معين إلى شاغر باسم معين (علامة تعريف على الانحدار اللوجستي).
في نموذج التصنيف على XGBoost:- احتمالية استجابة بالمصطلحات الموجودة في اسم الوظيفة الشاغرة وليست في العنوان والمنصب من السيرة الذاتية (علامة التعريف على الانحدار اللوجستي) ؛
- منطقة المباراة من الشواغر واستئناف
- احتمالية الرد بشروط موجودة في الوظيفة الشاغرة وليست في السيرة الذاتية (علامة تعريف على الانحدار اللوجستي) ؛
- توقع جاذبية الشغور للمستخدم (العلامة الوصفية على ALS) ؛
- احتمالية استجابة بالشروط الموجودة في الوظيفة الشاغرة واستئنافها (علامة meta على الانحدار اللوجستي) ؛
- المسافة بين اسم الوظيفة الشاغرة والمسمى الوظيفي + الوظيفة من السيرة الذاتية ، حيث يتم ترجيح الشروط من خلال إجراءات المستخدم (التفاعل) ؛
- المسافة بين التخصصات من الشغور والسيرة الذاتية ؛
- المسافة بين عنوان الوظيفة الشاغرة واسم السيرة الذاتية ، حيث يتم ترجيح المصطلحات من خلال تصرفات المستخدمين (التفاعل) ؛
- احتمالية الرد على تفاعل tf-idf من وظيفة شاغرة وتخصص من السيرة الذاتية (علامة تعريف على الانحدار اللوجستي) ؛
- المسافة بين الشواغر واستئناف النصوص ؛
- DSSM باسم الوظيفة الشاغرة واسم السيرة الذاتية (السمة الفوقية على الشبكة العصبية).
تظهر نتيجة جيدة أنه من هذا الاتجاه لا يزال بإمكانك استخراج عدد معين من الردود والدعوات في اليوم الواحد بنفس تكاليف التسويق.
على سبيل المثال ، من المعروف أنه مع وجود عدد كبير من العلامات ، يزيد الانحدار اللوجستي من احتمال إعادة التدريب.
دعونا نستخدم لنصوص السير الذاتية والوظائف الشاغرة tf-idf vectorizer مع قاموس يضم 10 آلاف كلمة وعبارة. ثم في حالة التوسع التربيعي في انحدارنا اللوجستي سيكون هناك 2 * 10000 + 10000 متر مربع. من الواضح أنه مع مثل هذا التباين ، حتى الحالات الفردية يمكن أن تؤثر بشكل كبير على كل وزن فردي "في السيرة الذاتية كانت هناك كلمة نادرة مثل - مثل - في شاغر كذا وكذا ، نقر المستخدم."
لذلك ، نحن نحاول الآن عمل علامات وصفية على الانحدار اللوجستي ، حيث يتم ضغط معاملات التمدد التربيعية باستخدام آلات التجهيز. يتم تمثيل أوزاننا التي تبلغ مساحتها 10000 متر مربع كمصفوفة للمتجهات الكامنة بأبعاد ، على سبيل المثال ، 10000 × 150 (حيث اخترنا أبعاد المتجه الكامن 150). في الوقت نفسه ، تتوقف الحالات الفردية أثناء الضغط عن لعب دور كبير ، ويبدأ النموذج في مراعاة الأنماط الأكثر عمومية بشكل أفضل ، بدلاً من تذكر حالات معينة.
نستخدم أيضًا السمات الفوقية على الشبكات العصبية لـ DSSM التي
كتبنا عنها بالفعل ، وعلى ALS ، التي
كتبنا عنها أيضًا ، ولكن بطريقة مبسطة. في المجموع ، أعطانا إدخال السمات الفوقية حتى الآن (وعملائنا) أكثر من 44 ألف رد إضافي (العملاء المحتملين) على الوظائف الشاغرة في اليوم.
ونتيجة لذلك ، يبدو مخطط تكديس النموذج المبسط في توصيات الوظائف للسير الذاتية الآن كما يلي:

لذا فإن التراص في الإنتاج أمر منطقي. ولكن هذا ليس التراص الاندماجي التلقائي. نتأكد من أن النماذج التي يتم إنشاء السمات الوصفية على أساسها تظل بسيطة ونستفيد إلى أقصى حد من البيانات الحالية والسمات الثابتة المحسوبة. بهذه الطريقة فقط يمكنهم البقاء في الإنتاج دون التحول التدريجي إلى صندوق أسود غير مدعوم ، والبقاء في حالة حيث يمكن إعادة تدريبهم وتحسينهم.