تشريح نظم التوصية. الجزء الأول

أعمل كعالم بيانات في CleverDATA . نحن منخرطون في مشاريع التعلم الآلي ، ومن أكثر الطلبات المتكررة لتطوير حلول التسويق القائمة على التعلم الآلي تطوير نماذج التوصيات.

في هذه المقالة ، سأتحدث عن أنظمة التوصية ، أحاول تقديم نظرة عامة أكثر اكتمالاً على الأساليب الحالية ، وشرح كيفية عمل الخوارزميات على الأصابع. تعتمد بعض المواد على دورة جيدة حول أنظمة التوصية لمختبر MovieLens (والتي يعرفها معظم الناس بنفس مجموعة البيانات لتوصيات الاختبار) ، والباقي من الخبرة الشخصية. تتكون المقالة من جزأين. يصف الأول بيان المشكلة ويقدم لمحة عامة عن خوارزميات التوصية البسيطة (ولكن الشائعة). في المقالة الثانية سأتحدث عن طرق أكثر تقدما وبعض الجوانب العملية للتنفيذ.

المصدر

مراجعة وبيان المشكلة


تتمثل مهمة نظام التوصية في إبلاغ المستخدم بمنتج قد يكون أكثر اهتمامًا به في وقت معين. يتلقى العميل المعلومات ، وتكسب الخدمة المال على توفير خدمات عالية الجودة. الخدمات ليست بالضرورة البيع المباشر للبضائع المعروضة. يمكن أن تكسب الخدمة أيضًا عمولات أو تزيد ببساطة ولاء المستخدم ، والذي يترجم بعد ذلك إلى الإعلانات والدخل الآخر.

اعتمادًا على نموذج العمل ، يمكن أن تكون التوصيات أساسها ، على سبيل المثال ، مع موقع TripAdvisor ، أو يمكن أن تكون مجرد خدمة إضافية ملائمة (مثل ، على سبيل المثال ، في بعض متاجر الملابس عبر الإنترنت) ، مصممة لتحسين تجربة العملاء وجعل التنقل في الكتالوج أكثر مريح.

إضفاء الطابع الشخصي على التسويق عبر الإنترنت هو اتجاه واضح في العقد الماضي. وفقًا لماكينزي ، يأتي 35٪ من إيرادات Amazon أو 75٪ من إيرادات Netflix من المنتجات الموصى بها ، ومن المرجح أن تنمو هذه النسبة. تتعلق أنظمة الإحالة بما تقدمه للعملاء لإرضائه.

لتوضيح مجموعة كاملة من خدمات التوصية ، سأقدم قائمة بالخصائص الرئيسية التي يمكنك من خلالها وصف أي نظام توصية.

  1. موضوع التوصية - ما ينصح به.

    هناك الكثير من التنوع هنا - يمكن أن يكون هناك سلع (Amazon ، Ozon) ، مقالات (Arxiv.org) ، أخبار (Surfingbird ، Yandex.Zen) ، صور (500 بكسل) ، مقاطع فيديو (YouTube ، Netflix) ، أشخاص (Linkedin ، LonelyPlanet) ، موسيقى (Last.fm و Pandora) وقوائم التشغيل والمزيد. بشكل عام ، يمكنك التوصية بأي شيء.
  2. الغرض من التوصية هو سبب التوصية بها.

    على سبيل المثال: الشراء والإعلام والتدريب وإجراء الاتصالات.
  3. سياق التوصية هو ما يفعله المستخدم في هذه اللحظة.

    على سبيل المثال: مشاهدة السلع والاستماع إلى الموسيقى والتحدث مع الناس.
  4. مصدر التوصية هو الذي يوصي بما يلي:

    - الجمهور (متوسط ​​تقييم المطعم على TripAdvisor) ،
    - المستخدمين المهتمين
    - مجتمع الخبراء (أحيانًا عندما يتعلق الأمر بمنتج معقد ، مثل ، على سبيل المثال ، النبيذ).
  5. درجة التخصيص .

    توصيات غير شخصية - عندما يُنصح باستخدامها مثل الآخرين. إنها تسمح بالاستهداف حسب المنطقة أو الوقت ، ولكن لا تأخذ في الاعتبار تفضيلاتك الشخصية.

    الخيار الأكثر تقدمًا هو عندما تستخدم التوصيات بيانات من جلستك الحالية. لقد ألقيت نظرة على العديد من المنتجات ، وفي أسفل الصفحة يتم تقديم منتجات مماثلة لك.

    تستخدم التوصيات الشخصية جميع المعلومات المتاحة حول العميل ، بما في ذلك سجل مشترياته.
  6. الشفافية

    يثق الناس في التوصية أكثر إذا فهموا بالضبط كيفية تلقيها. لذلك هناك خطر أقل من الدخول في أنظمة "عديمة الضمير" التي تروج للسلع المدفوعة أو تضع سلعًا أكثر تكلفة أعلى في الترتيب. بالإضافة إلى ذلك ، يجب أن يكون نظام التوصية الجيد نفسه قادرًا على التعامل مع المراجعات المشتراة وخدع المبيعات.

    بالمناسبة ، التلاعبات غير مقصودة. على سبيل المثال ، عندما يتم إصدار فيلم رائع جديد ، فإن أول شيء يوجهه المعجبون إليه هو ، وفقًا لذلك ، يمكن المبالغة في تقدير التقييم بشكل كبير في الشهرين الأولين.
  7. شكل التوصية .

    يمكن أن تكون هذه نافذة منبثقة ، أو قائمة مصنفة تظهر في قسم معين من الموقع ، أو شريط في أسفل الشاشة ، أو أي شيء آخر.
  8. الخوارزميات

    على الرغم من العديد من الخوارزميات الموجودة ، إلا أنها تتلخص في العديد من الأساليب الأساسية ، والتي سيتم وصفها لاحقًا. الأكثر كلاسيكية هي الخوارزميات المستندة إلى ملخص (غير شخصية) ، القائمة على المحتوى (النماذج المستندة إلى وصف المنتج) ، التصفية التعاونية (التصفية التعاونية) ، عامل المصفوفة (طرق تعتمد على تحلل المصفوفة) وبعض الأنواع الأخرى.


المصدر

في صميم أي نظام توصية ما يسمى مصفوفة التفضيل. هذه مصفوفة ، على محور واحد يتم الاستغناء عن جميع عملاء الخدمة (المستخدمون) ، ومن ناحية أخرى - كائنات التوصية (العناصر). عند تقاطع بعض الأزواج (المستخدم ، العنصر) ، تمتلئ هذه المصفوفة بالتصنيفات (التصنيفات) - وهذا مؤشر معروف على اهتمام المستخدم بهذا المنتج ، معبرًا عنه على مقياس معين (على سبيل المثال ، من 1 إلى 5).


عادةً ما يقوم المستخدمون بتقييم جزء صغير فقط من المنتجات الموجودة في الكتالوج ، ومهمة نظام التوصيات هي تلخيص هذه المعلومات والتنبؤ بموقف العميل تجاه المنتجات الأخرى التي لا يعرف عنها شيء. بمعنى آخر ، تحتاج إلى ملء جميع الخلايا الفارغة في الصورة أعلاه.

تختلف أنماط استهلاك الأشخاص ، ولا يجب التوصية بالمنتجات الجديدة. يمكنك إظهار المواقف المتكررة ، على سبيل المثال ، لتجديد المخزون. وفقا لهذا المبدأ ، يتم تمييز مجموعتين من السلع.

  • قابل للتكرار . على سبيل المثال ، الشامبو أو شفرات الحلاقة التي تكون مطلوبة دائمًا.
  • فريد . على سبيل المثال ، الكتب أو الأفلام التي نادرًا ما يتم إعادة اكتسابها.

إذا كان لا يمكن تعيين المنتج صراحةً إلى إحدى الفئات ، فمن المنطقي تحديد مقبولية عمليات الشراء المتكررة بشكل فردي (يذهب شخص إلى المتجر فقط للحصول على زبدة الفول السوداني لعلامة تجارية معينة ، وبالنسبة لشخص ما ، من المهم تجربة كل ما هو موجود في الكتالوج).

كما أن مفهوم "المصلحة" غير موضوعي. يحتاج بعض المستخدمين إلى أشياء فقط من فئتهم المفضلة (توصيات متحفظة) ، في حين أن شخصًا ما ، على العكس من ذلك ، أكثر استجابة للمنتجات غير القياسية أو مجموعات من المنتجات (توصيات محفوفة بالمخاطر). على سبيل المثال ، يمكن أن توصي استضافة الفيديو للمستخدم بحلقات جديدة فقط من سلسلته المفضلة ، ويمكن أن ترميه بشكل دوري بعروض جديدة أو حتى أنواع جديدة. من الناحية المثالية ، يجب عليك اختيار إستراتيجية لعرض التوصيات لكل عميل على حدة ، باستخدام نمذجة فئة العميل.

يمكن الحصول على تقييمات المستخدمين بطريقتين:

  • تقييمات صريحة - يضع المستخدم تقييم المنتج ، ويترك مراجعة ، ويحب الصفحة ،
  • التصنيفات الضمنية - لا يعبر المستخدم صراحةً عن موقفه ، ولكن يمكن استخلاص نتيجة غير مباشرة من أفعاله: اشترى المنتج - وهذا يعني أنه يحب ذلك ، ويقرأ الوصف لفترة طويلة - يعني أن هناك اهتمامًا ، وما إلى ذلك.

بالطبع ، التفضيلات الصريحة أفضل - يقول المستخدم نفسه أنه أعجبه. ومع ذلك ، من الناحية العملية ، لا توفر جميع المواقع الفرصة للتعبير صراحة عن اهتمامهم ، وليس لدى جميع المستخدمين الرغبة في القيام بذلك. غالبًا ما يتم استخدام كلا النوعين من التقييمات في وقت واحد ويكمل كل منهما الآخر بشكل جيد.

من المهم أيضًا التمييز بين مصطلحي التنبؤ (التنبؤ بدرجة الاهتمام) والتوصية نفسها (عرض التوصية). ما وكيفية إظهاره هو مهمة منفصلة تستخدم التقديرات التي تم الحصول عليها في خطوة التنبؤ ، ولكن يمكن تنفيذها بطرق مختلفة.

في بعض الأحيان ، يتم استخدام مصطلح "التوصية" بمعنى أوسع ويشير إلى أي تحسين ، سواء كان ذلك مجموعة مختارة من العملاء للإعلان بالبريد ، أو تحديد سعر العرض الأمثل أو ببساطة اختيار أفضل استراتيجية اتصال مع العميل. في المقالة ، أقصر نفسي على التعريف الكلاسيكي لهذا المصطلح ، مما يشير إلى اختيار المنتج الأكثر إثارة للاهتمام للعميل.

توصيات غير شخصية


لنبدأ بتوصيات غير شخصية ، حيث إنها أسهل طريقة للتنفيذ. فيها ، يتم تحديد الاهتمام المحتمل للمستخدم ببساطة من خلال متوسط ​​تصنيف المنتج: "الجميع يعجبه ، لذلك ستحبه." تعمل معظم الخدمات على هذا المبدأ عندما لا يقوم المستخدم بتسجيل الدخول إلى النظام ، على سبيل المثال ، نفس موقع TripAdvisor.

يمكن عرض التوصيات بطرق مختلفة - مثل إعلان بانر على جانب وصف المنتج (Amazon) ، نتيجة لطلب تم ترتيبه حسب معلمة معينة (TripAdvisor) ، أو بطريقة أخرى.

يمكن أيضًا عرض تقييمات المنتج بطرق متنوعة. قد تكون هذه النجوم بجوار المنتج ، وعدد الإعجابات ، والفرق بين الأصوات الإيجابية والسلبية (كما يحدث عادة في المنتديات) ، ونسبة التقييمات العالية أو حتى الرسم البياني للتقييمات. المدرج التكراري هو الطريقة الأكثر إفادة ، ولكن لديهم عيب واحد - يصعب المقارنة مع بعضهم البعض أو الفرز ، عندما تحتاج إلى سرد المنتجات.


مشكلة البدء البارد


البداية الباردة هي حالة نموذجية عندما لا يتم تجميع بيانات كافية حتى يعمل نظام التوصية بشكل صحيح (على سبيل المثال ، عندما يكون المنتج جديدًا أو نادرًا ما يتم شراؤه). إذا تم حساب متوسط ​​التقييم من خلال تقديرات ثلاثة مستخدمين فقط (igor92 و xyz_111 و oleg_s) ، فمن الواضح أن مثل هذا التقييم لن يكون موثوقًا به ، ويفهم المستخدمون ذلك. في كثير من الأحيان في مثل هذه الحالات ، يتم تعديل التقييمات بشكل مصطنع.

الطريقة الأولى هي عدم إظهار متوسط ​​القيمة ، ولكن المتوسط ​​السلس (المتوسط ​​المخفف). المعنى هذا: مع وجود عدد قليل من التصنيفات ، يكون التقييم المعروض أكثر ميلًا إلى نوع ما من مؤشر "المتوسط" الآمن ، وبمجرد جمع عدد كاف من التصنيفات الجديدة ، يتوقف تعديل "المتوسط" عن العمل.

نهج آخر هو حساب فترات الثقة لكل تصنيف. رياضيا ، كلما زادت التقديرات ، قل الاختلاف في المتوسط ​​، وبالتالي ، زادت الثقة في صحته. وكتقييم ، يمكنك عرض ، على سبيل المثال ، الحد الأدنى للفاصل الزمني (Low CI Bound). في الوقت نفسه ، من الواضح أن مثل هذا النظام سيكون محافظًا تمامًا ، مع ميل إلى التقليل من تصنيفات المنتجات الجديدة (ما لم يكن هذا بالطبع ناجحًا).

نظرًا لأن التقديرات تقتصر على مقياس معين (على سبيل المثال ، من 0 إلى 1) ، فإن الطريقة المعتادة لحساب فاصل الثقة لا يتم تطبيقها بشكل سيء هنا: بسبب ذيول التوزيع التي تذهب إلى اللانهاية وتناظر الفاصل نفسه. هناك طريقة بديلة وأكثر دقة لحسابها - فاصل ثقة ويلسون . في هذه الحالة ، يتم الحصول على فترات غير متماثلة من هذا النوع تقريبًا.


في الصورة أعلاه ، يتم رسم التقييم الأفقي لمتوسط ​​التصنيف ، والرأسي هو الانتشار حول المتوسط. يشير اللون إلى أحجام عينات مختلفة (من الواضح أنه كلما كانت العينة أكبر ، كانت فترة الثقة أصغر).

تعتبر مشكلة البدء البارد مناسبة تمامًا للتوصيات غير المخصصة. يتمثل النهج العام هنا في استبدال ما لا يمكن حسابه في الوقت الحالي بإرشادات مختلفة (على سبيل المثال ، استبدال بمتوسط ​​تصنيف ، أو استخدام خوارزمية أبسط ، أو عدم استخدام منتج على الإطلاق حتى يتم جمع البيانات).

أهمية التوصيات


في بعض الحالات ، من المهم أيضًا مراعاة "نضارة" التوصية. هذا ينطبق بشكل خاص على المقالات أو مشاركات المنتدى. غالبًا ما يجب أن تصل المشاركات الجديدة إلى القمة. للقيام بذلك ، استخدم عوامل التخميد. فيما يلي صيغتان لحساب ترتيب المقالات على مواقع الوسائط.

مثال لحساب التصنيف في مجلة هاكر الإخبارية:

حيث U = الأصوات المؤيدة ، و D = الأصوات السلبية ، و P (عقوبة) - تعديل إضافي لتطبيق قواعد العمل الأخرى

حساب التصنيف في Reddit:

حيث U = عدد الأصوات المؤيدة ، D = عدد الأصوات مقابل ، T = وقت التسجيل. يقدّر المصطلح الأول "جودة التسجيل" ، والثاني يصحح الوقت.

من الواضح أن الصيغة العالمية غير موجودة ، وكل خدمة تخترع الصيغة التي تحل مشكلتها بشكل أفضل - يتم التحقق منها تجريبياً.

التوصيات القائمة على المحتوى


تشير التوصيات الشخصية إلى أقصى استخدام للمعلومات حول المستخدم نفسه ، وبشكل أساسي حول مشترياته السابقة. كان أولها نهج التصفية القائم على المحتوى. في إطار هذا النهج ، يتم مقارنة وصف المنتج (المحتوى) مع اهتمامات المستخدم التي تم الحصول عليها من تقييماته السابقة. كلما زاد المنتج الذي يلبي هذه الاهتمامات ، زاد تقييم الاهتمام المحتمل للمستخدم. الشرط الواضح هنا هو أن جميع المنتجات في الكتالوج يجب أن يكون لها وصف.

تاريخياً ، كان موضوع التوصيات المستندة إلى المحتوى عبارة عن سلع ذات وصف غير منظم: الأفلام والكتب والمقالات. قد تكون مثل هذه العلامات ، على سبيل المثال ، أوصاف النص ، والمراجعات ، والصب ، وأكثر من ذلك. ومع ذلك ، لا شيء يمنع استخدام العلامات العددية أو الفئوية العادية.

يتم وصف الميزات غير المنظمة بطريقة نموذجية للنص - المتجهات في مساحة الكلمات ( نموذج Vector-Space ). كل عنصر من عناصر هذا الناقل هو ميزة من المحتمل أن تميز اهتمام المستخدم. وبالمثل ، يكون المنتج متجهًا في نفس المساحة.

عندما يتفاعل المستخدم مع النظام (على سبيل المثال ، يشتري الأفلام) ، يتم الجمع بين أوصاف المتجهات للسلع التي اشتراها (تلخيص وتطبيع) في ناقل واحد ، وبالتالي ، يتم تشكيل ناقلات اهتماماته. علاوة على ذلك ، يكفي العثور على منتج يكون وصفه أقرب إلى متجه الاهتمامات ، أي حل مشكلة إيجاد أقرب جيران.

ليست كل العناصر ذات أهمية متساوية: على سبيل المثال ، من الواضح أن الكلمات الحليفة لا تحمل أي حمولة. لذلك ، عند تحديد عدد العناصر المطابقة في متجهين ، يجب أولاً وزن جميع القياسات حسب أهميتها. يتم حل هذه المهمة من خلال تحويل TF-IDF ، والمعروف جيدًا في Text Mining ، والذي يعين وزناً أكبر لاهتمامات نادرة. تزامن مثل هذه المصالح هو أكثر أهمية في تحديد قرب نواقل اثنين من تزامن تلك الشعبية.


ينطبق مبدأ TF-IDF هنا بالتساوي على السمات الاسمية العادية ، على سبيل المثال ، النوع ، المخرج ، اللغة. TF - مقياس أهمية السمة للمستخدم IDF - مقياس "ندرة" السمة.

هناك مجموعة كاملة من التحولات المتشابهة (على سبيل المثال ، BM25 والتحولات المماثلة) ، ولكن من حيث الجوهر ، فإنها تكرر نفس المنطق مثل TF-IDF: يجب أن يكون للسمات النادرة وزن أكبر عند مقارنة المنتجات. توضح الصورة أدناه كيف يعتمد وزن TF-IDF على TF و IDF. أقرب المحور الأفقي هو DF: تردد السمة بين جميع المنتجات ، والمحور الأفقي البعيد هو TF: لوغاريتم تردد السمة للمستخدم.


بعض النقاط التي يمكن أخذها في الاعتبار أثناء التنفيذ.

  • عند تشكيل عرض البضائع المتجه للمساحات ، بدلاً من الكلمات الفردية ، يمكنك استخدام القوباء المنطقية أو n-grams (أزواج متتالية من الكلمات ، الثلاثية ، وما إلى ذلك). سيجعل هذا النموذج أكثر تفصيلاً ، ولكن ستكون هناك حاجة إلى المزيد من البيانات للتدريب.
  • في أماكن مختلفة من وصف المنتج ، قد يختلف وزن الكلمات الرئيسية (على سبيل المثال ، قد يتكون وصف الفيلم من عنوان ووصف موجز ووصف تفصيلي).
  • يمكن ترجيح أوصاف المنتج من مستخدمين مختلفين بشكل مختلف. على سبيل المثال ، يمكننا إعطاء وزن أكبر للمستخدمين النشطين الذين لديهم العديد من التقييمات.
  • وبالمثل ، يمكنك الوزن والمنتج. كلما زاد متوسط ​​تصنيف الكائن ، زاد وزنه (على غرار PageRank ).
  • إذا كان وصف المنتج يسمح بالارتباطات بمصادر خارجية ، فيمكنك الخلط وتحليل جميع معلومات الجهات الخارجية المتعلقة بالمنتج.

يمكن ملاحظة أن التصفية القائمة على المحتوى تكرر بشكل شبه كامل آلية مطابقة مستندات الاستعلام المستخدمة في محركات البحث مثل Yandex و Google. الاختلاف الوحيد هو في شكل استعلام بحث - هنا هو ناقل يصف اهتمامات المستخدم ، وهناك كلمات أساسية للمستند المطلوب. عندما بدأت محركات البحث في إضافة التخصيص ، تمحى التمييز أكثر.

كمقياس لقرب متجهين ، غالبًا ما يتم استخدام مسافة جيب التمام.


عند إضافة تقييم جديد ، يتم تحديث متجه الاهتمامات بشكل متزايد (فقط للعناصر التي تغيرت). عند إعادة الحساب ، من المنطقي إعطاء تقديرات جديدة وزناً أكبر قليلاً ، حيث قد تختلف التفضيلات.

التصفية التعاونية (خيار قائم على المستخدم)


بدأت هذه الفئة من الأنظمة في التطور بنشاط في التسعينات. كجزء من النهج ، يتم إنشاء التوصيات بناءً على اهتمامات مستخدمين آخرين مشابهين. هذه التوصيات هي نتيجة "تعاون" العديد من المستخدمين. ومن هنا جاء اسم الطريقة.

يعتمد التطبيق الكلاسيكي للخوارزمية على مبدأ أقرب الجيران. على الأصابع - لكل مستخدم ، نبحث عن k الأكثر تشابهًا معه (من حيث التفضيلات) ونكمل المعلومات حول المستخدم ببيانات معروفة عن جيرانه. لذا ، على سبيل المثال ، إذا كنت تعلم أن جيرانك في الاهتمامات سعداء بفيلم "Blood and Concrete" ، ولم تشاهده لسبب ما ، فهذه مناسبة ممتازة لتقديم هذا الفيلم لمشاهدته يوم السبت.


توضح الصورة أعلاه مبدأ الطريقة. في مصفوفة التفضيل ، يتم تمييز المستخدم باللون الأصفر الذي نريد تحديد تصنيفات المنتجات الجديدة له (علامات استفهام). تم تمييز ثلاثة من أقرب جيرانه باللون الأزرق.

"التشابه" في هذه الحالة هو مرادف لـ "ارتباط" المصالح ويمكن اعتباره بطرق عديدة (بالإضافة إلى ارتباط بيرسون ، هناك أيضًا مسافة جيب التمام ، وهناك مسافة جاكار ، مسافة هامينج ، وما إلى ذلك).

التنفيذ الكلاسيكي للخوارزمية له ناقص واضح - فهو غير قابل للتطبيق في الممارسة بسبب التعقيد التربيعي.في الواقع ، مثل أي طريقة لأقرب جار ، يتطلب حساب جميع المسافات الزوجية بين المستخدمين (وقد يكون هناك الملايين من المستخدمين). من السهل حساب أن تعقيد حساب مصفوفة المسافة سيكونO(n2m)حيث n هو عدد المستخدمين و m هو عدد المنتجات. مع وجود مليون مستخدم ، يلزم 4 تيرابايت كحد أدنى لتخزين مصفوفة المسافة الخام.

يمكن حل هذه المشكلة جزئيًا عن طريق شراء حديد عالي الأداء. ولكن إذا اقتربت بحكمة ، فمن الأفضل إدخال تصحيحات في الخوارزمية:

  • تحديث المسافات ليس مع كل عملية شراء ، ولكن مع مجموعات (على سبيل المثال ، مرة واحدة في اليوم) ،
  • لا تحسب مصفوفة المسافة بالكامل ، ولكن قم بتحديثها بشكل متزايد ،
  • اختيار الخوارزميات التكرارية والتقريبية (مثل ALS).

لكي تكون الخوارزمية فعالة ، من المهم أن تتحقق بعض الافتراضات.

  • أذواق الناس لا تتغير بمرور الوقت (أو تتغير ولكن لكل شخص نفس الشيء).
  • إذا تزامنت أذواق الناس ، فإنهم يتزامنون في كل شيء.

    على سبيل المثال ، إذا كان عميلان يفضلان نفس الأفلام ، فسيحبان أيضًا نفس الكتب. يحدث هذا غالبًا عندما تكون المنتجات الموصى بها متجانسة (على سبيل المثال ، الأفلام فقط). إذا لم يكن الأمر كذلك ، فقد يكون لدى بعض العملاء نفس تفضيلات الطعام ، وتكون الآراء السياسية متناقضة بشكل مباشر - هنا ستكون الخوارزمية أقل فعالية.

يمكن اختيار حي المستخدم في مساحة التفضيل (جيرانه) ، والذي سنقوم بتحليله لإنشاء توصيات جديدة ، بطرق مختلفة. يمكننا العمل مع جميع مستخدمي النظام بشكل عام ، يمكننا تحديد حد قريب معين ، يمكننا اختيار العديد من الجيران بشكل عشوائي أو نأخذ الجيران الأكثر تشابهًا (هذا هو النهج الأكثر شيوعًا).

يعطي مؤلفو MovieLens العدد الأمثل للجيران أرقامًا تتراوح بين 30 و 50 جيرانًا للأفلام و 25-100 للتوصيات التعسفية. من الواضح هنا أنه إذا أخذنا الكثير من الجيران ، فسوف نحصل على فرصة أكبر للضوضاء العشوائية. والعكس صحيح ، إذا أخذنا القليل جدًا ، فسوف نحصل على توصيات أكثر دقة ، ولكن يمكن التوصية بمنتجات أقل.

يعتبر تطبيع التقديرات مرحلة مهمة في إعداد البيانات.

توحيد البيانات (التحجيم)


نظرًا لأن جميع المستخدمين يقيمون بشكل مختلف - شخص يضع خمسة على التوالي ، ونادراً ما تتوقع أربعة من شخص ما - فمن الأفضل تطبيع البيانات قبل الحساب ، أي تؤدي إلى مقياس واحد حتى تتمكن الخوارزمية من مقارنتها مع بعضها البعض بشكل صحيح.

بطبيعة الحال ، سيتعين بعد ذلك ترجمة التقدير المتوقع إلى المقياس الأصلي عن طريق التحويل العكسي (وإذا لزم الأمر ، تقريبه إلى أقرب عدد صحيح).

هناك عدة طرق للتطبيع:

  • التوسيط (توسيط الوسط) - من تقييمات المستخدم ، نطرح ببساطة متوسط ​​التقييم ،

    * لا يتعلق إلا بالمصفوفات غير الثنائية
  • التوحيد (درجة z) - بالإضافة إلى التمركز ، نقسم تصنيفه على الانحراف المعياري للمستخدم ،

    * هنا ، بعد التحويل العكسي ، قد يتجاوز التقييم المقياس (أي ، على سبيل المثال ، 6 على مقياس من خمس نقاط) ، ولكن مثل هذه الحالات نادرة جدًا و يتم حلها ببساطة عن طريق التقريب نحو أقرب تقدير مقبول.
  • التوحيد المزدوج - المرة الأولى التي نقوم فيها بتطبيع تقييمات المستخدم ، والمرة الثانية - تقييمات المنتج.

    إذا كان الفيلم "أفضل فيلم" بمتوسط ​​تقييم 2.5 ، ويعطيه المستخدم 5 ، فهذا عامل قوي يشير إلى أن هذه الأفلام تتناسب تمامًا مع ذوقه.

يمكن النظر في "التشابه" أو الارتباط بين تفضيلات مستخدمين بطرق مختلفة. في الواقع ، نحن بحاجة فقط إلى مقارنة متجهين. ندرج عدد قليل من الأكثر شعبية.

  1. — , .


    — , .

    50 / min(50, Rating intersection) damping factor, .


  2. — , .. , . .



  3. . , — , .



    — , (.. ), . , .

من التطورات المثيرة للاهتمام في النهج التعاوني ما يسمى التوصيات القائمة على الثقة ، والتي تأخذ في الاعتبار ليس فقط قرب الناس وفقًا لمصالحهم ، ولكن أيضًا قربهم "الاجتماعي" ودرجة الثقة بينهم. إذا رأينا ، على سبيل المثال ، أن فتاة تزور بشكل دوري صفحة على الفيسبوك بها تسجيلات صوتية لصديقها ، فإنها تثق في ذوقها الموسيقي. لذلك ، يمكن أن تمزج التوصيات للفتاة تمامًا الأغاني الجديدة من قائمة تشغيل الصديق.


تبرير التوصيات


من المهم أن يثق المستخدم بنظام التوصيات ، ولهذا يجب أن يكون بسيطًا ومفهومًا. إذا لزم الأمر ، يجب دائمًا توفير تفسير مفهومة للتوصية (في شرح المصطلحات الإنجليزية).

كجزء من التفسير ، من الجيد إظهار تقييم المنتج للجيران ، وفقًا لأي سمة (على سبيل المثال ، الممثل أو المخرج) ، كان هناك مصادفة ، بالإضافة إلى إظهار ثقة النظام في التقييم (الثقة). لكي لا تفرط في تحميل الواجهة ، يمكنك وضع كل هذه المعلومات في زر "أخبرني المزيد".

على سبيل المثال:

  • "قد يعجبك الفيلم ... لأنه يتم عرضه هناك ... و ..."
  • "قام المستخدمون الذين لديهم أذواق موسيقية مماثلة بتصنيف الألبوم ... 4.5 من أصل 5."

الملخص


سيؤدي هذا إلى إنهاء الجزء الأول من المقالة. درسنا البيان العام للمشكلة ، وتحدثنا عن التوصيات غير الشخصية ، ووصفنا نهجين كلاسيكيين (التصفية القائمة على المحتوى والتصفية التعاونية) ، وتطرقنا أيضًا إلى موضوع التوصيات المؤيدة. بشكل عام ، يعد هذان النهجان كافيين تمامًا لبناء نظام توصيات جاهز للإنتاج. في الجزء التالي ، سأواصل المراجعة وأتحدث عن طرق أكثر حداثة ، بما في ذلك تلك التي تشمل الشبكات العصبية والتعلم العميق ، وكذلك حول النماذج الهجينة.

في هذه الأثناء ، راجع الوظائف الشاغرة لدينا.

Source: https://habr.com/ru/post/ar420499/


All Articles