كيف تجعل التلفاز ذكي حقا؟

قبل بضع سنوات ، بدأت أنظمة التوصيات للتو في كسب المستهلكين. تستخدم المتاجر عبر الإنترنت بنشاط خوارزميات التوصية ، وتقدم لعملائها المزيد والمزيد من المنتجات الجديدة بناءً على سجل التسوق.

في خدمة العملاء ، أصبحت أنظمة التوصيات ذات صلة منذ وقت ليس ببعيد. بسبب الزيادة في المحتوى المعروض ، بدأ العملاء في الضياع في تدفق المعلومات حول ما وأين ومتى يحتاجون إلى رؤيته. عانى مشغلو التلفزيون المدفوع ودور السينما عبر الإنترنت من صداع محبي محتوى الفيديو.

الصورة

كطريقة فعالة لحل المشكلة الأبدية "ماذا ترى؟" ظهرت أنظمة التوصيات التي تعمل على أساس نموذج رياضي معين.

منذ عامين ، قدمنا ​​نظامًا للتوصية ، واستكملناه فيما بعد بخيارات تحريرية وشعرنا بتأثير ملحوظ في كل من المبيعات ومدة استخدام خدمتنا.

ما هي أنظمة التوصية


نظام التوصية هو عندما تريد أن ترى شيئًا ما ، ولكن لا تعرف بالضبط ما ، ويخمن التليفزيون تفضيلاتك بنجاح كبير. هذا هو تصفية المحتوى الذي يختار الأفلام والبرامج التلفزيونية بناءً على التفضيلات وتحليل سلوك المستخدم. يجب أن يتنبأ النظام الذي يستخدمه المشغل برد فعل المشاهد على عنصر معين ويقدم محتوى قد يعجبه.

عند برمجة أنظمة التوصيات ، يتم استخدام ثلاث طرق رئيسية: التصفية التعاونية ، التصفية القائمة على المحتوى ، والأنظمة الخبيرة (الأنظمة القائمة على المعرفة).

تعتمد التصفية التعاونية على ثلاث مراحل: جمع معلومات المستخدم ، وبناء مصفوفة لحساب الارتباطات وإصدار توصيات موثوقة.

مثال جيد على التصفية التعاونية هو Cinematch ، الذي تستخدمه Netflix. يقدم المستخدمون تقييمات بشكل صريح أو ضمني للأفلام التي تمت مشاهدتها ، ويتم تشكيل التوصيات مع مراعاة تقييمات المستخدمين وتقييمات المشاهدين الآخرين. للقيام بذلك ، يختار النظام المستخدمين الذين لديهم تفضيلات مماثلة ، والتي تكون تصنيفاتها قريبة من تلك الخاصة بهم. استنادًا إلى رأي هذه الدائرة من الأشخاص ، يحصل المشاهد تلقائيًا على التوصية: لمشاهدة فيلم معين.

من أجل التشغيل الصحيح الأقصى لنظام التوصية ، بالطبع ، تلعب البيانات المتراكمة والمجمعة دورًا أساسيًا. كلما زاد تراكم البيانات حول ملف تعريف الاستهلاك لمشترك معين ، تم إصدار التوصيات له بدقة أكبر.

يتم صياغة نظام توصية المحتوى بناءً على السمات المعينة لكل عنصر. إذا كنت تشاهد أفلامًا من نوع معين ، فسيقدم لك النظام تلقائيًا محتوى قريبًا من نوعك في مواقف معينة. يعمل موقع Pandora على أساس نظام التوصيات هذا.

تقدم أنظمة التوصية من الخبراء توصيات لا تستند إلى التصنيفات ، ولكن على أساس أوجه التشابه بين متطلبات المستخدم وأوصاف المنتج ، أو اعتمادًا على القيود التي وضعها المستخدم عند تحديد المنتج المطلوب. لذلك ، هذا النوع من النظام فريد من نوعه ، لأنه يسمح للعميل بالإشارة بوضوح إلى ما يريده.

تعتبر الأنظمة الخبيرة أكثر فاعلية في السياقات التي تكون فيها كمية البيانات المتاحة محدودة ، وتعمل التصفية التعاونية بشكل أفضل في البيئات التي توجد بها كميات كبيرة من البيانات. ولكن عندما تكون البيانات متنوعة ، من الممكن حل نفس المشكلة بطرق مختلفة. وهذا يعني أنها ستدمج على النحو الأمثل التوصيات الواردة بعدة طرق ، وبالتالي تحسين جودة النظام ككل.

إنه نظام هجين من E-Contenta يعمل في خدمة WiFire TV . تم تشغيله وتصحيحه في ديسمبر 2016 ويعمل وفقًا للمبدأ التالي: إذا كان النظام يعرف الكثير عن المستخدم أو عن المحتوى ، فإن خوارزميات التصفية التعاونية تسود. إذا كان المحتوى جديدًا ، أو تم جمع معلومات غير كافية حول تفاعل المستخدمين معه ، فسيتم استخدام خوارزميات المحتوى لتقييم تشابه المحتوى بناءً على البيانات الوصفية الموجودة.

كيف تم بناء خوارزميات التوصيات


لبناء اختيار شخصي في E-Contenta ، كان من الضروري ترتيب كل المحتوى المتاح حسب احتمال أن يهتم مستخدم معين بهذا المحتوى.

الصورة

يتم تحديد اهتمام المستخدم بشكل أساسي في اللحظة التي ينقر فيها على المحتوى الموصى به ، ويتم تعريف الاحتمال على أنه نسبة عدد النقرات إلى عدد المرات التي تم فيها التوصية بهذا المحتوى لهذا المستخدم.

p (click) = N من النقرات / N من العروض

تكمن الصعوبة في حقيقة أنك تحتاج إلى التوصية للمستخدم بشيء لم يراه من قبل ، مما يعني أنه لا توجد بيانات ببساطة عن عدد النقرات أو مرات الظهور لحساب هذا الاحتمال.

لذلك ، بدلاً من الاحتمال الفعلي ، تقرر استخدام تقدير لهذا الاحتمال ، وبعبارة أخرى ، القيمة المتوقعة.

إن فكرة المرشح التعاوني بسيطة:

  1. خذ بيانات تاريخية حول المستخدمين الذين يشاهدون المحتوى
  2. بناءً على هذه البيانات ، قم بتجميع المستخدمين حسب المحتوى الذي شاهدوه
  3. بالنسبة لمستخدم معين للتنبؤ باحتمالية اهتمامه بوحدة معينة من المحتوى ، استنادًا إلى البيانات السابقة للمستخدمين الآخرين في نفس المجموعة.

وبالتالي ، يشارك المستخدمون بشكل مشترك في عملية اختيار المحتوى.

الصورة

هناك العديد من الخيارات المختلفة لتطبيق هذا النهج:

1. قم ببناء نموذج باستخدام معرفات وحدات المحتوى مباشرة:

الصورة

عيب هذا النهج هو أن النموذج "لا يرى" أي روابط بين وحدات المحتوى. على سبيل المثال ، "Terminator" و "Terminator 2" بالنسبة لها ستكون بعيدة عن بعضها البعض مثل "Alien" و "Good night، kids!". بالإضافة إلى ذلك ، اتضح أن المصفوفة نفسها متناثرة للغاية (العديد من الخلايا الفارغة وقليلة المليء).

2. بدلاً من المعرّفات ، استخدم الكلمات الواردة في عنوان المقالات أو البرامج أو الأفلام:

الصورة

3. للأفلام أو أسماء الممثلين أو المخرجين أو البيانات من IMDb:

الصورة

الخياران الثاني والثالث يقضيان جزئيًا على عيوب النهج الأول ، نظرًا لربط المحتوى الذي له ميزات مشتركة (لنفس المخرج أو نفس الكلمات في العنوان). ومع ذلك ، يتم أيضًا تقليل ندرة المصفوفة ، ولكن كما يقولون ، لا يوجد حد للكمال.

يعد الاحتفاظ بنطاق كامل من تقييمات المستخدمين في الذاكرة أمرًا مكلفًا للغاية. من خلال أخذ تقديرات تقريبية لعدد مستخدمي Runet عند 80 مليون شخص وحجم قاعدة بيانات IMDb عند 370 ألف فيلم ، نحصل على الحجم المطلوب وهو 27 تيرابايت. التحلل المفرد هو طريقة لتقليل أبعاد المصفوفة.

الصورة
يتم تمثيل مصفوفة كبيرة T كمنتج لمجموعة من المصفوفات الأصغر

بمعنى آخر ، البحث عن المصفوفة "الأساسية" ، التي لها نفس خصائص المصفوفة الكاملة ، ولكنها أصغر بكثير. إلى جانب انخفاض البعد ، ينخفض ​​التفريغ أيضًا. في هذه المقالة ، لن نتطرق إلى تعقيدات التنفيذ ، خاصة وأن المكتبات الجاهزة موجودة بالفعل لعدد من لغات البرمجة.

صعوبات فنية


بداية باردة

يعد الوضع الذي يكون فيه نقص البيانات الخاصة بالمحتوى الجديد أو المستخدم لا يسمح بإعطاء توصيات عالية الجودة ، تُعرف أيضًا باسم "البداية الباردة" ، مشكلة نموذجية للتصفية التعاونية.

أحد الحلول هو مزج عدة وحدات من المحتوى في التوصيات التي لا تجمع بيانات كافية. في الوقت نفسه ، سيتم التوصية بالمحتوى الأكثر شيوعًا للمستخدم الجديد.

الأكثر شعبية

باستخدام النهج أعلاه ، من المهم ألا ننسى أن عواقبه ستكون زيادة منتظمة في تواتر حدوث "الأكثر شعبية" في القائمة الموصى بها. من خلال التعلم من سلوك المستخدمين الذين يُعرض عليهم غالبًا "الأكثر شيوعًا" ، يخاطر نظام المُوصي بالتعلم للتوصية حصريًا بالمحتوى الأكثر شيوعًا.

الصورة

والفرق الرئيسي بين التوصيات الشخصية والتوصيات العادية للمحتوى الأكثر شيوعًا هو أنها تأخذ في الاعتبار الأذواق الفردية ، والتي يمكن أن تختلف اختلافًا كبيرًا عن "المتوسط".

وبالتالي ، ينبغي تطبيع عينة ردود فعل المستخدم على المحتوى المستخدم لتدريب نموذج التوصية.

التوفر ، التجاوز ، والتدرجية

يمكن لعدد مستخدمي المورد إنشاء حمولة من مئات وآلاف الطلبات لنظام التوصيات في الثانية. علاوة على ذلك ، يجب ألا يؤدي فشل خادم واحد أو عدة خوادم إلى رفض الخدمة.

في هذه الحالة ، يكون الحل الكلاسيكي هو استخدام موازن تحميل يرسل طلبًا إلى أحد خوادم المجموعة. بالإضافة إلى ذلك ، كل خادم من الخوادم قادر على معالجة الطلب الوارد. في حالة فشل أي من الخوادم في المجموعة ، يقوم الموازن تلقائيًا بتبديل الحمل إلى الخوادم المتبقية في النظام. باختيار HTTP كبروتوكول النقل ، يمكننا استخدام Nginx كموازن تحميل.

مع نمو جمهور المورد ، يمكن أن يزداد عدد الخوادم في المجموعة. في هذه الحالة ، من المهم تقليل تكلفة إعداد خادم جديد.

يتطلب نظام التوصية تركيب عدد من المكونات التي يعتمد عليها وظيفياً. يستخدم Docker لأتمتة نشر نظام التوصيات بكل تبعياته.

يتيح لك Docker جمع جميع المكونات الضرورية ، و "تجميعها" في صورة ووضعها في مستودع (تسجيل) ، ثم تنزيلها ونشرها على خادم جديد في غضون دقائق. من المزايا المهمة لـ Docker هو أن "الحمل" عند استخدامه ضئيل: يتم زيادة وقت استدعاء التطبيق في حاوية docker ببضع نانو ثانية بالمقارنة مع التطبيق الذي يعمل في نظام تشغيل عادي.

ميزة أخرى مهمة هي القدرة على العودة بسرعة إلى الإصدار الثابت السابق من التطبيق في حالة حدوث فشل جديد (فقط خذ الإصدار القديم من التسجيل).

النوع الثاني من طلبات النظام التي تحتاج إلى الاهتمام بها هي الطلبات التي تتعقب نشاط المستخدم. بحيث لا يضطر المستخدم إلى الانتظار حتى يقوم النظام بمعالجة الإجراء الذي قام به بالكامل ، يتم تنفيذ عملية المعالجة بغض النظر عن عملية تسجيل الإجراءات.

تم اختيار Apache Kafka في E-Contenta كمنصة توفر نقل بيانات إجراءات المستخدم إلى المعالجات. تنفذ كافكا النمط الوسيط الموجه للبرامج الوسيطة) ، القادرة على توفير توصيل مضمون لعشرات ومئات الآلاف من الرسائل في الثانية وتعمل كمخزن مؤقت يحمي المعالجات من أحجام البيانات الزائدة في أوقات الذروة.

إكمال التعلم الذاتي

يظهر المحتوى الجديد والمستخدمون الجدد بانتظام - بدون تدريب منتظم ، تتدهور جودة النموذج. يجب أن يتم التدريب على خوادم منفصلة بحيث لا تؤثر عملية التدريب ، التي تتطلب موارد حوسبة كبيرة ، على أداء الخوادم القتالية.

إن الحل الكلاسيكي لتنسيق المهام الموزعة المنتظمة هو Jenkins. تبدأ الخدمة المجدولة في تلقي عينات التدريب الجديدة وتطبيعها ، وتدريب نموذج التوصية ، وتقديم نماذج جديدة وتحديث جميع خوادم المجموعات ، مما يسمح بالحفاظ على جودة التوصيات دون بذل جهود إضافية. في حالة حدوث فشل في أي من الخطوات ، يعيد Jenkins بشكل مستقل النظام إلى حالته المستقرة السابقة ويخطر المسؤول بالفشل.

حول كيفية تنفيذها على WifireTV


بالإضافة إلى ذلك ، لكي يعمل النظام بشكل صحيح ، قمنا بدعوة عداد تلفزيوني مستقل ودعناه لقياس عرض المشتركين عن بعد. يتم تحريك البيانات الفريدة الناتجة باستخدام خوارزميات علوم البيانات. تعمل التعليقات المستمرة من المشتركين الذين يتفاعلون مع التوصيات على ملء قاعدة السوابق لخوارزميات التعلم الآلي ويسمح بالتغييرات بناءً على العلامات الضمنية لتغيير تفضيلات المشتركين ، مثل الوقت من السنة أو الاقتراب من العطلات أو تغيير تكوين الأسرة.

الصورة

في عملية الاختبار ، كان علينا حل المشكلة المرتبطة بتوصية المحتوى التلفزيوني - كيفية مساعدة المشتركين في فهم تدفقات البث. كما أن المهمة معقدة بسبب خدمات العرض المؤجلة. لقد قمنا ببناء نظام يساعد بدلاً من التبديل غير المحدود للقنوات الدورية في العثور على برنامج مثير للاهتمام بضغطة زر 2-3 فقط. لهذا ، يراقب نظام التوصيات إصدار سلسلة جديدة من البرامج ويتنبأ باهتمام المشاهدين بالبرامج غير النظامية وبث الأفلام. في الواقع ، خوارزميات الآلة تحل محل عمل المحرر المسؤول.

الصورة

العمل مع البث التلفزيوني له تفاصيله الخاصة. على سبيل المثال ، غالبًا ما تذهب نفس البرامج التلفزيونية الشعبية على قنوات مختلفة. في هذه الحالة ، يجب على نظام التوصية فهم ازدواجية المعلومات واختيار توصية بناءً على تفضيلات المشترك فيما يتعلق بالقنوات ووقت بدء الإرسال ، إلخ. يحدث هذا الازدواجية في المعلومات أيضًا عندما يكون لدى المشترك اشتراك في إصدارات SD و HD من القنوات.

طوال هذين العامين ، جربنا إصدارات مختلفة من أنظمة التوصيات ووجدنا أرضية وسطية تسمح لنا بتحسين مشاركة الجمهور وتحقيق دخل أكثر فعالية للمحتوى الحالي. نستخدم التحديد التلقائي للتوصيات الموضحة أعلاه جنبًا إلى جنب مع الضبط اليدوي - التحديدات التحريرية.

سمح هذا النهج بزيادة كبيرة (10 مرات) في تحقيق الدخل من خدمات VOD و SVOD.

التوصيات التحريرية هي مجموعات من الأفلام والمسلسلات المواضيعية المرتبطة بالعروض الأولى البارزة والعطلات والتواريخ التي لا تنسى. من السهل جدًا إخطار المشتركين وإعطائهم الفرصة لمشاهدة أفلام جديدة أو ضربات قديمة أو غير شعبية ، ولكن في رأينا أفلام مثيرة للاهتمام للغاية من حيث المحتوى والمؤامرة. نتواصل عن كثب مع موردينا (دور السينما عبر الإنترنت وخدمات الفيديو الإضافية ، مثل ivi و megogo و amediateka) ونختار شخصيًا كل فيلم سيكون مثيرًا للاهتمام بالنسبة إلى المشتركين لدينا لمشاهدته.

في أيام العطلات ، نقوم بتحديدات خاصة حول موضوع معين. على سبيل المثال ، في يوم النصر ، هذه أفلام ذات طابع عسكري. في 1 سبتمبر - مجموعة مختارة من المحتوى للأطفال ، والتي تتكون من البرامج التعليمية والرسوم المتحركة والأفلام الوثائقية.

يزيد الاختيار اليدوي بشكل مثالي من ولاء مشتركينا. وفقًا لتقديراتنا الأكثر تحفظًا ، فإن حوالي 10٪ من أفلام المشاهدة الشهرية لقاعدة المشتركين التي نوصي بها وهذا المؤشر ينمو باستمرار.

ما هي النتيجة؟


يعمل Wifire TV حاليًا بنظام توصية ذكي من E-Contenta. يعتمد على علم البيانات والبيانات الوصفية لـ 90٪ من المشتركين في المشغل. تأخذ الخوارزمية في الاعتبار مئات البيانات: ما يشاهده المشترك ، وما هي الأفلام والبرامج المشهورة ، وعندما يستخدم الخدمة ومن هو الآن أمام الشاشة. نريد أن ننقل إلى المشتركين لدينا قيمة الاشتراك في باقات القنوات المميزة وخلطها مع التوصيات ذات الصلة بالمستخدم. نريد أيضًا أن نوضح أن الحصول على محتوى الفيديو القانوني ومشاهدته أمر طبيعي ومريح وبسيط.

سيخبر نظام التوصيات المشتركين بالأفلام المثيرة للاهتمام ، حتى لو كانت لفترة طويلة خارج فئة المنتجات الجديدة: وبالتالي ، لم يعد دليل الفيديو الشامل مكتبة متربة ، ويصبح عرضًا تفاعليًا يتكيف بمرونة مع أذواق وأمزجة المشتركين.

Source: https://habr.com/ru/post/ar422845/


All Articles