مرحبا بالجميع!
كجزء من
دورة عالم البيانات لدينا
، قمنا بإجراء درس مفتوح حول موضوع "Naive Bayes Classifier". تم
تدريس الدرس من
قبل مدرس الدورة مكسيم كريتوف ، الباحث الرائد في مختبر الشبكات العصبية والتعلم العميق (MIPT). نحن نقدم لك التعرف على الفيديو وملخص.
شكرا مقدما.
الدخولتخيل أن لديك ألف عقار. كقاعدة ، يمكن تمييز كل منها بمجموعة محددة من الميزات ، على سبيل المثال:
- منطقة المنزل ؛
- مقدار الوقت المنقضي منذ آخر إصلاح ؛
- البعد عن أقرب موقف لوسائل النقل العام.
وبالتالي ، يمكن تمثيل كل منزل على أنه س مع البعد 3. أي ، س = (150 ؛ 5 ؛ 600) ، حيث 150 هي مساحة المنزل بالمتر المربع ، 5 هي عدد السنوات بعد الإصلاح ، 600 هي المسافة إلى المحطة بالأمتار. سيتم تحديد السعر الذي يمكن بيع هذا المنزل في السوق به y.
نتيجة لذلك ، لدينا مجموعة من المتجهات ، مع متغير يتوافق مع كل كائن. وإذا تحدثنا عن السعر ، عندها فقط يمكن تعلمه التنبؤ بمهارات التعلم الآلي.
التصنيف الأساسي لطرق التعلم الآليالمثال أعلاه نموذجي تمامًا ويتعلق بتعلم الآلة مع المعلم (هناك متغير مستهدف). إذا كان هذا الأخير غائبًا ، فيمكننا التحدث عن التعلم الآلي بدون مدرس. هذان هما النوعان الرئيسيان والأكثر شيوعًا للتعلم الآلي. في هذه الحالة ، تنقسم مهمة التدريس مع مدرس بدورها إلى مجموعتين:
- التصنيف. المتغير الهدف هو واحد من الفئات C ، أي يتم إعطاء كل كائن تسمية فئة (كوخ ، منزل حديقة ، مباني خارجية ، إلخ).
- الانحدار. المتغير الهدف رقم حقيقي.
ما المهام التي يحلها التعلم الآلي؟اليوم ، باستخدام طرق التعلم الآلي ، يتم حل المهام التالية:
1. نحوي:
- ترميز أجزاء من الكلام والشخصيات المورفولوجية ؛
- تقسيم الكلمات في النص إلى كلمات (بادئة ، لاحقة ، إلخ) ؛
- البحث عن الأسماء والعناوين في النص ("التعرف على الكيانات المسماة") ؛
- حل معنى الكلمات في سياق معين (مثال نموذجي هو القلعة أو القلعة).
2. مهام لفهم النص ، حيث يوجد "معلم":
- الترجمة الآلية ؛
- نماذج تفاعلية (روبوتات الدردشة).
3. مهام أخرى (وصف الصورة ، التعرف على الكلام ، إلخ).
صعوبة العمل مع النصدائمًا ما ينطوي العمل مع النص من وجهة نظر التعلم الآلي على بعض الصعوبات. للقيام بذلك ، فقط تذكر الجملتين:
- غسلت أمي الإطار والآن تشرق.
- غسلت أمي الإطار وهي الآن متعبة.
إذا كان المصنف الذي يقوم بالتعلم الآلي لا يمتلك الفطرة السليمة ، فذلك صحيح بالنسبة له عندما يكون الإطار لامعًا ومتعبًا ، لأنه من الناحية النحوية ، يكون إطار الكلمة في الجملة الثانية أقرب إلى الضمير.
مهمة عمليةبعد تقديم معلومات عامة عن بعض جوانب التعلم الآلي ، انتقل المعلم بسلاسة إلى المهمة العملية للندوة عبر الإنترنت - تصنيف رسائل البريد الإلكتروني إلى البريد العشوائي والجودة.
بادئ ذي بدء ، تم عرض مثال على كيفية تحويل نص الإدخال إلى متجه للأرقام. للقيام بذلك:
- تم إصلاح قاموس بحجم K ؛
- تم تقديم كل كلمة في النص بالشكل التالي: (0 ، 0 ، 0 ، ... 0 ، 1 ، 0 ، ... 0).
يُطلق على هذا الأسلوب ترميز 1-ساخن ، وتسمى الكلمات في سياقه الرموز المميزة.
استنادًا إلى نتائج مرحلة معالجة البيانات هذه ، تم إنشاء قاموس وتم عمل عدد الكلمات لكل نص. ونتيجة لذلك ، تم الحصول على متجه ثابت الطول لكل نص. كما تم النظر في نهج أقنعة بوليانية أبسط.
إدخال المصنف البايزييعتمد مصنّف Bayes الساذج على تطبيق نظرية Bayes مع افتراضات صارمة (ساذجة) حول الاستقلال. ميزتها هي كمية صغيرة من بيانات التدريب اللازمة لتقييم المعايير المطلوبة للتصنيف.
في تفسير مهمة تصنيف رسائل البريد الإلكتروني ، كانت الفكرة الرئيسية كما يلي:
- تعتبر جميع الكلمات في النص بشكل مستقل عن بعضها البعض ؛
- إذا تم العثور على أي كلمات في الرسائل غير المرغوب فيها أكثر من الرسائل الجيدة ، فإن هذه الكلمات تعتبر علامات على انتماء الرسالة إلى البريد العشوائي.
مع الأخذ في الاعتبار نظرية بايز ، تمت كتابة الصيغ المقابلة لعدة متغيرات ، كما تم النظر في ميزات حساب الافتراضات الإضافية. تم استخدام رمز زائف لحساب المعلمات ، وبعد ذلك تم إنشاء نموذج نموذج مفصل ، حيث تم حساب احتمالات مسبقة واحتمالات الانتماء إلى فئات لكائن جديد x. المرحلة الأخيرة من العمل العملي هي بناء النموذج وتدريبه ، بالإضافة إلى قياس الجودة.
النهاية
كما هو الحال دائمًا ، نحن في انتظار الأسئلة والتعليقات هنا أو يمكنك طرحها مباشرةً على
المعلم من خلال الذهاب إلى
Open Day .