يتم تدريس المقررات الخاصة بتحليل البيانات في مركز خدمة العملاء من قبل فاديم ليوناردوفيتش أبيكوموف - دكتوراه العلوم ، وهو يعمل ككبير خبراء التحليل في شركة غازبرومنفت - الوقود البديل.
المحاضرات مخصصة لفئتين من الطلاب. الأول هو محللون مبتدئون يجدون صعوبة في البدء من خلال دراسة ، على سبيل المثال ، عناصر التعلم الإحصائي. بالطبع سوف تعدهم لمزيد من العمل. والثاني هو المحللون المتمرسون الذين لم يتلقوا تعليماً منهجياً في مجال تحليل البيانات. يمكنهم ملء فجوات المعرفة. منذ العام الماضي ، يستخدم الفصل لغة برمجة بايثون.
لفهم المادة ، يكفي مرة واحدة دورات كافية من التحليل الرياضي ، والجبر الخطي ونظرية الاحتمال والمعرفة الأساسية للغة بيثون.
لديك منظر جميل!
الجزء 1
1. الإحصاء الوصفي. الكميات ، والرباعيات. رسوم بيانية. تقديرات الكثافة النووية.
2. الإحصاءات الوصفية. صناديق مع شارب. الانبعاثات. المتوسط والحساب يعني الملاحظات النموذجية. مخطط مبعثر. مصفوفة مخططات التشتت.
شريط ومخطط دائري.
3. تحليل الكتلة الهرمية. الكتلة ، المسافات بين الكائنات ، المسافات بين المجموعات. خوارزمية لبناء dendrogram. حصاة صخرية / الكوع. توحيد البيانات. الأخطاء النموذجية في إعداد البيانات. تفسير النتائج.
4. طريقة K- يعني. أمثلة (تم حذف الجزء النظري من المحاضرة).
5. اختبار الفرضيات الإحصائية (مقدمة نظرية).
فرضيات الاتفاق ، التجانس ، الاستقلال ، فرضيات حول معلمات التوزيع.
أخطاء من النوع الأول والثاني ، قيمة p و الأهمية ، خوارزمية لاختبار الفرضية الإحصائية وتفسير النتائج. فرضية التوزيع الطبيعي. معايير شابيرو ويلك وكولموغوروف سميرنوف. انحرافات طفيفة عن الحياة الطبيعية. مقارنة العينات. عينات مستقلة و المقترنة. الاختيار بين اختبار t للطلاب ، ومعيار Mann-Whitney-Wilcoxon ومعيار Mood. مجموعة متنوعة من معايير الطالب ومقارنة الفروق. التصور في المقارنات. اختبارات أحادية وثنائية.
الاستقلال. معاملات ارتباط بيرسون ، كيندال وسبيرمان ، أخطاء نموذجية في دراسة العلاقة بين الظاهرتين. التفتيش البصري للنتائج.
6. اختبار الفرضيات الإحصائية (إجراءات بايثون).
معيار شابيرو ويلك. اختبار مان ويتني ويلكوكسون. اختبار الطالب معيار Fligner-Kilin.
عينات مستقلة و المقترنة. اختبار تشي مربع. معيار بيرسون.
7. A / B الاختبار. اختبار للنسب.
8. تحليل الانحدار الخطي. نموذج وتفسير تقديرات المعامل ومعامل التحديد المتعدد. تفسير معامل متعددة من تحديد ، والقيود المفروضة على نطاق تطبيقه. تحديد أهم المتنبئين وتقييم مساهمة كل متنبئ. خوارزميات لضبط النماذج المبنية. العلاقة الخطية المتداخلة.
9. التنبؤ على أساس نموذج الانحدار مع المتغيرات مؤشر الموسمية (وهمية ، والهيكلية). الاتجاه ، والمكونات الموسمية ، وتغيير في طبيعة السلسلة ، والانبعاثات. اللوغاريتم هو تقنية لتحويل الموسمية المضاعفة إلى مادة مضافة.
متغيرات المؤشر. إعادة التدريب.
حالة العديد من المكونات الموسمية.
10. نمط الاعتراف / التصنيف.
المعلمات النموذج ، الداخلية والخارجية.
معايير الجودة. عينات التدريب والاختبار.
أشجار تصنيف السلة. التمثيل الهندسي. التمثيل في شكل مجموعة من القواعد المنطقية. عرض في شكل شجرة. العقد ، والآباء والأحفاد ، نهاية العقد. العتبات تدابير النجاسة: الجني ، الانتروبيا ، أخطاء التصنيف. القواعد هي بقايا شجرة التعلم. المحتوى المعلوماتي للمتغيرات.
أشجار التصنيف في مشاكل الانحدار.
11. الغابات العشوائية. التعبئة. معلمات النموذج الرئيسي. خطأ خارج الحقيبة. المحتوى المعلوماتي للمتغيرات. تحليل العينات غير المتوازنة. تحديد عدد الاشجار.
12. تعزيز. آلة تعزيز التدرج. معلمات النموذج الرئيسي.
الجزء 2
1. نموذج الخلايا العصبية. وظيفة التنشيط. شبكات التوزيع المباشر (شبكة FeedForward العصبية). بنية الشبكة العصبية. الترابطية (الترابطية).
2. تدريب الشبكة العصبية. انتشار الخطأ العكسي. طريقة النزول السريع (تدرج النسب) وتعميمها. عصر و batch'i. مقدمة إلى Keras و TensorFlow. تهيئة أوزان الشبكة العصبية. توحيد البيانات يمنع التشبع. تدريب الشبكة العصبية للتوزيع المباشر. التحسين (الأمثل) في Keras. صيغ لتصحيح الوزن في تدريب الشبكة العصبية. مثال على تدريب الشبكة العصبية.
3. مثال على تدريب الشبكة العصبية. معايير الجودة في Keras. تهيئة أوزان الشبكة العصبية في كراس.
4. الشبكات العصبية للتنبؤ. الحد من مشكلة التنبؤ إلى مشكلة الانحدار. سلسلة التنبؤ مع مكون الموسمية.
5. التعرف على الصور. شلال هار لتسليط الضوء على الوجه في الصورة.
الإلتواء طبقة الالتواء الحشو. خطوة. تجمع.
التسرب والديكور. تدريب إضافي على الشبكات العصبية. مثال: التعرف على خط اليد ، الحل الأول.
6. مثال: التعرف على الأرقام المكتوبة بخط اليد ، الحل الثاني. Augmentaiton. VGG-16 بنية الشبكة العصبية. تنظيم ، والغرض منه. تنظيم في تحليل الانحدار الخطي. المعادلات الطبيعية لتحليل الانحدار الخطي. إضافة مصطلح التنظيم إلى المعادلات العادية. الدور الخاص لعضو حر. مثال: تقريب النقاط من كثير الحدود. عينة التحقق من الصحة. المتغيرات من مصطلح تنظيم (الانحدار ريدج ، لاسو ، شبكة مرنة). لماذا لاسو يقلل من التنبؤات
7. الأساس النظري للطريقة. مثال على حل مشكلة في Python باستخدام XGboost. عينات غير متوازنة. الدقة ، أذكر ، F1. المحتوى المعلوماتي للمتغيرات (الأهمية). اختيار المعلمات في XGboost.
8. اختيار المعلمات في XGboost. GridSearch لتحديد المعلمات. تحليل العوامل. المهام حلها عن طريق تحليل العوامل.
9. النماذج الرياضية لتحليل المكونات الرئيسية وتحليل العوامل. تفسير العوامل. مثال لتحليل العوامل في بيثون. الأحمال عامل ، تسميات عامل ، تفسيرها. عوامل الدوران.
10. مثال لتحليل العوامل في بيثون.
نموذج رياضي من التحلل SVD. SVD التحلل وتحليل المكونات الرئيسية. تحلل SVD كأساس للتحليل الدلالي الكامن (LSA). تحلل SVD لمصفوفة بيانات تحتوي على ثغرات. سيمون فونك طريقة التنظيم في طريقة سيمون فونك. SVD التحلل عند بناء نظام التوصية.
11. ميزات تطبيق تحلل SVD (تحليل القيمة المفرد) للبيانات ذات عدد كبير من الفجوات. معايرة المصنفات. الانحدار متساوي التوتر معايرة بلات
12. تحليل عينات غير متوازنة. الدقة ، الدقة ، استدعاء ، F1. منحنى ROC (منحنى ROC) لتحديد قيمة العتبة. منحنى ROC لمقارنة المصنفات. منطقة تحت المنحنى (AUC). الانحدار اللوجستي