Kursus tentang analisis data di pusat CS diajarkan oleh Vadim Leonardovich Abbakumov - Ph.D. Ilmu pengetahuan, ia bekerja sebagai analis ahli kepala di Gazpromneft-Alternative Fuel.
Kuliah dimaksudkan untuk dua kategori siswa. Yang pertama adalah analis pemula yang merasa kesulitan untuk memulai dengan mempelajari, misalnya, The Elements of Statistics Learning. Kursus akan mempersiapkan mereka untuk pekerjaan lebih lanjut. Yang kedua adalah analis berpengalaman yang belum menerima pendidikan sistematis di bidang analisis data. Mereka dapat mengisi kesenjangan pengetahuan. Sejak tahun lalu, kelas telah menggunakan bahasa pemrograman Python.
Untuk memahami materi, kursus analisis matematika, aljabar linier dan teori probabilitas yang cukup dan pengetahuan dasar bahasa Python sudah cukup.
Selamat menikmati!
Bagian 1
1. Statistik deskriptif. Kuantil, kuartil. Histogram. Perkiraan kepadatan nuklir.
2. Statistik deskriptif. Kotak dengan kumis. Emisi. Median dan aritmatika berarti pengamatan khas. Bagan pencar. Matriks diagram dispersi.
Bagan batang dan pai.
3. Analisis klaster hierarkis. Cluster, jarak antar objek, jarak antar cluster. Algoritma untuk membangun dendrogram. Rocky scree / siku. Standarisasi data. Kesalahan umum dalam persiapan data. Interpretasi hasil.
4. Metode k-means. Contoh (bagian teoretis dari kuliah dihilangkan).
5. Menguji hipotesis statistik (pengantar teoritis).
Hipotesis kesepakatan, homogenitas, independensi, hipotesis tentang parameter distribusi.
Kesalahan jenis pertama dan kedua, nilai p dan tingkat signifikansi, algoritma untuk menguji hipotesis statistik dan interpretasi hasil. Hipotesis normalitas distribusi. Kriteria Shapiro-Wilk dan Kolmogorov-Smirnov. Penyimpangan kecil dari normalitas. Perbandingan sampel. Sampel independen dan berpasangan. Pilihan antara uji-t Student, kriteria Mann-Whitney-Wilcoxon dan kriteria Mood. Varietas t-kriteria Siswa dan perbandingan varian. Visualisasi dalam perbandingan. Tes unilateral dan bilateral.
Kemandirian. Koefisien korelasi Pearson, Kendall dan Spearman, kesalahan khas dalam studi hubungan antara dua fenomena. Inspeksi visual atas temuan.
6. Menguji hipotesis statistik (prosedur Python).
Kriteria Shapiro-Wilk. Tes Mann-Whitney-Wilcoxon. T-test siswa. Kriteria Fligner-Kilin.
Sampel independen dan berpasangan. Tes chi-square. Kriteria Pearson.
7. Pengujian A / B. Uji proporsi.
8. Analisis regresi linier. Model, interpretasi estimasi koefisien, koefisien determinasi berganda. Interpretasi dari koefisien determinasi berganda, batasan ruang lingkup penerapannya. Identifikasi prediktor yang paling signifikan dan evaluasi kontribusi masing-masing prediktor. Algoritma untuk menyesuaikan model yang dibangun. Kolinearitas.
9. Prediksi berdasarkan model regresi dengan variabel indikator musiman (fiktif, struktural). Tren, komponen musiman, perubahan sifat seri, emisi. Logaritma adalah teknik untuk mengubah musiman multiplisatif menjadi aditif.
Variabel indikator. Pelatihan ulang.
Kasus beberapa komponen musiman.
10. Pengenalan pola / klasifikasi.
Parameter model, internal dan eksternal.
Kriteria kualitas. Pelatihan dan uji sampel.
Pohon klasifikasi CART. Representasi geometris. Representasi dalam bentuk seperangkat aturan logis. Presentasi dalam bentuk pohon. Node, orang tua dan keturunan, end node. Ambang batas Tindakan pengotor: jin, entropi, kesalahan klasifikasi. Aturannya adalah sisa-sisa kayu pembelajaran. Konten variabel informasi.
Pohon klasifikasi dalam masalah regresi.
11. Hutan acak. Mengantongi. Parameter model utama. Kesalahan out-of-bag. Konten variabel informasi. Analisis sampel tidak seimbang. Menentukan jumlah pohon.
12. Meningkatkan. Mesin peningkat gradien. Parameter model utama.
Bagian 2
1. Model neuron. Fungsi aktivasi. Jaringan distribusi langsung (FeedForward Neural Network). Arsitektur jaringan saraf. Konektivisme (koneksionisme).
2. Pelatihan jaringan saraf. Membalikkan propagasi kesalahan. Metode keturunan cepat (Gradient descent) dan generalisasinya. Zaman dan batch'i. Pengantar Keras dan TensorFlow. Inisialisasi bobot jaringan saraf. Standardisasi data mencegah saturasi. Pelatihan jaringan saraf distribusi langsung. Optimasi (pengoptimal) di Keras. Formula untuk koreksi berat badan dalam melatih jaringan saraf. Contoh pelatihan jaringan saraf.
3. Contoh pelatihan jaringan saraf. Kriteria kualitas di Keras. Inisialisasi bobot jaringan saraf pada Keras.
4. Jaringan saraf untuk peramalan. Pengurangan masalah peramalan menjadi masalah regresi. Seri peramalan dengan komponen musiman.
5. Pengenalan gambar. Haar cascade untuk menyorot wajah pada gambar.
Konvolusi Lapisan konvolusi Padding. Melangkah. Pooling.
Putus sekolah dan hubungan dekorasi. Pelatihan tambahan jaringan saraf. Contoh: pengenalan tulisan tangan, solusi pertama.
6. Contoh: pengenalan digit tulisan tangan, solusi kedua. Augmentaiton. VGG-16 arsitektur jaringan saraf. Regularisasi, tujuannya. Regularisasi dalam analisis regresi linier. Persamaan normal dari analisis regresi linier. Menambahkan istilah regularisasi ke persamaan normal. Peran khusus anggota gratis. Contoh: perkiraan titik dengan polinomial. Sampel validasi. Varian istilah regularisasi (regresi ridge, laso, jaring elastis). Mengapa Lasso Mengurangi Prediktor
7. Dasar teori metode ini. Contoh pemecahan masalah dengan Python menggunakan XGboost. Sampel tidak seimbang. Presisi, Ingat, F1. Konten variabel informasi (Pentingnya). Pemilihan parameter dalam XGboost.
8. Pemilihan parameter dalam XGboost. GridSearch untuk memilih parameter. Analisis faktor. Tugas diselesaikan dengan analisis faktor.
9. Model matematika untuk analisis komponen utama dan analisis faktor. Interpretasi faktor. Contoh analisis faktor dalam Python. Banyak faktor, label faktor, interpretasinya. Faktor rotasi.
10. Contoh analisis faktor dalam Python.
Model matematika dekomposisi SVD. Dekomposisi SVD dan analisis komponen utama. Dekomposisi SVD sebagai dasar analisis semantik laten (LSA). Dekomposisi SVD dari matriks data yang mengandung celah. Regularisasi Metode Funk Simon dalam Metode Funk Simon. Dekomposisi SVD ketika membangun sistem rekomendasi.
11. Fitur-fitur penerapan dekomposisi SVD (Singular Value Decomposition) untuk data dengan banyak celah. Kalibrasi pengklasifikasi. Regresi isotonik Kalibrasi platt
12. Analisis sampel tidak seimbang. Akurasi, presisi, daya ingat, F1. Kurva ROC (kurva ROC) untuk menentukan nilai ambang. Kurva ROC untuk membandingkan pengklasifikasi. Area di bawah kurva (AUC). Regresi logistik