Les cours sur l'analyse des données dans le centre CS sont dispensés par Vadim Leonardovitch Abbakumov - Ph.D. Sciences, il travaille comme expert expert en chef chez Gazpromneft-Alternative Fuel.
Les cours s'adressent à deux catégories d'étudiants. Le premier est celui des analystes novices qui ont du mal à commencer par étudier, par exemple, Les éléments de l'apprentissage statistique. Le cours les préparera à d'autres travaux. Le second est constitué d'analystes expérimentés qui n'ont pas reçu de formation systématique dans le domaine de l'analyse des données. Ils peuvent combler les lacunes dans les connaissances. Depuis l'année dernière, la classe utilise le langage de programmation Python.
Pour comprendre le matériel, une fois suffisamment de cours d'analyse mathématique, d'algèbre linéaire et de théorie des probabilités et des connaissances de base du langage Python suffisent.
Ayez une belle vue!
Partie 1
1. Statistiques descriptives. Quantiles, quartiles. Histogrammes. Estimations de la densité nucléaire.
2. Statistiques descriptives. Boîtes avec une moustache. Émissions. Moyenne médiane et arithmétique comme observations typiques. Graphique à nuage de points. Matrice de diagrammes de dispersion.
Graphique à barres et à secteurs.
3. Analyse de cluster hiérarchique. Cluster, distances entre objets, distances entre clusters. Algorithme de construction d'un dendrogramme. Éboulis rocheux / coude. Standardisation des données. Erreurs typiques dans la préparation des données. Interprétation des résultats.
4. La méthode k-means. Exemples (la partie théorique de la conférence est omise).
5. Test d'hypothèses statistiques (introduction théorique).
Hypothèses d'accord, homogénéité, indépendance, hypothèses sur les paramètres de distribution.
Erreurs du premier et du deuxième type, valeur de p et niveau de signification, algorithme pour tester l'hypothèse statistique et l'interprétation des résultats. L'hypothèse de normalité de la distribution. Critères de Shapiro-Wilk et Kolmogorov-Smirnov. Écarts mineurs par rapport à la normalité. Comparaison d'échantillons. Échantillons indépendants et appariés. Le choix entre le test t de Student, le critère de Mann-Whitney-Wilcoxon et le critère de l'humeur. Variétés des critères t de Student et comparaison des variances. Visualisation dans les comparaisons. Tests unilatéraux et bilatéraux.
L'indépendance. Pearson, Kendall et Spearman, coefficients de corrélation, erreurs typiques dans l'étude de la relation entre les deux phénomènes. Inspection visuelle des résultats.
6. Test d'hypothèses statistiques (procédures Python).
Critère de Shapiro-Wilk. Test de Mann-Whitney-Wilcoxon. Test t de l'élève. Critère Fligner-Kilin.
Échantillons indépendants et appariés. Test du chi carré. Critère Pearson.
7. Tests A / B. Testez les proportions.
8. Analyse de régression linéaire. Modèle, interprétation des estimations de coefficient, coefficient de détermination multiple. Interprétation du coefficient de détermination multiple, restrictions du champ d'application. Identifiez les prédicteurs les plus significatifs et évaluez la contribution de chaque prédicteur. Algorithmes pour ajuster les modèles construits. Colinéarité.
9. Prédiction basée sur un modèle de régression avec des variables indicatrices saisonnières (fictives, structurelles). Tendance, composantes saisonnières, changement dans la nature de la série, émissions. Le logarithme est une technique pour convertir la saisonnalité multiplicative en additif.
Variables indicatrices. Recyclage.
Le cas de plusieurs composantes saisonnières.
10. Reconnaissance / classification des formes.
Paramètres du modèle, internes et externes.
Critères de qualité. Formation et test des échantillons.
Arbres de classification CART. La représentation géométrique. Représentation sous la forme d'un ensemble de règles logiques. Présentation sous forme d'arbre. Noeuds, parents et descendants, noeuds finaux. Seuils Mesures d'impuretés: génie, entropie, erreurs de classification. Les règles sont les restes de l'arbre d'apprentissage. Contenu informatif des variables.
Arbres de classification dans les problèmes de régression.
11. Forêts aléatoires. Ensachage. Paramètres clés du modèle. Erreur hors du sac. Contenu informatif des variables. Analyse d'échantillons déséquilibrés. Déterminer le nombre d'arbres.
12. Boosting. Machine de renforcement de gradient. Paramètres clés du modèle.
2e partie
1. Le modèle neuronal. Fonction d'activation. Réseaux de distribution directe (FeedForward Neural Network). Architecture de réseau neuronal. Connectivisme (connexionnisme).
2. Formation au réseau de neurones. Propagation inverse des erreurs. La méthode de descente rapide (descente en gradient) et sa généralisation. Époques et batch'i. Introduction à Keras et TensorFlow. Initialisation des poids du réseau neuronal. La normalisation des données empêche la saturation. Formation réseau neuronal de distribution directe. Optimisation (optimiseurs) dans Keras. Formules pour les corrections de poids dans la formation d'un réseau neuronal. Un exemple de formation d'un réseau neuronal.
3. Un exemple de formation d'un réseau neuronal. Critères de qualité chez Keras. Initialisation des poids des réseaux neuronaux à Keras.
4. Réseaux de neurones pour la prévision. Réduction du problème de prévision à un problème de régression. Série de prévisions avec une composante saisonnière.
5. Reconnaissance d'image. Haar en cascade pour mettre en valeur le visage sur la photo.
Convolution Couche de convolution Rembourrage. Stride. Pooling.
Abandon et décorrélation. Formation complémentaire des réseaux de neurones. Exemple: reconnaissance de l'écriture manuscrite, 1ère solution.
6. Exemple: reconnaissance de chiffres manuscrits, 2e solution. Augmentaiton. Architecture du réseau neuronal VGG-16. Régularisation, son but. Régularisation dans l'analyse de régression linéaire. Équations normales d'analyse de régression linéaire. Ajout d'un terme de régularisation aux équations normales. Le rôle spécial d'un membre libre. Exemple: approximation de points par un polynôme. Échantillon de validation. Variantes du terme de régularisation (régression des crêtes, lasso, filet élastique). Pourquoi Lasso réduit les prédicteurs
7. Base théorique de la méthode. Un exemple de résolution d'un problème en Python à l'aide de XGboost. Échantillons déséquilibrés. Précision, rappel, F1. Contenu informatif des variables (importance). Sélection des paramètres dans XGboost.
8. Sélection des paramètres dans XGboost. GridSearch pour sélectionner les paramètres. Analyse factorielle. Tâches résolues par l'analyse factorielle.
9. Modèles mathématiques pour l'analyse des principaux composants et l'analyse factorielle. Interprétation des facteurs. Un exemple d'analyse factorielle en Python. Charges factorielles, étiquettes de facteurs, leur interprétation. Facteurs de rotation.
10. Un exemple d'analyse factorielle en Python.
Modèle mathématique de décomposition SVD. Décomposition SVD et analyse des principaux composants. Décomposition SVD comme base de l'analyse sémantique latente (LSA). Décomposition SVD d'une matrice de données contenant des lacunes. Simon's Funk Method Régularisation dans Simon's Funk Method. Décomposition SVD lors de la construction d'un système de recommandation.
11. Caractéristiques de l'application de la décomposition SVD (Singular Value Decomposition) pour les données avec un grand nombre de lacunes. Calibration des classificateurs. Régression isotonique Étalonnage Platt
12. Analyse d'échantillons déséquilibrés. Exactitude, précision, rappel, F1. Courbe ROC (courbe ROC) pour déterminer la valeur seuil. Courbe ROC pour comparer les classificateurs. Aire sous courbe (AUC). Régression logistique