"Datenanalyse in Python" in zwei Teilen

Kurse zur Datenanalyse im CS-Zentrum werden von Vadim Leonardovich Abbakumov - Ph.D. In den Naturwissenschaften arbeitet er als Chief Expert Analyst bei Gazpromneft-Alternative Fuel.

Die Vorlesungen richten sich an zwei Kategorien von Studierenden. Das erste sind unerfahrene Analysten, denen es schwer fĂ€llt, zunĂ€chst die Elemente des statistischen Lernens zu studieren. Der Kurs bereitet sie auf die weitere Arbeit vor. Das zweite sind erfahrene Analysten, die keine systematische Ausbildung auf dem Gebiet der Datenanalyse erhalten haben. Sie können WissenslĂŒcken schließen. Seit letztem Jahr verwendet die Klasse die Programmiersprache Python.

Um das Material zu verstehen, reichen einmal genug Kurse in mathematischer Analyse, linearer Algebra und Wahrscheinlichkeitstheorie sowie Grundkenntnisse der Python-Sprache aus.

Schöne Aussicht!

Teil 1


1. Beschreibende Statistik. Quantile, Quartile. Histogramme. SchÀtzungen der Kerndichte.


2. Beschreibende Statistik. Boxen mit Schnurrbart. Emissionen. Median und arithmetisches Mittel als typische Beobachtungen. Streudiagramm. Matrix von Dispersionsdiagrammen.
Balken- und Kreisdiagramm.


3. Hierarchische Clusteranalyse. Cluster, AbstÀnde zwischen Objekten, AbstÀnde zwischen Clustern. Algorithmus zum Erstellen eines Dendrogramms. Felsgeröll / Ellbogen. Standardisierung von Daten. Typische Fehler bei der Datenaufbereitung. Interpretation der Ergebnisse.


4. Die k-means-Methode. Beispiele (der theoretische Teil der Vorlesung entfÀllt).


5. Testen statistischer Hypothesen (theoretische EinfĂŒhrung).

Hypothesen der Übereinstimmung, HomogenitĂ€t, UnabhĂ€ngigkeit, Hypothesen ĂŒber Verteilungsparameter.
Fehler der ersten und zweiten Art, p-Wert und Signifikanzniveau, Algorithmus zum Testen der statistischen Hypothese und Interpretation der Ergebnisse. Die Hypothese der NormalitĂ€t der Verteilung. Kriterien von Shapiro-Wilk und Kolmogorov-Smirnov. GeringfĂŒgige Abweichungen von der NormalitĂ€t. Vergleich der Proben. UnabhĂ€ngige und gepaarte Proben. Die Wahl zwischen Student-T-Test, Mann-Whitney-Wilcoxon-Kriterium und Stimmungskriterium. Sorten von Student-T-Kriterien und Vergleich von Varianzen. Visualisierung in Vergleichen. Einseitige und bilaterale Tests.
UnabhĂ€ngigkeit. Pearson-, Kendall- und Spearman-Korrelationskoeffizienten, typische Fehler bei der Untersuchung der Beziehung zwischen den beiden PhĂ€nomenen. SichtprĂŒfung der Befunde.


6. Testen statistischer Hypothesen (Python-Verfahren).

Shapiro-Wilk-Kriterium. Mann-Whitney-Wilcoxon-Test. Student T-Test. Fligner-Kilin-Kriterium.

UnabhÀngige und gepaarte Proben. Chi-Quadrat-Test. Pearson-Kriterium.


7. A / B-Tests. Auf Proportionen prĂŒfen.


8. Lineare Regressionsanalyse. Modell, Interpretation von KoeffizientenschÀtzungen, multipler Bestimmungskoeffizient. Interpretation des multiplen Bestimmungskoeffizienten, EinschrÀnkungen des Anwendungsbereichs. Identifizieren Sie die wichtigsten PrÀdiktoren und bewerten Sie den Beitrag jedes PrÀdiktors. Algorithmen zur Anpassung der konstruierten Modelle. KollinearitÀt.


9. Vorhersage basierend auf einem Regressionsmodell mit saisonalen Indikatorvariablen (fiktiv, strukturell). Trend, saisonale Komponenten, Änderung der Art der Serie, Emissionen. Der Logarithmus ist eine Technik zur Umwandlung der multiplikativen SaisonalitĂ€t in eine additive.
Indikatorvariablen. Umschulung.
Der Fall mehrerer saisonaler Komponenten.


10. Mustererkennung / -klassifizierung.
Modellparameter, intern und extern.
QualitÀtskriterien. Trainings- und Testmuster.
CART-KlassifizierungsbĂ€ume. Die geometrische Darstellung. Darstellung in Form eines Satzes logischer Regeln. PrĂ€sentation in Form eines Baumes. Knoten, Eltern und Nachkommen, Endknoten. Schwellenwerte Verunreinigungsmaßnahmen: Geist, Entropie, Klassifizierungsfehler. Die Regeln sind die Überreste des Lernbaums. Informationsgehalt von Variablen.
KlassifikationsbÀume bei Regressionsproblemen.


11. ZufÀllige WÀlder. Absacken. Wichtige Modellparameter. Out-of-Bag-Fehler. Informationsgehalt von Variablen. Analyse von unausgeglichenen Proben. Bestimmen der Anzahl der BÀume.


12. Boosting. GradientenverstÀrkungsmaschine. Wichtige Modellparameter.


Teil 2


1. Das Neuronenmodell. Aktivierungsfunktion. Direktverteilungsnetze (FeedForward Neural Network). Neuronale Netzwerkarchitektur. Konnektivismus (Konnektionismus).


2. Neuronales Netzwerktraining. Umgekehrte Fehlerausbreitung. Die Methode des schnellen Abstiegs (Gradientenabstieg) und ihre Verallgemeinerung. Epochen und Batch'i. EinfĂŒhrung in Keras und TensorFlow. Initialisierung neuronaler Netzwerkgewichte. Datenstandardisierung verhindert SĂ€ttigung. Neuronales Netztraining der Direktverteilung. Optimierung (Optimierer) in Keras. Formeln fĂŒr Gewichtskorrekturen beim Training eines neuronalen Netzwerks. Ein Beispiel fĂŒr das Training eines neuronalen Netzwerks.


3. Ein Beispiel fĂŒr das Training eines neuronalen Netzwerks. QualitĂ€tskriterien bei Keras. Initialisierung der neuronalen Netzwerkgewichte in Keras.


4. Neuronale Netze zur Vorhersage. Reduktion des Prognoseproblems auf ein Regressionsproblem. Prognoseserien mit saisonaler Komponente.


5. Bilderkennung. Haar-Kaskade, um das Gesicht im Bild hervorzuheben.
Faltung Faltungsschicht Polsterung. Schritt. Pooling.
Ausfall und Dekorrelation. ZusÀtzliches Training neuronaler Netze. Beispiel: Handschrifterkennung, 1. Lösung.


6. Beispiel: handschriftliche Ziffernerkennung, 2. Lösung. Augmentaiton. Neuronale Netzwerkarchitektur VGG-16. Regularisierung, ihr Zweck. Regularisierung in der linearen Regressionsanalyse. Normale Gleichungen der linearen Regressionsanalyse. HinzufĂŒgen eines Regularisierungsterms zu normalen Gleichungen. Die besondere Rolle eines freien Mitglieds. Beispiel: Approximation von Punkten durch ein Polynom. Validierungsbeispiel. Varianten des Regularisierungsterms (Gratregression, Lasso, elastisches Netz). Warum Lasso PrĂ€diktoren reduziert


7. Theoretische Grundlagen der Methode. Ein Beispiel fĂŒr die Lösung eines Problems in Python mit XGboost. Unausgeglichene Proben. PrĂ€zision, RĂŒckruf, F1. Informationsgehalt von Variablen (Bedeutung). Auswahl der Parameter in XGboost.


8. Auswahl der Parameter in XGboost. GridSearch zur Auswahl von Parametern. Faktoranalyse. Aufgaben durch Faktoranalyse gelöst.


9. Mathematische Modelle zur Analyse der Hauptkomponenten und zur Faktoranalyse. Interpretation von Faktoren. Ein Beispiel fĂŒr eine Faktoranalyse in Python. Faktorladungen, Faktorbezeichnungen, ihre Interpretation. Rotationsfaktoren.


10. Ein Beispiel fĂŒr eine Faktoranalyse in Python.
Mathematisches Modell der SVD-Zerlegung. SVD-Zerlegung und Analyse der Hauptkomponenten. SVD-Zerlegung als Grundlage der latenten semantischen Analyse (LSA). SVD-Zerlegung einer Datenmatrix mit LĂŒcken. Simons Funk-Methode Regularisierung in Simons Funk-Methode. SVD-Zerlegung beim Aufbau eines Empfehlungssystems.


11. Merkmale der Anwendung der SVD-Zerlegung (Singular Value Decomposition) fĂŒr Daten mit einer großen Anzahl von LĂŒcken. Kalibrierung von Klassifikatoren. Isotonische Regression Platt-Kalibrierung


12. Analyse von unausgeglichenen Proben. Genauigkeit, PrĂ€zision, RĂŒckruf, F1. ROC-Kurve (ROC-Kurve) zur Bestimmung des Schwellenwertes. ROC-Kurve zum Vergleichen von Klassifikatoren. FlĂ€che unter der Kurve (AUC). Logistische Regression

Source: https://habr.com/ru/post/de438058/


All Articles