👩🏾‍✈️ 🍥 👅 "Datenanalyse in Python" in zwei Teilen 🙌🏻 🍔 🛤️

Kurse zur Datenanalyse im CS-Zentrum werden von Vadim Leonardovich Abbakumov - Ph.D. In den Naturwissenschaften arbeitet er als Chief Expert Analyst bei Gazpromneft-Alternative Fuel.

Die Vorlesungen richten sich an zwei Kategorien von Studierenden. Das erste sind unerfahrene Analysten, denen es schwer fällt, zunächst die Elemente des statistischen Lernens zu studieren. Der Kurs bereitet sie auf die weitere Arbeit vor. Das zweite sind erfahrene Analysten, die keine systematische Ausbildung auf dem Gebiet der Datenanalyse erhalten haben. Sie können Wissenslücken schließen. Seit letztem Jahr verwendet die Klasse die Programmiersprache Python.

Um das Material zu verstehen, reichen einmal genug Kurse in mathematischer Analyse, linearer Algebra und Wahrscheinlichkeitstheorie sowie Grundkenntnisse der Python-Sprache aus.

Schöne Aussicht!

Teil 1

1. Beschreibende Statistik. Quantile, Quartile. Histogramme. Schätzungen der Kerndichte.

2. Beschreibende Statistik. Boxen mit Schnurrbart. Emissionen. Median und arithmetisches Mittel als typische Beobachtungen. Streudiagramm. Matrix von Dispersionsdiagrammen.
Balken- und Kreisdiagramm.

3. Hierarchische Clusteranalyse. Cluster, Abstände zwischen Objekten, Abstände zwischen Clustern. Algorithmus zum Erstellen eines Dendrogramms. Felsgeröll / Ellbogen. Standardisierung von Daten. Typische Fehler bei der Datenaufbereitung. Interpretation der Ergebnisse.

4. Die k-means-Methode. Beispiele (der theoretische Teil der Vorlesung entfällt).

5. Testen statistischer Hypothesen (theoretische Einführung).

Hypothesen der Übereinstimmung, Homogenität, Unabhängigkeit, Hypothesen über Verteilungsparameter.
Fehler der ersten und zweiten Art, p-Wert und Signifikanzniveau, Algorithmus zum Testen der statistischen Hypothese und Interpretation der Ergebnisse. Die Hypothese der Normalität der Verteilung. Kriterien von Shapiro-Wilk und Kolmogorov-Smirnov. Geringfügige Abweichungen von der Normalität. Vergleich der Proben. Unabhängige und gepaarte Proben. Die Wahl zwischen Student-T-Test, Mann-Whitney-Wilcoxon-Kriterium und Stimmungskriterium. Sorten von Student-T-Kriterien und Vergleich von Varianzen. Visualisierung in Vergleichen. Einseitige und bilaterale Tests.
Unabhängigkeit. Pearson-, Kendall- und Spearman-Korrelationskoeffizienten, typische Fehler bei der Untersuchung der Beziehung zwischen den beiden Phänomenen. Sichtprüfung der Befunde.

6. Testen statistischer Hypothesen (Python-Verfahren).

Shapiro-Wilk-Kriterium. Mann-Whitney-Wilcoxon-Test. Student T-Test. Fligner-Kilin-Kriterium.

Unabhängige und gepaarte Proben. Chi-Quadrat-Test. Pearson-Kriterium.

7. A / B-Tests. Auf Proportionen prüfen.

8. Lineare Regressionsanalyse. Modell, Interpretation von Koeffizientenschätzungen, multipler Bestimmungskoeffizient. Interpretation des multiplen Bestimmungskoeffizienten, Einschränkungen des Anwendungsbereichs. Identifizieren Sie die wichtigsten Prädiktoren und bewerten Sie den Beitrag jedes Prädiktors. Algorithmen zur Anpassung der konstruierten Modelle. Kollinearität.

9. Vorhersage basierend auf einem Regressionsmodell mit saisonalen Indikatorvariablen (fiktiv, strukturell). Trend, saisonale Komponenten, Änderung der Art der Serie, Emissionen. Der Logarithmus ist eine Technik zur Umwandlung der multiplikativen Saisonalität in eine additive.
Indikatorvariablen. Umschulung.
Der Fall mehrerer saisonaler Komponenten.

10. Mustererkennung / -klassifizierung.
Modellparameter, intern und extern.
Qualitätskriterien. Trainings- und Testmuster.
CART-Klassifizierungsbäume. Die geometrische Darstellung. Darstellung in Form eines Satzes logischer Regeln. Präsentation in Form eines Baumes. Knoten, Eltern und Nachkommen, Endknoten. Schwellenwerte Verunreinigungsmaßnahmen: Geist, Entropie, Klassifizierungsfehler. Die Regeln sind die Überreste des Lernbaums. Informationsgehalt von Variablen.
Klassifikationsbäume bei Regressionsproblemen.

11. Zufällige Wälder. Absacken. Wichtige Modellparameter. Out-of-Bag-Fehler. Informationsgehalt von Variablen. Analyse von unausgeglichenen Proben. Bestimmen der Anzahl der Bäume.

12. Boosting. Gradientenverstärkungsmaschine. Wichtige Modellparameter.

Teil 2

1. Das Neuronenmodell. Aktivierungsfunktion. Direktverteilungsnetze (FeedForward Neural Network). Neuronale Netzwerkarchitektur. Konnektivismus (Konnektionismus).

2. Neuronales Netzwerktraining. Umgekehrte Fehlerausbreitung. Die Methode des schnellen Abstiegs (Gradientenabstieg) und ihre Verallgemeinerung. Epochen und Batch'i. Einführung in Keras und TensorFlow. Initialisierung neuronaler Netzwerkgewichte. Datenstandardisierung verhindert Sättigung. Neuronales Netztraining der Direktverteilung. Optimierung (Optimierer) in Keras. Formeln für Gewichtskorrekturen beim Training eines neuronalen Netzwerks. Ein Beispiel für das Training eines neuronalen Netzwerks.

3. Ein Beispiel für das Training eines neuronalen Netzwerks. Qualitätskriterien bei Keras. Initialisierung der neuronalen Netzwerkgewichte in Keras.

4. Neuronale Netze zur Vorhersage. Reduktion des Prognoseproblems auf ein Regressionsproblem. Prognoseserien mit saisonaler Komponente.

5. Bilderkennung. Haar-Kaskade, um das Gesicht im Bild hervorzuheben.
Faltung Faltungsschicht Polsterung. Schritt. Pooling.
Ausfall und Dekorrelation. Zusätzliches Training neuronaler Netze. Beispiel: Handschrifterkennung, 1. Lösung.

6. Beispiel: handschriftliche Ziffernerkennung, 2. Lösung. Augmentaiton. Neuronale Netzwerkarchitektur VGG-16. Regularisierung, ihr Zweck. Regularisierung in der linearen Regressionsanalyse. Normale Gleichungen der linearen Regressionsanalyse. Hinzufügen eines Regularisierungsterms zu normalen Gleichungen. Die besondere Rolle eines freien Mitglieds. Beispiel: Approximation von Punkten durch ein Polynom. Validierungsbeispiel. Varianten des Regularisierungsterms (Gratregression, Lasso, elastisches Netz). Warum Lasso Prädiktoren reduziert

7. Theoretische Grundlagen der Methode. Ein Beispiel für die Lösung eines Problems in Python mit XGboost. Unausgeglichene Proben. Präzision, Rückruf, F1. Informationsgehalt von Variablen (Bedeutung). Auswahl der Parameter in XGboost.

8. Auswahl der Parameter in XGboost. GridSearch zur Auswahl von Parametern. Faktoranalyse. Aufgaben durch Faktoranalyse gelöst.

9. Mathematische Modelle zur Analyse der Hauptkomponenten und zur Faktoranalyse. Interpretation von Faktoren. Ein Beispiel für eine Faktoranalyse in Python. Faktorladungen, Faktorbezeichnungen, ihre Interpretation. Rotationsfaktoren.

10. Ein Beispiel für eine Faktoranalyse in Python.
Mathematisches Modell der SVD-Zerlegung. SVD-Zerlegung und Analyse der Hauptkomponenten. SVD-Zerlegung als Grundlage der latenten semantischen Analyse (LSA). SVD-Zerlegung einer Datenmatrix mit Lücken. Simons Funk-Methode Regularisierung in Simons Funk-Methode. SVD-Zerlegung beim Aufbau eines Empfehlungssystems.

11. Merkmale der Anwendung der SVD-Zerlegung (Singular Value Decomposition) für Daten mit einer großen Anzahl von Lücken. Kalibrierung von Klassifikatoren. Isotonische Regression Platt-Kalibrierung

12. Analyse von unausgeglichenen Proben. Genauigkeit, Präzision, Rückruf, F1. ROC-Kurve (ROC-Kurve) zur Bestimmung des Schwellenwertes. ROC-Kurve zum Vergleichen von Klassifikatoren. Fläche unter der Kurve (AUC). Logistische Regression

"Datenanalyse in Python" in zwei Teilen

Teil 1

Teil 2

More articles: