"Análisis de datos en Python" en dos partes

Los cursos sobre análisis de datos en el centro CS son impartidos por Vadim Leonardovich Abbakumov - Ph.D. Ciencias, trabaja como analista experto jefe en Gazpromneft-Alternative Fuel.

Las conferencias están destinadas a dos categorías de estudiantes. El primero son los analistas novatos a quienes les resulta difícil comenzar estudiando, por ejemplo, Los elementos del aprendizaje estadístico. El curso los preparará para futuros trabajos. El segundo es analistas experimentados que no han recibido una educación sistemática en el campo del análisis de datos. Pueden llenar lagunas de conocimiento. Desde el año pasado, la clase ha estado usando el lenguaje de programación Python.

Para entender el material, una vez suficientes cursos de análisis matemático, álgebra lineal y teoría de la probabilidad y conocimiento básico del lenguaje Python son suficientes.

Que tengas una linda vista!

Parte 1


1. Estadística descriptiva. Cuantiles, cuartiles. Histogramas Estimaciones de densidad nuclear.


2. Estadística descriptiva. Cajas con bigote. Emisiones Mediana y media aritmética como observaciones típicas. Diagrama de dispersión. Matriz de diagramas de dispersión.
Bar y gráfico circular.


3. Análisis jerárquico de conglomerados. Cluster, distancias entre objetos, distancias entre clusters. Algoritmo para construir un dendrograma. Rocky scree / codo. Estandarización de datos. Errores típicos en la preparación de datos. Interpretación de los resultados.


4. El método k-means. Ejemplos (se omite la parte teórica de la conferencia).


5. Prueba de hipótesis estadísticas (introducción teórica).

Hipótesis de acuerdo, homogeneidad, independencia, hipótesis sobre parámetros de distribución.
Errores del primer y segundo tipo, valor p y nivel de significación, algoritmo para probar la hipótesis estadística e interpretación de los resultados. La hipótesis de normalidad de distribución. Criterios de Shapiro-Wilk y Kolmogorov-Smirnov. Desviaciones menores de la normalidad. Comparación de muestras. Muestras independientes y pareadas. La elección entre la prueba t de Student, el criterio de Mann-Whitney-Wilcoxon y el criterio del estado de ánimo. Variedades del criterio t de Student y comparación de varianzas. Visualización en comparaciones. Pruebas unilaterales y bilaterales.
Independencia Coeficientes de correlación de Pearson, Kendall y Spearman, errores típicos en el estudio de la relación entre los dos fenómenos. Inspección visual de hallazgos.


6. Prueba de hipótesis estadísticas (procedimientos de Python).

Criterio de Shapiro-Wilk. Prueba de Mann-Whitney-Wilcoxon. Prueba t de Student. Criterio de Fligner-Kilin.

Muestras independientes y pareadas. Prueba de chi-cuadrado. Criterio de Pearson.


7. Pruebas A / B. Prueba de proporciones.


8. Análisis de regresión lineal. Modelo, interpretación de estimaciones de coeficientes, coeficiente de determinación múltiple. Interpretación del coeficiente múltiple de determinación, restricciones en el alcance de su aplicación. Identifique los predictores más significativos y evalúe la contribución de cada predictor. Algoritmos para ajustar los modelos construidos. Colinealidad.


9. Predicción basada en un modelo de regresión con variables indicadoras estacionales (ficticias, estructurales). Tendencia, componentes estacionales, cambio en la naturaleza de la serie, emisiones. El logaritmo es una técnica para convertir la estacionalidad multiplicativa en aditiva.
Variables indicadoras. Reentrenamiento
El caso de varios componentes estacionales.


10. Reconocimiento / clasificación de patrones.
Parámetros del modelo, internos y externos.
Criterios de calidad. Entrenamiento y muestras de prueba.
Árboles de clasificación CART. La representación geométrica. Representación en forma de un conjunto de reglas lógicas. Presentación en forma de árbol. Nodos, padres y descendientes, nodos finales. Umbrales Medidas de impureza: genio, entropía, errores de clasificación. Las reglas son los restos del árbol de aprendizaje. Contenido informativo de variables.
Árboles de clasificación en problemas de regresión.


11. Bosques al azar. Embolsado Parámetros clave del modelo. Error fuera de bolsa. Contenido informativo de variables. Análisis de muestras desequilibradas. Determinando el número de árboles.


12. Impulso. Máquina de refuerzo de gradiente. Parámetros clave del modelo.


Parte 2


1. El modelo neuronal. Función de activación. Redes de distribución directa (Red neuronal FeedForward). Arquitectura de red neuronal. Conectivismo (conexionismo).


2. Entrenamiento de la red neuronal. Error inverso de propagación. El método de descenso rápido (descenso de gradiente) y su generalización. Epochs y batch'i. Introducción a Keras y TensorFlow. Inicialización de pesos de redes neuronales. La estandarización de datos evita la saturación. Formación de redes neuronales de distribución directa. Optimización (optimizadores) en Keras. Fórmulas para correcciones de peso en el entrenamiento de una red neuronal. Un ejemplo de entrenamiento de una red neuronal.


3. Un ejemplo de entrenamiento de una red neuronal. Criterios de calidad en Keras. Inicialización de pesos de redes neuronales en Keras.


4. Redes neuronales para el pronóstico. Reducción del problema de pronóstico a un problema de regresión. Serie de pronósticos con un componente estacional.


5. Reconocimiento de imagen. Haar cascada para resaltar la cara en la imagen.
Convolución Capa de convolución Acolchado Zancada Pooling
Abandono y decorrelación. Entrenamiento adicional de redes neuronales. Ejemplo: reconocimiento de escritura a mano, primera solución.


6. Ejemplo: reconocimiento de dígitos escritos a mano, segunda solución. Augmentaiton. Arquitectura de red neuronal VGG-16. La regularización, su propósito. Regularización en análisis de regresión lineal. Ecuaciones normales de análisis de regresión lineal. Agregar un término de regularización a las ecuaciones normales. El papel especial de un miembro libre. Ejemplo: aproximación de puntos por un polinomio. Muestra de validación. Variantes del término de regularización (regresión de cresta, lazo, red elástica). ¿Por qué Lasso reduce los predictores?


7. Base teórica del método. Un ejemplo de resolución de un problema en Python usando XGboost. Muestras no balanceadas. Precisión, recuperación, F1. Contenido informativo de variables (Importancia). Selección de parámetros en XGboost.


8. Selección de parámetros en XGboost. GridSearch para seleccionar parámetros. Análisis factorial. Tareas resueltas por análisis factorial.


9. Modelos matemáticos para el análisis de los principales componentes y análisis factorial. Interpretación de factores. Un ejemplo de análisis factorial en Python. Cargas factoriales, etiquetas factoriales, su interpretación. Factores de rotación.


10. Un ejemplo de análisis factorial en Python.
Modelo matemático de descomposición SVD. Descomposición SVD y análisis de los componentes principales. Descomposición SVD como base del análisis semántico latente (LSA). SVD descomposición de una matriz de datos que contiene huecos. Simon's Funk Method Regularización en Simon's Funk Method. Descomposición SVD al construir un sistema de recomendación.


11. Características de la aplicación de descomposición SVD (Descomposición de valor singular) para datos con un gran número de lagunas. Calibración de clasificadores. Regresión isotónica Calibración Platt


12. Análisis de muestras desequilibradas. Precisión, precisión, recuperación, F1. Curva ROC (curva ROC) para determinar el valor umbral. Curva ROC para comparar clasificadores. Área bajo curva (AUC). Regresión logística

Source: https://habr.com/ru/post/438058/


All Articles