"Análise de dados em Python" em duas partes

Os cursos de análise de dados no centro de CS são ministrados por Vadim Leonardovich Abbakumov - Ph.D. Ciências, ele trabalha como analista especialista chefe da Gazpromneft-Alternative Fuel.

As aulas são destinadas a duas categorias de estudantes. O primeiro são analistas iniciantes que acham difícil começar estudando, por exemplo, Os elementos do aprendizado estatístico. O curso irá prepará-los para trabalhos futuros. O segundo são analistas experientes que não receberam uma educação sistemática no campo da análise de dados. Eles podem preencher lacunas de conhecimento. Desde o ano passado, a turma usa a linguagem de programação Python.

Para entender o material, bastam cursos de análise matemática, álgebra linear e teoria das probabilidades e conhecimentos básicos da linguagem Python.

Tenha uma bela vista!

Parte 1


1. Estatística descritiva. Quantiles, quartis. Histogramas. Estimativas de densidade nuclear.


2. Estatística descritiva. Caixas com bigode. Emissões. Mediana e média aritmética como observações típicas. Gráfico de dispersão. Matriz de diagramas de dispersão.
Gráfico de barras e torta.


3. Análise hierárquica de agrupamentos. Cluster, distâncias entre objetos, distâncias entre conjuntos. Algoritmo para a construção de um dendograma. Seixos rochosos / cotovelo. Padronização de dados. Erros típicos na preparação de dados. Interpretação dos resultados.


4. O método k-means. Exemplos (a parte teórica da palestra é omitida).


5. Testar hipóteses estatísticas (introdução teórica).

Hipóteses de concordância, homogeneidade, independência, hipóteses sobre parâmetros de distribuição.
Erros do primeiro e do segundo tipo, valor de p e nível de significância, algoritmo para testar a hipótese estatística e interpretação dos resultados. A hipótese da normalidade da distribuição. Critérios de Shapiro-Wilk e Kolmogorov-Smirnov. Pequenos desvios da normalidade. Comparação de amostras. Amostras independentes e emparelhadas. A escolha entre teste t de Student, critério de Mann-Whitney-Wilcoxon e critério de Humor. Variedades dos critérios t de Student e comparação de variâncias. Visualização em comparações. Testes unilaterais e bilaterais.
Independência. Coeficientes de correlação de Pearson, Kendall e Spearman, erros típicos no estudo da relação entre os dois fenômenos. Inspeção visual dos achados.


6. Teste de hipóteses estatísticas (procedimentos Python).

Critério de Shapiro-Wilk. Teste de Mann-Whitney-Wilcoxon. Teste t de Student. Critério de Fligner-Kilin.

Amostras independentes e emparelhadas. Teste Qui-quadrado. Critério de Pearson.


7. Teste A / B. Teste de proporções.


8. Análise de regressão linear. Modelo, interpretação de estimativas de coeficientes, coeficiente múltiplo de determinação. Interpretação do coeficiente múltiplo de determinação, restrições ao escopo de sua aplicação. Identifique os preditores mais significativos e avalie a contribuição de cada preditor. Algoritmos para ajustar os modelos construídos. Colinearidade.


9. Previsão baseada em um modelo de regressão com variáveis ​​de indicador sazonal (fictício, estrutural). Tendência, componentes sazonais, mudança na natureza da série, emissões. O logaritmo é uma técnica para converter sazonalidade multiplicativa em aditiva.
Variáveis ​​indicadoras. Reciclagem.
O caso de vários componentes sazonais.


10. Reconhecimento / classificação de padrões.
Parâmetros do modelo, internos e externos.
Critérios de qualidade. Amostras de treinamento e teste.
Árvores de classificação do CART. A representação geométrica. Representação na forma de um conjunto de regras lógicas. Apresentação em forma de árvore. Nós, pais e descendentes, nós finais. Limiares Medidas de impureza: gênio, entropia, erros de classificação. As regras são os restos da árvore de aprendizado. Conteúdo informativo das variáveis.
Árvores de classificação em problemas de regressão.


11. florestas aleatórias. Bagging. Parâmetros-chave do modelo. Erro fora da bolsa. Conteúdo informativo das variáveis. Análise de amostras desequilibradas. Determinando o número de árvores.


12. Impulsionar. Máquina de aumento de gradiente. Parâmetros-chave do modelo.


Parte 2


1. O modelo do neurônio. Função de ativação. Redes de distribuição direta (Rede Neural FeedForward). Arquitetura de rede neural. Conectivismo (conexionismo).


2. Treinamento em rede neural. Propagação reversa de erros. O método de descida rápida (descida de gradiente) e sua generalização. Épocas e lotes. Introdução ao Keras e ao TensorFlow. Inicialização de pesos de redes neurais. A padronização de dados evita a saturação. Treinamento em rede neural de distribuição direta. Otimização (otimizadores) em Keras. Fórmulas para correções de peso no treinamento de uma rede neural. Um exemplo de treinamento de uma rede neural.


3. Um exemplo de treinamento de uma rede neural. Critérios de qualidade na Keras. Inicialização de pesos de redes neurais em Keras.


4. Redes neurais para previsão. Redução do problema de previsão para um problema de regressão. Série de previsão com um componente sazonal.


5. Reconhecimento de imagem. Cascata Haar para destacar o rosto na imagem.
Convolução Camada de convolução Padding. Stride. Pooling.
Abandono e decorrelação. Treinamento adicional de redes neurais. Exemplo: reconhecimento de escrita, primeira solução.


6. Exemplo: reconhecimento de dígitos manuscritos, segunda solução. Augmentaiton. Arquitetura de rede neural VGG-16. Regularização, seu objetivo. Regularização em análise de regressão linear. Equações normais da análise de regressão linear. Adicionando um termo de regularização às equações normais. O papel especial de um membro livre. Exemplo: aproximação de pontos por um polinômio. Amostra de validação. Variantes do termo de regularização (regressão de crista, laço, rede elástica). Por que o Lasso reduz os preditores


7. Base teórica do método. Um exemplo de solução de um problema no Python usando o XGboost. Amostras não balanceadas. Precisão, Lembre-se, F1. Conteúdo informativo das variáveis ​​(Importância). Seleção de parâmetros no XGboost.


8. Seleção de parâmetros no XGboost. GridSearch para selecionar parâmetros. Análise fatorial. Tarefas resolvidas por análise fatorial.


9. Modelos matemáticos para a análise dos principais componentes e análise fatorial. Interpretação de fatores. Um exemplo de análise fatorial em Python. Cargas fatoriais, rótulos fatoriais, sua interpretação. Fatores de rotação.


10. Um exemplo de análise fatorial em Python.
Modelo matemático de decomposição de SVD. Decomposição SVD e análise dos principais componentes. Decomposição de SVD como base da análise semântica latente (LSA). Decomposição SVD de uma matriz de dados contendo lacunas. Método de Funk de Simon Regularização no Método de Funk de Simon. Decomposição de SVD ao construir um sistema de recomendação.


11. Características da aplicação da decomposição SVD (Decomposição de Valor Singular) para dados com um grande número de lacunas. Calibração de classificadores. Regressão isotônica Calibração de Platt


12. Análise de amostras não balanceadas. Exatidão, precisão, recordação, F1. Curva ROC (curva ROC) para determinar o valor limite. Curva ROC para comparação de classificadores. Área sob curva (AUC). Regressão logística

Source: https://habr.com/ru/post/pt438058/


All Articles