Vadim Leonardovich Abbakumov-博士教授CS中心的数据分析课程。 科学,他是Gazpromneft-Alternative Fuel的首席专家分析师。
讲座针对两类学生。 首先是新手分析师,他们发现很难开始学习例如《统计学习的要素》。 该课程将为他们进一步的工作做好准备。 第二是经验丰富的分析师,他们没有在数据分析领域接受过系统的培训。 他们可以填补知识空白。 从去年开始,该类一直在使用Python编程语言。
为了理解这些材料,一旦有足够的数学分析,线性代数和概率论以及Python语言的基础知识课程就足够了。
有一个不错的看法!
第一部分
1.描述性统计。 分位数,四分位数。 直方图。 核密度估计。
2.描述性统计。 留着小胡子的盒子。 排放物。 中位数和算术平均值是典型的观察结果。 散点图。 色散图矩阵。
条形图和饼图。
3.层次聚类分析。 群集,对象之间的距离,群集之间的距离。 建立树状图的算法。 岩石碎石/弯头。 数据标准化。 数据准备中的典型错误。 结果的解释。
4. k-均值法。 示例(省略理论部分)。
5.测试统计假设(理论介绍)。
假设,一致性,独立性,关于分布参数的假设。
第一类和第二类错误,p值和显着性水平,用于检验统计假设和结果解释的算法。 分布正态性的假设。 Shapiro-Wilk和Kolmogorov-Smirnov的标准。 与正常情况的微小偏差。 样品比较。 独立样本和配对样本。 在学生t检验,Mann-Whitney-Wilcoxon准则和Mood准则之间进行选择。 学生t准则的多样性和方差比较。 比较中的可视化。 单方面和双边测试。
独立性 皮尔逊,肯德尔和斯皮尔曼相关系数是研究两种现象之间关系的典型误差。 目视检查结果。
6.测试统计假设(Python过程)。
Shapiro-Wilk准则。 曼恩-惠特尼-威尔科森测试。 学生t检验。 Fligner-Kilin准则。
独立样本和配对样本。 卡方检验。 皮尔逊准则。
7. A / B测试。 测试比例。
8.线性回归分析。 模型,系数估计的解释,确定的多个系数。 解释确定系数的倍数,限制了其适用范围。 找出最重要的预测因素,并评估每个预测因素的贡献。 调整构造模型的算法。 共线性。
9.基于具有季节性指标(虚拟,结构性)变量的回归模型进行预测。 趋势,季节性因素,系列性质的变化,排放。 对数是一种将乘法季节性转换为加法的技术。
指标变量。 再培训。
有几个季节性因素的情况。
10.模式识别/分类。
内部和外部模型参数。
质量标准。 培训和测试样本。
CART分类树。 几何表示。 以一组逻辑规则的形式表示。 以树的形式呈现。 节点,父级和后代,端节点。 门槛 杂质测量:精灵,熵,分类错误。 规则是学习树的剩余部分。 变量的信息内容。
回归问题中的分类树。
11.随机森林。 套袋。 关键模型参数。 袋外错误。 变量的信息内容。 分析不平衡样品。 确定树的数量。
12.加强。 梯度提升机。 关键模型参数。
第二部分
1.神经元模型。 激活功能。 直接分销网络(前馈神经网络)。 神经网络架构。 连通主义(connectionism)。
2.神经网络训练。 反向错误传播。 快速下降的方法(梯度下降)及其推广。 时代和batch'i。 Keras和TensorFlow简介。 神经网络权重的初始化。 数据标准化可防止饱和。 直接分配神经网络训练。 Keras中的优化(optimizers)。 训练神经网络时的体重校正公式。 训练神经网络的示例。
3.训练神经网络的示例。 Keras的质量标准。 Keras中神经网络权重的初始化。
4.用于预测的神经网络。 将预测问题简化为回归问题。 具有季节性成分的预测序列。
5.图像识别。 Haar级联以突出图片中的脸部。
卷积 卷积层 填充。 大步走。 汇集。
辍学和去相关。 神经网络的额外训练。 示例:手写识别,第一种解决方案。
6.示例:手写数字识别,第二种解决方案。 Augmentaiton。 VGG-16神经网络架构。 正则化,其目的。 线性回归分析中的正则化。 线性回归分析的正态方程。 在正则方程中添加正则项。 自由成员的特殊角色。 示例:多项式逼近点。 验证样本。 正则化项的变体(岭回归,套索,弹性网)。 为什么套索减少预测因子
7.该方法的理论基础。 使用XGboost解决Python问题的示例。 样品不平衡。 精度,召回率,F1。 变量的信息内容(重要性)。 在XGboost中选择参数。
8.在XGboost中选择参数。 GridSearch用于选择参数。 因子分析。 通过因子分析解决任务。
9.数学模型的主要成分分析和因子分析。 解释因素。 Python中因子分析的示例。 因子负荷,因子标签及其解释。 旋转系数。
10. Python中因子分析的示例。
SVD分解的数学模型。 SVD的主要成分分解和分析。 SVD分解是潜在语义分析(LSA)的基础。 包含间隙的数据矩阵的SVD分解。 Simon's Funk方法的正则化。 构建推荐系统时,SVD分解。
11.具有大量空白的数据的SVD分解(奇异值分解)应用的特征。 分类器的校准。 等渗回归 普拉特校准
12.不平衡样品的分析。 精度,精确度,召回率,F1。 ROC曲线(ROC曲线)用于确定阈值。 ROC曲线,用于比较分类器。 曲线下面积(AUC)。 逻辑回归