您好读者。
在我
第一篇选择用于机器学习的数据集的脚步中,我将选择一些相对较新的数据集,并提供数据处理的工作示例。 毕竟,对每个人来说,学习良好的榜样会更有效,更快捷,这并不是什么秘密。 让我们看看对我们来说有趣的是,它将能够展示一些最佳数据处理示例。
处理当前帖子的方案将从我
关于ML和DS最佳笔记本的帖子中继承而来,即保存到书签→转移给同事。
+文章结尾有加分-FPMI MIPT提供了很酷的课程。

因此,让我们开始吧。
带有数据处理工作示例的数据集的选择:
1985年至2016年
自杀率概述 -按年份和国家比较社会经济信息和自杀率。
处理示例:
Spotify的全球每日歌曲排名是Spotify用户在2017年和2018年对53个国家/地区中200首收听次数最多的歌曲的每日排名。
处理示例:
波士顿的犯罪-波士顿犯罪事件报告系统的记录,其中包括事件以及发生时间和地点的信息。
处理示例:
Google Play商店应用 -所有Google Play应用的类别,等级和大小。
处理示例:
神奇宝贝用于数据挖掘和机器学习 -
神奇宝贝的统计数据和功能;
处理示例:
百万新闻头条 -过去15年间发布的
新闻头条提供的数据。
处理示例:
自1908年
以来发生的飞机失事-从1908年至今的全球空难的完整历史。
处理示例:
讽刺检测的
新闻头条数据集是用于讽刺检测的高质量数据集。
处理示例:
历史空气质量 -在整个美国的室外监视器上收集的
空气质量数据。
处理示例:
麦当劳菜单的营养成分 -麦当劳美国每个菜单项的
营养成分 。
处理示例:
乐高数据库 -可复制数据库中每个官方乐高套装的详细信息/集/颜色和库存。
处理示例:
全球商品贸易统计 -过去30年中,世界上大多数国家/地区的5,000种产品的进出口量。
处理示例:
印度犯罪 -自2001年以来在印度犯罪的各个方面的完整信息。
处理示例:
预测脉冲星 -宇宙调查期间收集的脉冲星数据。
处理示例:
法国的就业,工资,每个城镇的人口 -数据显示法国的平等与不平等。
处理示例:
美国人口普查 -美国人口普查。
处理示例:
加州房屋价格 -
加州房屋价格 。
处理示例:
1990 -
2016年美国
各县失业率 -美国劳工部失业数据。
处理示例:
魔兽世界头像历史 -一组记录,详细记录了游戏中玩家角色的信息。
处理示例:
重力波发现数据 -重力波GW150914事件的数据。
处理示例:
加分
今天的奖金是一门
很棒的深度学习课程,专门为对编程和数学感兴趣的高中生以及想开始深度学习的学生而设计。
本课程的目的是以交互形式并以实际任务为例介绍深度学习(神经网络)的基本原理。
课程计划
- Python:基础知识,Google Colab;
- 线性代数入门。 向量。 矩阵及其运算。 NumPy库;
- 熊猫和MatPlotlib库。 机器学习的基础;
- 优化理论要素。 渐变色 梯度下降。 线性模型;
- 深度学习简介。 感知器。 具有乙状结肠(和其他激活功能)的神经元。 Python的OOP基础知识;
- PyTorch库。 多层神经网络;
- 在实践中训练神经网络。 Cifar10,不是MNIST;
- 卷积神经网络。 卷积层。 池化层;
- 训练神经网络的实践。 道路标志的分类;
- 转移学习。 在计算机视觉架构中很受欢迎;
- 图像分割。 网络
- Kaggle比赛;
- 物体检测 YOLOv3;
- 经典GAN。 神经风格转换;
- 基本的文字处理方法;
- 词嵌入
- 递归神经网络;
- LSTM,GRU细胞;
- 语言模型;
- 机器翻译
- Text2Speech;
- 超分辨率。
您还可以查看深度学习学校的
YouTube频道 。 有很多很棒的视频;)
这样一来,我们对数据处理示例的简短选择就告一段落。 希望您自己学到了一些新知识。 按照哈布雷(Habré)的习惯,我喜欢这个职位-加一个加号。 不要忘记与同事分享。 另外,如果您有什么可以分享的内容,请在评论中写。 有关
Habré和电报频道
Neuron (@neurondata)上有关机器学习和数据科学的更多信息。
所有的知识!