一系列机器学习数据集

读者好!

这是有关用于机器学习的开放数据集的文章指南。 在本文中,对于初学者来说,我将收集一系列有趣且新鲜的(相对) 数据集 。 另外,在文章结尾,我将附上有用的链接,用于自助搜索数据集。

更少的单词,更多的数据。

图片

一系列用于机器学习的数据集:


  • 权力游戏的死亡与战斗 -该数据集结合了三个数据源,每个数据源都基于一系列书籍中的信息。
  • 全球恐怖主义数据库 -1970-2017年,全球有180,000多起恐怖袭击。
  • 比特币,历史数据 -距离选定交易所1分钟间隔的比特币数据,2012年1月至2019年3月。
  • FIFA 19完整球员数据集 -18k + FIFA 19球员,从最新FIFA数据库中检索到的〜90个属性。
  • YouTube视频统计信息-YouTube视频的每日趋势统计信息。
  • 1985年至2016自杀指标概述 -按年份和国家/地区比较社会经济信息和自杀率。
  • 巨大的股票市场数据集 -所有美国股票和ETF的历史每日价格和交易量。
  • 世界发展指标- 世界各国的发展指标。
  • 2017Kaggle机器学习和数据科学调查 -深入了解数据科学和机器学习的状态。
  • 暴力和武器数据 -2013-2018年超过260,000件美国武器事件的完整报告。
  • 胸部X光片(肺炎) -5,863张图像,2类。
  • 通过语音进行语音识别 -创建此数据库是根据语音和语音的声学特性将语音识别为男性还是女性。 该数据集包含从男性和女性那里收集的3168个录制的语音样本。
  • 学生饮酒量 -数据来自对高中课程中数学和葡萄牙语学生的一项调查。 它包含许多有关学生的有趣的社会,性别和教育信息。
  • 疟疾细胞数据集 -用于检测疟疾的细胞图像。
  • 青年人调查-有关青年人的偏好,兴趣,习惯,观点和恐惧的数据。
  • 世界大学排名 -探索世界上最好的大学。
  • 信用卡欺诈检测 -标记为欺诈或真实的匿名信用卡交易数据集。
  • 心脏病日期 -该数据库包含76个属性,例如年龄,性别,胸痛类型,静息血压等。
  • 欧洲足球基地 -欧洲职业足球的25,000多次比赛,球员和球队的属性。
  • 酒评 -130k酒评,包括品种,位置,酒庄,价格和描述。
  • 百度Apolloscapes 。 大型数据集,用于识别26个语义上不同的对象,例如汽车,自行车,行人,建筑物,路灯等。
  • Comma.ai 。 在高速公路上超过七个小时。 该数据集包括有关车速,加速度,转向角和GPS坐标的信息。
  • 颜色识别 -此数据集包含4242张彩色图像。 数据收集基于模糊数据,Google图像,Yandex图像。
  • 每种加密货币的每日市场价格是所有代币的历史加密货币价格。
  • 巧克力评级 -超过1,700块巧克力的专家评级。
  • 健康保险市场 -有关美国健康保险市场中健康和牙科计划的数据。
  • 心跳声音 -根据听诊器对心跳异常的分类。
  • 动漫推荐数据库 -myanimelist.net上来自76,000位用户的推荐
  • 血细胞图像 -12,500张图像:4种不同类型的细胞。
  • 胸部X光检查 -来自30,000多个独特患者的112,000多个胸部X光片。
  • 谋杀报告1980-2014 -杀人责任项目是美国目前最全面的杀人数据库。
  • 二手车数据库 -超过370,000辆二手车。 数据的内容是德语,因此如果您不会说德语,则需要先将其翻译。
  • 美国政府开放数据中心 -用于研究,Web和移动应用程序开发以及数据可视化的数据,工具和资源。
  • 国家慢性病预防和健康促进中心(NCCDPHP)。 该中心正在努力减少慢性病的危险因素。
  • 英国最大的社会,经济和人口资源收藏。
  • EconData-几千个经济时间序列,由许多美国政府机构编写,并以各种格式和媒体进行分发。
  • 沿海研究中心 -有关海洋及其生物成分的有趣数据。 在这里,您可以找到数据集,范围从对红海模型的数据分析到对加利福尼亚南部狭窄架子的温度和洋流的研究。
  • 手语数字数据集 -土耳其,安卡拉,艾兰吉,阿纳多卢。 高中手语数据集。
  • 红酒的质量是用于回归或分类建模的简单易懂的实用数据集。
  • 英超足球联赛表(1968-2019)。
  • HotspotQA数据集 -包含问题和答案的数据集,可让您创建用于以更易理解的方式回答问题的系统。
  • xView是地球上最大的公开可用的航空影像集之一。 它包含来自世界各地的各种场景的图像,并使用边框进行了注释。
  • Labelme-带批注图像的大型数据集。
  • ImageNet-根据WordNet层次结构组织的用于新算法的图像数据集,其中成千上万的图像表示层次结构中的每个节点。
  • LSUN。 -按场景和类别细分的图像数据集,并带有部分数据标记。
  • MS COCO是用于检测和分割对象的大规模数据集。
  • COIL100-100个不同的对象,以圆周旋转的每个角度进行描绘。
  • 视觉基因组 -具有约10万个详细带注释图像的数据集。
  • Google的开放图片。 -根据知识共享许可协议,收集了900万个图像网址“已被标记超过6,000个类别”。
  • 带标签的野外面孔 -收集了13,000张带标签的人脸图像,以使用涉及人脸识别技术的应用程序。
  • 斯坦福犬数据集 -包含120种犬的20580张图像。
  • 室内场景识别。 -用于识别建筑物内部的数据集。 包含15620张图像和67个类别。
  • 牛津的机器人车 -一年中捕获的一条牛津路线的重复次数超过100。 天气条件,交通和行人的不同组合以及道路工程等长期变化进入了数据集。
  • 城市景观数据集是一个大型数据集,其中包含50个城市的一百个街道场景的记录。
  • KUL比利时交通标志数据集 - 比利时数千种不同交通信号灯的10,000多个注释。
  • LISA智能与安全汽车实验室 -具有交通标志,交通信号灯,可识别的车辆和轨迹的数据集。
  • Bosch Small Traffic Light Dataset-具有24,000个带注释的交通灯的数据集。
  • WPI数据集 -用于识别交通信号灯,行人和道路标记的数据集。
  • Berkeley DeepDrive-自动驾驶仪的巨大数据集。 它包含超过100,000个视频,在一天中的不同时间和不同的天气条件下,记录了1,100多个小时的行车记录。
  • MIMIC-III-具有匿名健康数据的数据集,约有40,000名正在接受重症监护的患者(人口统计学数据,生命体征,实验室检查和药物)。
  • 亚马逊评论 -包含18年来来自亚马逊的约3500万条评论。 数据包括产品和用户信息,评级以及评论文本本身。

查找数据集的有用链接:


  • 当然, Kaggle是所有机器学习竞赛爱好者的聚会场所。
  • Google数据集搜索 -跨Internet搜索数据集。 另外,如有必要,您可以添加自己的数据集
  • 机器学习存储库是一组数据库,主题理论和数据生成器,供机器学习社区用来凭经验分析机器学习算法。
  • VisualData-使用方便的分类搜索机器视觉的数据集。
  • DATA USA-来自美国c可视化,描述和信息图表的一整套公开可用数据。

在此,我们的简短选择结束了。 如果某人有补充或分享的内容-在评论中写。

所有的知识!
订阅Telegram (@neurondata)中的Neuron频道-每周都会有来自数据科学领域的新鲜文章和新闻出现。 感谢所有提供有用链接的人,尤其是Igor Mariarty,Andrey Bondarenko和Matvey Kochergin。

Source: https://habr.com/ru/post/zh-CN452392/


All Articles