机器学习数据集的选择

大家好

在您开始之前,是一篇文章指南,介绍了用于机器学习的开放数据集。 首先,我将收集其中一些有趣且新鲜的(相对)数据集。 另外,在文章结尾,我将在独立搜索数据集上附加有用的链接。

更少的单词,更多的数据。

图片

一系列用于机器学习的数据集:


  • 权力游戏中的数据死亡和战斗 -此数据集结合了三个数据源,每个数据源都基于一系列书籍中的信息。
  • 全球恐怖主义数据库 -1970-2017年,全球有180,000多起恐怖袭击。
  • 比特币,历史数据 -距离选定交易所1分钟间隔的比特币数据,2012年1月-2019年3月
  • FIFA 19全套球员数据 -18k + FIFA 19球员,〜90个属性,从最新的FIFA数据库中提取。
  • YouTube视频统计信息-YouTube上趋势视频的每日统计信息。
  • 1985年至2016自杀率调查 -按年份和国家/地区比较社会经济信息和自杀率。
  • 庞大的股市数据集 -所有美国股票和ETF的历史每日价格和交易量。
  • 世界发展指标 - 世界各国的发展指标。
  • 2017Kaggle机器学习和数据科学调查 -深入了解数据科学和机器学习的状态。
  • 暴力和武器数据 -2013-2018年间超过26万起美国武器事件的完整报告
  • 胸部X光片(肺炎) -5,863张图像,2类。
  • 语音识别性别 -根据语音和语音的声学特性,创建该数据库以将语音识别为男性还是女性。 数据集包含从男性和女性收集的3168个录制的语音样本。
  • 学生饮酒量 -数据是通过对高中数学和葡萄牙语课程学生的调查获得的。 它包含许多有关学生的有趣的社会,性别和教育信息。
  • 疟疾细胞数据集 -用于检测疟疾的细胞图像。
  • 青年人调查-有关青年人的偏好,兴趣,习惯,观点和恐惧的数据。
  • 世界大学排名 -探索世界上最好的大学。
  • 信用卡欺诈检测 -匿名信用卡交易被标记为欺诈或真实。
  • 数据集心脏病 -该数据库包含76个属性,例如年龄,性别,胸痛类型,静息血压等。
  • 欧洲足球基地 -欧洲职业足球的25,000场比赛,球员和球队的属性。
  • 酒评 -130k酒评,包括品种,位置,酒庄,价格和描述。
  • 百度Apolloscapes 。 大型数据集,用于识别26个语义上不同的对象,例如汽车,自行车,行人,建筑物,路灯等。
  • Comma.ai 。 在高速公路上开车超过七个小时。 数据集包括有关车辆速度,加速度,转向角和GPS坐标的信息。
  • 颜色识别 -该数据集包含4242张彩色图像。 数据收集基于模糊数据,Google图像,Yandex图像。
  • 每种加密货币的每日市场价格 -所有代币的历史加密货币价格。
  • 巧克力评级 -超过1,700块巧克力的专家评级。
  • 医疗保险市场 -美国医疗保险市场的健康和牙科计划数据。
  • 心跳声音 -用听诊器对心跳异常进行分类。
  • 动漫推荐数据库 -myanimelist.net上来自76,000位用户的推荐
  • 血细胞图像 -12,500张图像:4种不同类型的细胞。
  • 胸部X光片 -来自30,000多个独特患者的112,000多个胸部X光片。
  • 谋杀报告,1980-2014年-杀人责任项目是美国目前最全面的凶杀数据库。
  • 二手车数据库 -超过370,000辆二手车。 数据内容为德语,因此如果您不会说德语,则必须先将其翻译。
  • 美国政府开放数据中心 -用于进行研究,开发Web应用程序和移动应用程序,开发数据可视化的数据,工具和资源。
  • 国家中心慢性病预防和健康促进中心(NCCDPHP)。 该中心正在努力减少慢性病的危险因素。
  • 英国最大的社交,经济和人口统计资源集合。
  • EconData-数以千计的经济时间序列,由许多美国政府机构编写,并以各种格式和媒体进行分发。
  • 海岸研究中心 -有关海洋及其生物成分的有趣数据。 在这里,您可以从对红海模型的数据分析到对南加州狭窄架子上的温度和洋流的研究中找到数据集。
  • 手语数字数据集 -土耳其,安卡拉,艾兰吉,阿纳多卢。 高中手语数据集。
  • 优质红酒 -用于回归或分类建模的简单明了的实用数据集。
  • 电子表格英式足球超级联赛(1968-2019)。
  • HotspotQA数据集 -包含问题和答案的数据集,使您可以创建一个系统以更易于理解的方式回答问题。
  • xView-地球上最大的公开可用的航空影像集之一。 它包含来自世界各地的各种场景的图像,并带有边框。
  • Labelme-带有注释的大型图像数据集。
  • ImageNet-根据WordNet层次结构组织的用于新算法的图像数据集,其中成百上千个图像代表该层次结构的每个节点。
  • LSUN。 -图像数据集,分为场景和类别,并带有部分标记数据。
  • MS COCO-用于检测和分割对象的大规模数据集。
  • COIL100-在每个角度旋转中描绘100个不同的对象。
  • 视觉基因组 -数据集约10万。 详细的带注释的图像。
  • Google的开放图片。 -根据知识共享许可,包含900万个URL的图像URL的集合,这些图像“被标记了6,000多个类别”。
  • 带标签的野外面孔 -一组13,000张带有标记的人脸图像,用于涉及人脸识别技术的应用程序的使用。
  • 斯坦福犬数据集 -包含120种犬的20580张图像。
  • 室内场景识别。 -用于识别建筑物内部的数据集。 包含15,620张图像和67个类别。
  • 牛津的机器人车 -一年中拍摄的穿越牛津的一条路线的100多次重复。 天气条件,交通和行人的各种组合以及道路工程等更长的变化进入了数据集。
  • Cityscape数据集 -一个大型数据集,其中包含50个城市的一百个街道场景的记录。
  • KUL比利时交通标志数据集 - 比利时上万种不同交通信号灯的10,000多个注释。
  • LISA智能与安全汽车实验室 -具有路标,交通信号灯,公认的车辆和运动轨迹的数据集。
  • 博世小型交通信号灯数据集 -带24,000个带注释的交通信号灯的日期。
  • WPI数据集 -用于识别交通信号灯,行人和道路标记的数据集。
  • Berkeley DeepDrive-自动驾驶仪的巨大数据集。 它包含超过100,000个视频,在一天中的不同时间和不同的天气条件下,记录了1,100多个小时的行驶记录。
  • MIMIC-III-包含约40,000名重症监护患者健康状况的非个人数据的数据集(人口统计数据,生命体征,实验室检查和药物)。
  • 亚马逊评论 -包含18年以来来自亚马逊的约3500万条评论。 数据包括产品和用户信息,评分以及评论本身的文字。

搜索数据集的有用链接:


  • 当然, Kaggle-所有机器学习比赛爱好者的聚会场所。
  • Google数据集搜索 -搜索整个Internet上的数据集。 另外,如有必要,您可以添加自己的数据集
  • 机器学习存储库 -机器学习社区用来对机器学习算法进行实证分析的一组数据库,领域理论和数据生成器。
  • VisualData-机器视觉的数据集搜索,具有按类别方便的分类。
  • DATA USA-完整的美国公开数据集,包括可视化,描述和信息图表。

在此基础上,我们的简短选择结束了。 如果有人要添加或共享内容,请在评论中写。

谢谢!

Source: https://habr.com/ru/post/zh-CN452740/


All Articles