Microsoft研究数据库现已向所有人开放

我们很高兴地告诉您,我们Microsoft研究部的同事发布了数据,这些数据是经过多年的整理和研究科学论文信息而获得的。 特别是,可以获得有关工程,计算机科学,计算机科学,数学,物理学,生物学,社会科学和自然科学的数据。 削减更多细节!



在过去的几年中,Microsoft Research Outreach团队一直在与科学界积极合作,以帮助研究人员对云基础架构进行研究。 一直以来,我们普遍观察到吉姆·格雷(Jim Gray)提出的第四项科学发现范式的相关性,该范式是基于对大量数据的研究,并且涉及几乎所有研究计划中每个数据成分的使用。 我们清楚地看到,要处理如此庞大的信息流,就需要在研究界规模上进行精选和分析的数据集,并且仅将其限制在计算机系统领域是不切实际的-必须涵盖跨学科和学科科学。

今天,我们很高兴推出Microsoft Research Open Data ,这是一个旨在促进全球研究人员之间的互动的新开源云存储库。 Microsoft Research Open Data是一个基于云的单一存储库,可以方便地访问数据集,这些数据集是Microsoft多年来监督和研究已发表科学论文中的信息而获得的。

我们为什么要投资这个项目


该项目的目的是为Microsoft研究人员和员工提供一个方便的平台,以共享配备了必要技术和工具的数据集。 Microsoft Research开放数据存储库旨在简化对数据的访问,促进研究人员使用云资源进行交互,并确保实验的可重复性。 我们将继续致力于知识库的形成和开发,并在社区反馈的指导下补充新功能。

我们知道今天有数十个数据存储库可供研究人员使用,我们希望Microsoft Research Open Data的功能可以补充现有存储库的功能。


1. Microsoft Research开放数据开放存储库中的数据集

“这是大数据世界的一个转折点。 诸如Microsoft Research Open Data之类的举措有助于减少共享信息的障碍,并通过云平台保持实验的可重复性。”
-指出麻省理工学院教授萨姆·马登(Sam Madden)。

鉴于数据呈指数级增长,预计到2025年其数据量将为150 ST。 这意味着今天我们必须特别注意数据处理问题,而不是通过互联网渠道进行传输的问题,因为互联网渠道的发展速度要慢得多。 我们相信处理数据的能力将带来真正的好处。 因此,用户不仅可以下载数据集,还可以将它们直接复制到基于Azure的Data Science虚拟机(请参见图2)。


2.将数据从microsoftopendata.com复制到Azure云中的Linux虚拟机

数据科学虚拟机已预先安装了受研究人员和从业人员欢迎的开发工具(请参见图3)。


3. Linux数据科学虚拟机

“经常有人要求我分享实验数据,所以我过去经常分享它们。 这是最流行的方式。 使用Azure在一个地方对数据集进行协调和分类将使内部和外部研究人员受益。 他们将能够轻松访问,交互和方便地使用Microsoft Research云中的大量开放数据。”
- 评论Microsoft Research AI首席研究员John Krumm。

Microsoft Research Open Data中的数据集是根据其核心研究领域分类的(请参见图4)。 使用数据集,您可以搜索研究项目和出版物的链接。 可以使用自动化工作流查看,下载可用数据集并将其直接复制到Azure订阅。 该存储库符合信息共享的最高标准,并保证数据集的可用性,兼容性和重用的可能性; 该案件中的个人信息丢失。 该站点将继续其工作,并将帮助收集用户评论。


4.数据集类别

Microsoft Research开放数据存储库是Microsoft Research Outreach Data研究计划的结果。 得益于许多Microsoft部门和研究人员,我们的行业合作伙伴和教育顾问的密切合作,这才得以实现。

我们很高兴收到您的意见和反馈! 使用网站上的反馈表给我们发送消息,并分享您的想法。

Source: https://habr.com/ru/post/zh-CN416451/


All Articles