Temos o prazer de informar que nossos colegas da divisão Microsoft Research publicaram dados obtidos como resultado de muitos anos de trabalho em curadoria e estudo de informações de artigos científicos. Em particular, foram disponibilizados dados sobre engenharia, ciência da computação, ciência da computação, matemática, física, biologia, ciências sociais e naturais. Mais detalhes sob o corte!

Nos últimos anos, a equipe do Microsoft Research Outreach tem colaborado ativamente com a comunidade científica para ajudar os pesquisadores a realizar pesquisas na infraestrutura de nuvem. Durante todo esse tempo, observamos universalmente a relevância do quarto paradigma de descobertas científicas proposto por Jim Gray, que se baseia no estudo de grandes volumes de dados e envolve o uso de componentes de dados de cada um deles em quase todos os programas de pesquisa. Vimos claramente que, para processar um fluxo tão vasto de informações, são necessários conjuntos de dados com curadoria e análise na escala da comunidade de pesquisa, e é impraticável limitar-se apenas ao campo dos sistemas de computador - é necessário cobrir as ciências interdisciplinares e do sujeito.
Hoje, temos o prazer de apresentar o
Microsoft Research Open Data , o novo repositório de nuvem de código aberto desenvolvido para facilitar a interação de pesquisadores em todo o mundo. O Microsoft Research Open Data, um único repositório baseado em nuvem, fornece acesso conveniente aos conjuntos de dados obtidos como resultado dos muitos anos de trabalho da Microsoft na supervisão e no estudo de informações de artigos científicos publicados.
Por que investimos nesse projeto
O objetivo do projeto é fornecer aos pesquisadores e funcionários da Microsoft uma plataforma conveniente para compartilhar conjuntos de dados equipados com as tecnologias e ferramentas necessárias. O repositório de dados abertos da pesquisa da Microsoft foi projetado para simplificar o acesso aos dados, facilitar a interação dos pesquisadores usando os recursos da nuvem e garantir a reprodutibilidade das experiências. Continuaremos a trabalhar na formação e desenvolvimento de nosso repositório e complementá-lo com novas funções, guiadas pelo feedback da comunidade.
Sabemos que hoje existem dezenas de repositórios de dados para pesquisadores e esperamos que os recursos do Microsoft Research Open Data complementem a funcionalidade dos repositórios existentes.
Fig. 1. Conjunto de dados no Repositório Aberto de Dados Abertos da Microsoft Research“Este é um ponto de virada no mundo do big data. Iniciativas como o Microsoft Research Open Data ajudam a reduzir as barreiras ao compartilhamento de informações e manter a reprodutibilidade do experimento por meio de plataformas em nuvem. ”
- observa Sam Madden (Sam Madden), professor do Instituto de Tecnologia de Massachusetts.
Dado o crescimento exponencial dos dados, espera-se que até 2025 seu volume seja de 150 ST. Isso significa que hoje devemos prestar atenção especial às questões de processamento de dados, e não aos problemas de sua transmissão via canais da Internet, que estão se desenvolvendo muito mais lentamente. Acreditamos que a capacidade de processar dados trará benefícios reais. Portanto, os usuários podem não apenas baixar conjuntos de dados, mas também copiá-los diretamente para a máquina virtual Data Science baseada no Azure (consulte a Figura 2).
Fig. 2. Dados copiados do microsoftopendata.com para uma máquina virtual Linux na nuvem do AzureA máquina virtual da Data Science possui ferramentas de desenvolvimento pré-instaladas, populares entre pesquisadores e profissionais (veja a Figura 3).
Fig. 3. Máquina Virtual de Ciência de Dados Linux“Muitas vezes me pedem para compartilhar dados experimentais, então eu os compartilhava. Essa foi a maneira mais popular. Coordenar e catalogar conjuntos de dados em um só lugar com o Azure beneficiará pesquisadores internos e externos. Eles poderão acessar, interagir e usar com facilidade os vastos dados abertos na nuvem da Microsoft Research ".
- Comentários John Krumm, pesquisador principal da Microsoft Research AI.
Os conjuntos de dados no Microsoft Research Open Data são classificados de acordo com sua área de pesquisa principal (veja a Figura 4). Usando conjuntos de dados, você pode procurar links para projetos de pesquisa e publicações. Os conjuntos de dados disponíveis podem ser visualizados, baixados e copiados diretamente para uma assinatura do Azure usando um fluxo de trabalho automatizado. O repositório atende aos mais altos padrões de compartilhamento de informações e garante a disponibilidade dos conjuntos de dados, sua compatibilidade e a possibilidade de reutilização; faltam informações pessoais no caso. O site continuará seu trabalho e ajudará na coleta de análises de usuários.
Fig. 4. Categorias de conjuntos de dadosO repositório Microsoft Research Open Data surgiu como resultado do programa de pesquisa Microsoft Research Outreach Data. Isso foi possível graças à estreita colaboração de muitas divisões e pesquisadores da Microsoft, nossos parceiros do setor e consultores educacionais.
Teremos o maior prazer em receber seus comentários e feedback! Envie-nos uma mensagem usando o formulário de feedback no
site e compartilhe suas opiniões.