Les bases de données de recherche Microsoft désormais accessibles à tous

Nous sommes heureux de vous informer que nos collègues de la division Microsoft Research ont publié des données obtenues à la suite de nombreuses années de travail dans la conservation et l'étude d'informations provenant d'articles scientifiques. En particulier, des données sur l'ingénierie, l'informatique, l'informatique, les mathématiques, la physique, la biologie, les sciences sociales et naturelles sont devenues disponibles. Plus de détails sous la coupe!



Au cours des dernières années, l'équipe Microsoft Research Outreach a collaboré activement avec la communauté scientifique pour aider les chercheurs à mener des recherches sur l'infrastructure cloud. Pendant tout ce temps, nous avons universellement observé la pertinence du quatrième paradigme des découvertes scientifiques proposé par Jim Gray, qui est basé sur l'étude de grands volumes de données et implique l'utilisation de composants de données de chacun d'eux dans presque tous les programmes de recherche. Nous avons clairement vu que pour traiter un flux d'informations aussi vaste, des ensembles de données conservés et analysés sont nécessaires à l'échelle de la communauté de la recherche, et il n'est pas pratique de se limiter uniquement au domaine des systèmes informatiques - il est nécessaire de couvrir les sciences interdisciplinaires et thématiques.

Aujourd'hui, nous sommes heureux de présenter Microsoft Research Open Data , le nouveau référentiel cloud open source conçu pour faciliter l'interaction des chercheurs du monde entier. Microsoft Research Open Data, un référentiel unique basé sur le cloud, fournit un accès pratique aux ensembles de données obtenus à la suite des nombreuses années de travail de Microsoft dans la supervision et l'étude des informations provenant d'articles scientifiques publiés.

Pourquoi investissons-nous dans ce projet


L'objectif du projet est de fournir aux chercheurs et aux employés de Microsoft une plateforme pratique pour partager des ensembles de données équipés des technologies et outils nécessaires. Le référentiel Open Research de Microsoft Research est conçu pour simplifier l'accès aux données, faciliter l'interaction des chercheurs à l'aide des ressources cloud et garantir la reproductibilité des expériences. Nous continuerons à travailler sur la formation et le développement de notre référentiel et à le compléter avec de nouvelles fonctions, guidées par les retours de la communauté.

Nous savons que des dizaines de référentiels de données sont disponibles pour les chercheurs aujourd'hui, et nous espérons que les capacités de Microsoft Research Open Data compléteront les fonctionnalités des référentiels existants.


Fig. 1. Ensemble de données dans le référentiel ouvert Microsoft Research Open Data

«C'est un tournant dans le monde du big data. Des initiatives telles que Microsoft Research Open Data contribuent à réduire les obstacles au partage d'informations et à maintenir la reproductibilité des expériences sur les plateformes cloud. »
- note Sam Madden (Sam Madden), professeur au Massachusetts Institute of Technology.

Compte tenu de la croissance exponentielle des données, il est prévu que d'ici 2025 leur volume sera de 150 ST. Cela signifie qu'aujourd'hui, nous devons accorder une attention particulière aux problèmes de traitement des données, et non aux problèmes de leur transmission via les canaux Internet, qui se développent beaucoup plus lentement. Nous pensons que la capacité de traiter des données apportera de réels avantages. Par conséquent, les utilisateurs peuvent non seulement télécharger des ensembles de données, mais également les copier directement sur la machine virtuelle Data Science basée sur Azure (voir figure 2).


Fig. 2. Données copiées de microsoftopendata.com vers une machine virtuelle Linux dans le cloud Azure

La machine virtuelle Data Science possède des outils de développement préinstallés populaires auprès des chercheurs et des praticiens (voir figure 3).


Fig. 3. Machine virtuelle de science des données Linux

«On me demande souvent de partager des données expérimentales, alors je les partageais. C'était le moyen le plus populaire. La coordination et le catalogage des ensembles de données en un seul endroit avec Azure bénéficieront aux chercheurs internes et externes. Ils pourront facilement accéder, interagir et utiliser facilement les vastes données ouvertes dans le cloud de Microsoft Research. "
- Commentaires John Krumm, chercheur principal chez Microsoft Research AI.

Les jeux de données dans Microsoft Research Open Data sont classés en fonction de leur domaine de recherche principal (voir la figure 4). À l'aide d'ensembles de données, vous pouvez rechercher des liens vers des projets de recherche et des publications. Les ensembles de données disponibles peuvent être affichés, téléchargés et copiés directement dans un abonnement Azure à l'aide d'un flux de travail automatisé. Le référentiel répond aux normes les plus élevées de partage d'informations et garantit la disponibilité des ensembles de données, leur compatibilité et la possibilité de réutilisation; des informations personnelles dans le dossier sont manquantes. Le site poursuivra son travail et aidera à recueillir les avis des utilisateurs.


Fig. 4. Catégories d'ensembles de données

Le référentiel Microsoft Research Open Data est né du programme de recherche Microsoft Research Outreach Data. Cela a été rendu possible grâce à l'étroite collaboration de nombreuses divisions et chercheurs de Microsoft, de nos partenaires industriels et de consultants pédagogiques.

Nous serons heureux de recevoir vos commentaires et retours! Envoyez-nous un message en utilisant le formulaire de commentaires sur le site et partagez vos réflexions.

Source: https://habr.com/ru/post/fr416451/


All Articles