Las bases de datos de Microsoft Research ahora están disponibles para todos

Nos complace informarle que nuestros colegas de la división de Investigación de Microsoft publicaron datos obtenidos como resultado de muchos años de trabajo en la curaduría y el estudio de información de artículos científicos. En particular, se pusieron a disposición datos sobre ingeniería, informática, informática, matemáticas, física, biología, ciencias sociales y naturales. Más detalles debajo del corte!



En los últimos años, el equipo de Microsoft Research Outreach ha colaborado activamente con la comunidad científica para ayudar a los investigadores a realizar investigaciones sobre la infraestructura de la nube. Todo este tiempo, observamos universalmente la relevancia del cuarto paradigma de descubrimientos científicos propuesto por Jim Gray, que se basa en el estudio de grandes volúmenes de datos e implica el uso de componentes de datos de cada uno de ellos en casi todos los programas de investigación. Vimos claramente que para procesar un flujo de información tan vasto, se necesitan conjuntos de datos seleccionados y analizados en la escala de la comunidad investigadora, y no es práctico limitarse solo al campo de los sistemas informáticos; es necesario cubrir las ciencias interdisciplinarias y temáticas.

Hoy nos complace presentar Microsoft Research Open Data , el nuevo repositorio en la nube de código abierto diseñado para facilitar la interacción de los investigadores de todo el mundo. Microsoft Research Open Data, un repositorio único basado en la nube, proporciona un acceso conveniente a los conjuntos de datos obtenidos como resultado de los muchos años de trabajo de Microsoft en la supervisión y el estudio de la información de artículos científicos publicados.

¿Por qué invertimos en este proyecto?


El objetivo del proyecto es proporcionar a los investigadores y empleados de Microsoft una plataforma conveniente para compartir conjuntos de datos equipados con las tecnologías y herramientas necesarias. El repositorio de datos abiertos de Microsoft Research está diseñado para simplificar el acceso a los datos, facilitar la interacción de los investigadores que utilizan recursos en la nube y garantizar la reproducibilidad de los experimentos. Continuaremos trabajando en la formación y desarrollo de nuestro repositorio y lo complementaremos con nuevas funciones, guiados por los comentarios de la comunidad.

Sabemos que hoy en día hay docenas de repositorios de datos disponibles para los investigadores, y esperamos que las capacidades de Microsoft Research Open Data complementen la funcionalidad de los repositorios existentes.


Fig. 1. Conjunto de datos en el repositorio abierto de datos abiertos de Microsoft Research

“Este es un punto de inflexión en el mundo del big data. Iniciativas como Microsoft Research Open Data ayudan a reducir las barreras para compartir información y mantener la reproducibilidad del experimento a través de plataformas en la nube ".
- señala Sam Madden (Sam Madden), profesor del Instituto de Tecnología de Massachusetts.

Dado el crecimiento exponencial de los datos, se espera que para 2025 su volumen sea de 150 ST. Esto significa que hoy debemos prestar especial atención a los problemas de procesamiento de datos, y no a los problemas de su transmisión a través de canales de Internet, que se están desarrollando mucho más lentamente. Creemos que la capacidad de procesar datos traerá beneficios reales. Por lo tanto, los usuarios no solo pueden descargar conjuntos de datos, sino también copiarlos directamente a la máquina virtual Data Science basada en Azure (consulte la Figura 2).


Fig. 2. Datos copiados de microsoftopendata.com a una máquina virtual Linux en la nube de Azure

La máquina virtual Data Science tiene herramientas de desarrollo preinstaladas, populares entre los investigadores y profesionales (ver Figura 3).


Fig. 3. Máquina virtual de Linux Data Science

“A menudo se me pide que comparta datos experimentales, así que solía compartirlos. Esta fue la forma más popular. La coordinación y catalogación de conjuntos de datos en un solo lugar con Azure beneficiará a los investigadores internos y externos. Podrán acceder fácilmente, interactuar y usar convenientemente los vastos datos abiertos en la nube de Microsoft Research ".
- Comentarios John Krumm, investigador principal de Microsoft Research AI.

Los conjuntos de datos en Microsoft Research Open Data se clasifican de acuerdo con su área de investigación principal (consulte la Figura 4). Usando conjuntos de datos, puede buscar enlaces a proyectos de investigación y publicaciones. Los conjuntos de datos disponibles se pueden ver, descargar y copiar directamente a una suscripción de Azure mediante un flujo de trabajo automatizado. El repositorio cumple con los más altos estándares de intercambio de información y garantiza la disponibilidad de conjuntos de datos, su compatibilidad y la posibilidad de reutilización; falta información personal en el caso. El sitio continuará su trabajo y ayudará a recopilar opiniones de los usuarios.


Fig. 4. Categorías de conjuntos de datos

El repositorio de datos abiertos de Microsoft Research surgió como resultado del programa de investigación de Microsoft Research Outreach Data. Esto fue posible gracias a la estrecha colaboración de muchas divisiones e investigadores de Microsoft, nuestros socios de la industria y consultores educativos.

Estaremos encantados de recibir sus comentarios y opiniones! Envíenos un mensaje utilizando el formulario de comentarios en el sitio y comparta sus pensamientos.

Source: https://habr.com/ru/post/es416451/


All Articles