Wir freuen uns, Ihnen mitteilen zu können, dass unsere Kollegen aus der Microsoft Research-Abteilung Daten veröffentlicht haben, die aus langjähriger Arbeit in der Kuration und Untersuchung von Informationen aus wissenschaftlichen Arbeiten stammen. Insbesondere wurden Daten zu Ingenieurwissenschaften, Informatik, Informatik, Mathematik, Physik, Biologie, Sozial- und Naturwissenschaften verfügbar. Weitere Details unter dem Schnitt!

In den letzten Jahren hat das Microsoft Research Outreach-Team aktiv mit der wissenschaftlichen Gemeinschaft zusammengearbeitet, um Forschern bei der Erforschung der Cloud-Infrastruktur zu helfen. Während dieser ganzen Zeit haben wir allgemein die Relevanz des von Jim Gray vorgeschlagenen vierten Paradigmas wissenschaftlicher Entdeckungen beobachtet, das auf der Untersuchung großer Datenmengen basiert und die Verwendung von Datenkomponenten jeder dieser Daten in fast allen Forschungsprogrammen beinhaltet. Wir haben deutlich gesehen, dass für die Verarbeitung eines so großen Informationsflusses kuratierte und analysierte Datensätze auf der Ebene der Forschungsgemeinschaft erforderlich sind und es unpraktisch ist, sich nur auf den Bereich der Computersysteme zu beschränken - es ist notwendig, interdisziplinäre und fachliche Wissenschaften abzudecken.
Heute freuen wir uns,
Microsoft Research Open Data vorstellen zu können, das neue Open-Source-Cloud-Repository, das die Interaktion von Forschern auf der ganzen Welt erleichtern soll. Microsoft Research Open Data, ein einziges Cloud-basiertes Repository, bietet bequemen Zugriff auf Datensätze, die aufgrund der langjährigen Arbeit von Microsoft bei der Überwachung und Untersuchung von Informationen aus veröffentlichten wissenschaftlichen Veröffentlichungen erhalten wurden.
Warum investieren wir in dieses Projekt?
Ziel des Projekts ist es, Microsoft-Forschern und -Mitarbeitern eine bequeme Plattform für den Austausch von Datensätzen zu bieten, die mit den erforderlichen Technologien und Tools ausgestattet sind. Das Microsoft Research Open Data-Repository soll den Zugriff auf Daten vereinfachen, die Interaktion von Forschern mithilfe von Cloud-Ressourcen erleichtern und die Reproduzierbarkeit von Experimenten sicherstellen. Wir werden weiterhin an der Bildung und Entwicklung unseres Repositorys arbeiten und es durch neue Funktionen ergänzen, die von Community-Feedback geleitet werden.
Wir wissen, dass Forschern heute Dutzende von Datenrepositorys zur Verfügung stehen, und wir hoffen, dass die Funktionen von Microsoft Research Open Data die Funktionalität bestehender Repositorys ergänzen.
Abb. 1. Datensatz im Open Research Open Repository von Microsoft Research„Dies ist ein Wendepunkt in der Welt der Big Data. Initiativen wie Microsoft Research Open Data tragen dazu bei, Hindernisse für den Informationsaustausch abzubauen und die Reproduzierbarkeit von Experimenten über Cloud-Plattformen zu gewährleisten. “
- stellt fest, dass Sam Madden (Sam Madden), Professor am Massachusetts Institute of Technology.
Angesichts des exponentiellen Datenwachstums wird erwartet, dass ihr Volumen bis 2025 150 ST betragen wird. Dies bedeutet, dass wir heute besonders auf Datenverarbeitungsprobleme achten müssen und nicht auf die Probleme ihrer Übertragung über Internetkanäle, die sich viel langsamer entwickeln. Wir glauben, dass die Fähigkeit, Daten zu verarbeiten, echte Vorteile bringt. Daher können Benutzer Datasets nicht nur herunterladen, sondern auch direkt auf die virtuelle Azure-basierte Data Science-Maschine kopieren (siehe Abbildung 2).
Abb. 2. Daten, die von microsoftopendata.com auf eine virtuelle Linux-Maschine in der Azure-Cloud kopiert wurdenDie virtuelle Data Science-Maschine verfügt über vorinstallierte Entwicklungstools, die bei Forschern und Praktikern beliebt sind (siehe Abbildung 3).
Abb. 3. Virtuelle Linux Data Science-Maschine„Ich werde oft gebeten, experimentelle Daten zu teilen, deshalb habe ich sie immer geteilt. Dies war der beliebteste Weg. Das Koordinieren und Katalogisieren von Datensätzen an einem Ort mit Azure kommt sowohl internen als auch externen Forschern zugute. Sie können problemlos auf die riesigen offenen Daten in der Cloud von Microsoft Research zugreifen, diese interagieren und diese bequem nutzen. "
- Kommentare John Krumm, Hauptforscher bei Microsoft Research AI.
Datensätze in Microsoft Research Open Data werden nach ihrem Kernforschungsbereich klassifiziert (siehe Abbildung 4). Mithilfe von Datensätzen können Sie nach Links zu Forschungsprojekten und Veröffentlichungen suchen. Verfügbare Datasets können mithilfe eines automatisierten Workflows angezeigt, heruntergeladen und direkt in ein Azure-Abonnement kopiert werden. Das Repository erfüllt die höchsten Standards für den Informationsaustausch und garantiert die Verfügbarkeit von Datensätzen, deren Kompatibilität und die Möglichkeit der Wiederverwendung. persönliche Informationen in dem Fall fehlen. Die Website wird ihre Arbeit fortsetzen und beim Sammeln von Nutzerkritiken helfen.
Abb. 4. Kategorien von DatensätzenDas Microsoft Research Open Data-Repository ist das Ergebnis des Microsoft Research Outreach Data-Forschungsprogramms. Möglich wurde dies durch die enge Zusammenarbeit vieler Microsoft-Abteilungen und -Forscher, unserer Industriepartner und Bildungsberater.
Wir freuen uns über Ihre Kommentare und Rückmeldungen! Senden Sie uns eine Nachricht über das Feedback-Formular auf der
Website und teilen Sie Ihre Gedanken mit.