Kami dengan senang hati memberi tahu Anda bahwa kolega kami dari divisi Microsoft Research menerbitkan data yang diperoleh sebagai hasil kerja bertahun-tahun dalam kurasi dan studi informasi dari makalah ilmiah. Secara khusus, data tentang teknik, ilmu komputer, ilmu komputer, matematika, fisika, biologi, ilmu sosial dan alam menjadi tersedia. Lebih detail di bawah cut!

Selama beberapa tahun terakhir, tim Microsoft Research Outreach telah secara aktif berkolaborasi dengan komunitas ilmiah untuk membantu para peneliti melakukan penelitian pada infrastruktur cloud. Selama ini, kami secara universal mengamati relevansi paradigma keempat penemuan ilmiah yang diusulkan oleh Jim Gray, yang didasarkan pada studi volume data yang besar dan melibatkan penggunaan komponen data masing-masing di hampir semua program penelitian. Kami melihat dengan jelas bahwa untuk memproses aliran informasi yang begitu luas, set data yang dikuratori dan dianalisis diperlukan pada skala komunitas penelitian, dan tidak praktis untuk dibatasi hanya pada bidang sistem komputer - perlu untuk mencakup ilmu interdisipliner dan subjek.
Hari ini, kami dengan senang hati memperkenalkan
Microsoft Research Open Data , repositori cloud open-source baru yang dirancang untuk memfasilitasi interaksi para peneliti di seluruh dunia. Microsoft Research Open Data, sebuah repositori berbasis cloud tunggal, menyediakan akses mudah ke set data yang diperoleh sebagai hasil kerja keras Microsoft selama bertahun-tahun dalam mengawasi dan mempelajari informasi dari makalah ilmiah yang diterbitkan.
Mengapa kami berinvestasi dalam proyek ini
Tujuan proyek ini adalah untuk menyediakan bagi para peneliti dan karyawan Microsoft sebuah platform yang nyaman untuk berbagi set data yang dilengkapi dengan teknologi dan alat yang diperlukan. Repositori Data Terbuka Microsoft Research dirancang untuk menyederhanakan akses ke data, memfasilitasi interaksi peneliti menggunakan sumber daya cloud, dan memastikan reproduksibilitas eksperimen. Kami akan terus bekerja pada pembentukan dan pengembangan repositori kami dan melengkapi dengan fungsi-fungsi baru, dipandu oleh umpan balik masyarakat.
Kita tahu bahwa lusinan repositori data tersedia untuk para peneliti saat ini, dan kami berharap bahwa kapabilitas dari Microsoft Research Open Data akan melengkapi fungsi dari repositori yang ada.
Fig. 1. Kumpulan Data di dalam Microsoft Open Data Open RepositoryβIni adalah titik balik dalam dunia big data. Inisiatif seperti Microsoft Research Open Data membantu mengurangi hambatan untuk berbagi informasi dan menjaga reproduksibilitas percobaan melalui platform cloud. "
- catatan Sam Madden (Sam Madden), profesor dari Massachusetts Institute of Technology.
Dengan pertumbuhan data yang eksponensial, diharapkan pada tahun 2025 volumenya akan menjadi 150 ST. Ini berarti bahwa hari ini kita harus memberi perhatian khusus pada masalah pemrosesan data, dan bukan pada masalah transmisi mereka melalui saluran Internet, yang berkembang jauh lebih lambat. Kami percaya bahwa kemampuan untuk memproses data akan membawa manfaat nyata. Oleh karena itu, pengguna tidak hanya dapat mengunduh kumpulan data, tetapi juga menyalinnya langsung ke mesin virtual Data Science berbasis Azure (lihat Gambar 2).
Fig. 2. Data disalin dari microsoftopendata.com ke mesin virtual Linux di cloud AzureMesin virtual Data Science memiliki alat pengembangan pra-instal yang populer di kalangan peneliti dan praktisi (lihat Gambar 3).
Fig. 3. Mesin Virtual Ilmu Data LinuxβSaya sering diminta untuk membagikan data eksperimen, jadi saya biasa membagikannya. Ini adalah cara yang paling populer. Mengkoordinasikan dan membuat katalog kumpulan data di satu tempat dengan Azure akan menguntungkan peneliti baik internal maupun eksternal. Mereka akan dapat dengan mudah mengakses, berinteraksi, dan dengan mudah menggunakan data terbuka yang luas di cloud Microsoft Research. "
- Komentar John Krumm, peneliti utama di Microsoft Research AI.
Kumpulan data dalam Microsoft Research Open Data diklasifikasikan menurut area penelitian intinya (lihat Gambar 4). Menggunakan set data, Anda dapat mencari tautan ke proyek penelitian dan publikasi. Kumpulan data yang tersedia dapat dilihat, diunduh, dan disalin langsung ke langganan Azure menggunakan alur kerja otomatis. Repositori memenuhi standar berbagi informasi tertinggi dan menjamin ketersediaan set data, kompatibilitasnya, dan kemungkinan penggunaan kembali; informasi pribadi dalam kasus ini hilang. Situs akan melanjutkan pekerjaannya dan akan membantu dalam mengumpulkan ulasan pengguna.
Fig. 4. Kategori datasetRepositori Data Terbuka Microsoft Research muncul sebagai hasil dari program riset Data Penelitian Microsoft. Ini dimungkinkan berkat kolaborasi erat dari banyak divisi dan peneliti Microsoft, mitra industri kami, dan konsultan pendidikan.
Kami akan dengan senang hati menerima komentar dan umpan balik Anda! Kirim pesan kepada kami menggunakan formulir umpan balik di
situs dan bagikan pendapat Anda.