Pilihan dataset pembelajaran mesin

Halo pembaca!

Berikut ini adalah panduan artikel tentang dataset terbuka untuk pembelajaran mesin. Di dalamnya, sebagai permulaan, saya akan mengumpulkan pilihan dataset yang menarik dan segar. Dan bonus, di akhir artikel, saya akan melampirkan tautan yang berguna untuk kumpulan data pencarian sendiri.

Lebih sedikit kata, lebih banyak data.

gambar

Pilihan dataset untuk pembelajaran mesin:


  • Game of Thrones kematian dan pertempuran - kumpulan data ini menggabungkan tiga sumber data, masing-masing berdasarkan informasi dari serangkaian buku.
  • Basis Data Terorisme Global - Lebih dari 180.000 serangan teroris di seluruh dunia, 1970-2017.
  • Bitcoin, data historis - Data Bitcoin dengan interval 1 menit dari bursa terpilih, Januari 2012 - Maret 2019.
  • Kumpulan data lengkap pemain FIFA 19 - 18k + pemain FIFA 19, ~ 90 atribut diambil dari basis data FIFA terbaru.
  • Statistik Video YouTube - Statistik tren harian untuk video YouTube.
  • Tinjauan Indikator Bunuh Diri dari tahun 1985 hingga 2016 - Perbandingan informasi sosial ekonomi dengan tingkat bunuh diri menurut tahun dan negara.
  • Dataset Pasar Saham Besar - harga harian dan volume historis semua saham dan ETF AS.
  • Indikator pembangunan dunia - indikator perkembangan negara-negara dari seluruh dunia.
  • Pembelajaran Mesin & Survei Ilmu Data Kaggle 2017 - Wawasan luar biasa tentang keadaan ilmu data dan pembelajaran mesin.
  • Data Kekerasan dan Senjata - Laporan lengkap lebih dari 260.000 insiden senjata A.S. di 2013-2018.
  • Rontgen dada (pneumonia) - 5.863 gambar, 2 kategori.
  • Pengenalan suara dengan suara - Basis data ini dibuat untuk mengidentifikasi suara sebagai pria atau wanita berdasarkan pada sifat akustik suara dan ucapan. Set data terdiri dari 3.168 sampel suara yang direkam yang dikumpulkan dari pria dan wanita.
  • Konsumsi Alkohol Siswa - Data diperoleh dari survei siswa dalam matematika dan Portugis di kursus sekolah menengah. Ini berisi banyak informasi sosial, gender, dan pendidikan yang menarik tentang siswa.
  • Kumpulan data sel malaria - gambar sel untuk mendeteksi malaria.
  • Survei anak muda - data tentang preferensi, minat, kebiasaan, pendapat, dan ketakutan anak muda.
  • Peringkat Universitas Dunia - Jelajahi universitas terbaik di dunia.
  • Deteksi Penipuan Kartu Kredit - Kumpulan data transaksi kartu kredit anonim yang ditandai sebagai penipuan atau asli.
  • Tanggal penyakit jantung - basis data ini memuat 76 atribut, seperti usia, jenis kelamin, jenis nyeri dada, tekanan darah istirahat dan lainnya.
  • Pangkalan sepak bola Eropa - 25.000+ pertandingan, atribut pemain dan tim untuk sepak bola profesional Eropa.
  • Ulasan Wine - 130 ribu ulasan anggur dengan beragam, lokasi, kilang anggur, harga dan deskripsi.
  • Baidu Apolloscapes . Kumpulan data besar untuk mengenali 26 objek yang secara semantik berbeda seperti mobil, sepeda, pejalan kaki, bangunan, lampu jalan, dll.
  • Comma.ai . Lebih dari tujuh jam di jalan raya. Dataset mencakup informasi tentang kecepatan kendaraan, akselerasi, sudut kemudi, dan koordinat GPS.
  • Pengenalan Warna - Dataset ini berisi 4242 gambar berwarna. Pengumpulan data didasarkan pada data flicr, gambar Google, gambar Yandex.
  • Harga pasar harian dari setiap cryptocurrency adalah harga cryptocurrency historis untuk semua token.
  • Peringkat Cokelat - Peringkat pakar lebih dari 1.700 batang cokelat.
  • Pasar Asuransi Kesehatan - Data tentang rencana kesehatan dan kedokteran gigi di pasar asuransi kesehatan AS.
  • Bunyi detak jantung - klasifikasi kelainan detak jantung menurut stetoskop.
  • Database rekomendasi anime - rekomendasi dari 76.000 pengguna di myanimelist.net
  • Gambar sel darah - 12.500 gambar: 4 jenis sel berbeda.
  • Sinar-X dada - lebih dari 112.000 radiografi dada dari lebih dari 30.000 pasien unik.
  • Laporan Pembunuhan 1980-2014 - Proyek Tanggung Jawab Pembunuhan adalah basis data pembunuhan paling komprehensif di Amerika Serikat saat ini.
  • Database Mobil Bekas - Lebih dari 370.000 mobil bekas. Konten data dalam bahasa Jerman, jadi Anda harus menerjemahkannya terlebih dahulu jika Anda tidak bisa berbahasa Jerman.
  • Open Data House Pemerintah AS - data, alat, dan sumber daya untuk penelitian, pengembangan aplikasi web dan seluler, dan visualisasi data.
  • Pusat Nasional Pencegahan Penyakit Kronis dan Promosi Kesehatan (NCCDPHP). Pusat ini bekerja untuk mengurangi faktor risiko penyakit kronis.
  • Koleksi sumber daya sosial, ekonomi, dan demografis terbesar di Inggris.
  • EconData - beberapa ribu rangkaian waktu ekonomi, disiapkan oleh sejumlah lembaga pemerintah AS dan didistribusikan dalam berbagai format dan media.
  • Pusat Penelitian Pesisir - data menarik tentang laut dan komposisi biologinya. Di sini Anda dapat menemukan kumpulan data mulai dari analisis data dari model Laut Merah hingga studi suhu dan arus di rak California selatan yang sempit.
  • Kumpulan data digit bahasa isyarat - Turki, Ankara, Ayranji, Anadolu. Kumpulan data bahasa isyarat sekolah menengah.
  • Kualitas anggur merah adalah set data praktis yang sederhana dan dapat dipahami untuk pemodelan regresi atau klasifikasi.
  • Tabel Liga Premier Sepakbola Inggris (1968-2019).
  • HotspotQA Dataset - dataset dengan pertanyaan dan jawaban, yang memungkinkan Anda membuat sistem untuk menjawab pertanyaan dengan cara yang lebih mudah dimengerti.
  • xView adalah salah satu set citra udara bumi terbesar yang tersedia untuk umum. Ini berisi gambar dari berbagai adegan dari seluruh dunia, dijelaskan menggunakan kotak pembatas.
  • Labelme - Dataset besar gambar beranotasi.
  • ImageNet - Kumpulan data gambar untuk algoritme baru, disusun menurut hierarki WordNet, di mana ratusan dan ribuan gambar mewakili setiap node dalam hierarki.
  • LSUN. - dataset gambar yang dipecah berdasarkan adegan dan kategori dengan markup sebagian data.
  • MS COCO adalah dataset skala besar untuk mendeteksi dan mensegmentasi objek.
  • COIL100 - 100 objek yang berbeda, digambarkan di setiap sudut dalam revolusi melingkar.
  • Visual Genome - dataset dengan ~ 100 ribu gambar beranotasi terperinci.
  • Gambar Terbuka Google. - Kumpulan 9 juta URL gambar "yang telah ditandai lebih dari 6.000 kategori" di bawah lisensi Creative Commons.
  • Berlabel wajah di alam liar - koleksi 13.000 gambar wajah berlabel orang untuk menggunakan aplikasi yang melibatkan penggunaan teknologi pengenalan wajah.
  • Stanford Dogs Dataset - Berisi 20.580 gambar dari 120 trah anjing.
  • Pengenalan Pemandangan Dalam Ruangan. - dataset untuk pengenalan interior bangunan. Berisi 15.620 gambar dan 67 kategori.
  • Oxford's Robotic Car - Lebih dari 100 pengulangan dari satu rute Oxford yang ditangkap selama tahun ini. Kombinasi berbeda dari kondisi cuaca, lalu lintas dan pejalan kaki, serta perubahan jangka panjang seperti pekerjaan jalan, masuk ke dalam dataset.
  • Cityscape Dataset adalah kumpulan data besar yang berisi rekaman seratus adegan jalanan di 50 kota.
  • KUL Belgium Traffic Sign Dataset - lebih dari 10.000 anotasi ribuan lampu lalu lintas berbeda di Belgia.
  • LISA Laboratory for Intelligent & Safe Automobiles - dataset dengan rambu lalu lintas, lampu lalu lintas, kendaraan dan lintasan yang dikenal.
  • Dataset Cahaya Lalu Lintas Kecil Bosch - set data dengan 24.000 lampu lalu lintas beranotasi.
  • Kumpulan data WPI - dataset untuk pengenalan lampu lalu lintas, pejalan kaki, dan marka jalan.
  • Berkeley DeepDrive - set data besar untuk pilot otomatis. Ini berisi lebih dari 100.000 video dengan lebih dari 1.100 jam rekaman mengemudi pada waktu yang berbeda dalam sehari dan dalam berbagai kondisi cuaca.
  • MIMIC-III - dataset dengan data anonim tentang status kesehatan ~ 40.000 pasien yang menjalani perawatan intensif (data demografis, tanda-tanda vital, tes laboratorium dan obat-obatan).
  • Ulasan Amazon - Berisi sekitar 35 juta ulasan dari Amazon selama 18 tahun. Data mencakup informasi produk dan pengguna, peringkat, dan teks ulasan itu sendiri.

Tautan yang berguna untuk menemukan kumpulan data:


  • Tentu saja, Kaggle adalah tempat pertemuan bagi semua pecinta kompetisi pembelajaran mesin.
  • Google Dataset Search - Cari dataset di Internet. Juga, jika perlu, Anda dapat menambahkan set data Anda sendiri .
  • Machine Learning Repository adalah sekumpulan database, teori subjek, dan generator data yang digunakan oleh komunitas pembelajaran mesin untuk secara empiris menganalisis algoritma pembelajaran mesin.
  • VisualData - mencari set data untuk visi mesin, dengan kategorisasi yang nyaman.
  • DATA USA - satu set lengkap data yang tersedia untuk umum dari Amerika Serikat c visualisasi, deskripsi, dan infografis.

Tentang ini, seleksi singkat kami berakhir. Jika seseorang memiliki sesuatu untuk ditambahkan atau dibagikan - tulis di komentar.

Semua pengetahuan!
Berlangganan ke saluran Neuron di Telegram (@neurondata) - ada artikel baru dan berita dari dunia ilmu data muncul setiap minggu. Terima kasih kepada semua orang yang membantu dengan tautan yang bermanfaat, terutama Igor Mariarty, Andrey Bondarenko dan Matvey Kochergin.

Source: https://habr.com/ru/post/id452392/


All Articles