Hai teman-teman
Sebelum Anda adalah panduan artikel untuk membuka set data untuk pembelajaran mesin. Di dalamnya, saya, sebagai permulaan, akan mengumpulkan pilihan dataset yang menarik dan segar (relatif). Dan sebagai bonus, di akhir artikel, saya akan melampirkan tautan berguna pada pencarian dataset secara independen.
Lebih sedikit kata, lebih banyak data.

Pilihan dataset untuk pembelajaran mesin:
- Kematian dan pertempuran data dari permainan takhta - Kumpulan data ini menggabungkan tiga sumber data, masing-masing berdasarkan informasi dari serangkaian buku.
- Basis Data Terorisme Global - Lebih dari 180.000 serangan teroris di seluruh dunia, 1970-2017.
- Bitcoin, data historis - Data Bitcoin dengan interval 1 menit dari bursa terpilih, Januari 2012 - Maret 2019
- FIFA 19 set lengkap data pemain - 18k + pemain FIFA 19, ~ 90 atribut, diekstraksi dari basis data FIFA terbaru.
- Statistik video YouTube - statistik harian dari video tren di YouTube.
- Survei tingkat bunuh diri dari tahun 1985 hingga 2016 - Perbandingan informasi sosial ekonomi dengan tingkat bunuh diri menurut tahun dan negara.
- Kumpulan data pasar saham besar - harga harian historis dan volume semua saham AS dan ETF.
- Indikator Pembangunan Dunia - indikator pembangunan negara-negara dari seluruh dunia.
- Pembelajaran Mesin & Survei Ilmu Data Kaggle 2017 - Wawasan hebat ke dalam ilmu data dan pembelajaran mesin.
- Data tentang kekerasan dan senjata - laporan lengkap tentang lebih dari 260 ribu insiden senjata Amerika pada 2013-2018
- Rontgen dada (pneumonia) - 5.863 gambar, 2 kategori.
- Pengenalan jender melalui suara - Basis data ini dibuat untuk mengidentifikasi suara sebagai pria atau wanita, berdasarkan pada sifat akustik suara dan ucapan. Set data terdiri dari 3168 rekaman sampel suara yang dikumpulkan dari pria dan wanita.
- Konsumsi alkohol siswa - data diperoleh dalam survei siswa dalam matematika dan kursus bahasa Portugis di sekolah menengah. Ini berisi banyak informasi sosial, gender, dan pendidikan yang menarik tentang siswa.
- Malaria Cell Dataset - gambar seluler untuk mendeteksi malaria.
- Survei anak muda - data tentang preferensi, minat, kebiasaan, pendapat, dan ketakutan anak muda.
- Peringkat Universitas Dunia - jelajahi universitas terbaik di dunia.
- Deteksi Penipuan Kartu Kredit - Transaksi kartu kredit anonim ditandai sebagai penipuan atau otentik.
- Penyakit jantung Dataset - Basis data ini memuat 76 atribut, seperti usia, jenis kelamin, jenis nyeri dada, tekanan darah istirahat dan lainnya.
- Pangkalan Sepak Bola Eropa - 25.000+ pertandingan, atribut pemain dan tim untuk sepak bola profesional Eropa.
- Ulasan Wine - 130 ribu ulasan anggur dengan beragam, lokasi, kilang anggur, harga dan deskripsi.
- Baidu Apolloscapes . Kumpulan data besar untuk mengenali 26 objek yang secara semantik berbeda seperti mobil, sepeda, pejalan kaki, bangunan, lampu jalan, dll.
- Comma.ai . Lebih dari tujuh jam berkendara di jalan raya. Dataset mencakup informasi tentang kecepatan kendaraan, akselerasi, sudut kemudi, dan koordinat GPS.
- Pengenalan warna - Dataset ini berisi 4242 gambar berwarna. Pengumpulan data didasarkan pada data flicr, gambar Google, gambar Yandex.
- Harga pasar harian dari setiap cryptocurrency - harga cryptocurrency historis untuk semua token.
- Peringkat cokelat - Peringkat pakar lebih dari 1.700 batang cokelat.
- Pasar asuransi kesehatan - data rencana kesehatan dan gigi untuk pasar asuransi kesehatan AS.
- Bunyi detak jantung - klasifikasi kelainan detak jantung dengan stetoskop.
- Database Rekomendasi Anime - rekomendasi dari 76.000 pengguna di myanimelist.net
- Gambar sel darah - 12.500 gambar: 4 jenis sel berbeda.
- Sinar-X dada - lebih dari 112.000 radiografi dada dari lebih dari 30.000 pasien unik.
- Laporan Murder, 1980-2014 - The Kill Responsibility Project adalah basis data pembunuhan paling komprehensif di Amerika Serikat saat ini.
- Database mobil bekas - lebih dari 370.000 mobil bekas. Konten data dalam bahasa Jerman, jadi Anda harus menerjemahkannya terlebih dahulu jika Anda tidak bisa berbahasa Jerman.
- Open Data House Pemerintah AS - data, alat, dan sumber daya untuk melakukan penelitian, mengembangkan aplikasi web dan aplikasi seluler, mengembangkan visualisasi data.
- Pencegahan penyakit kronis nasional dan promosi kesehatan (NCCDPHP). Pusat ini bekerja untuk mengurangi faktor risiko penyakit kronis.
- Terbesar di Inggris kumpulan sumber daya sosial, ekonomi, dan demografis.
- EconData - nBeberapa ribu seri waktu ekonomi, disiapkan oleh sejumlah lembaga pemerintah AS dan didistribusikan dalam berbagai format dan media.
- Coast Research Center - data menarik tentang laut dan komposisi biologinya. Di sini Anda dapat menemukan kumpulan data dari analisis data dari model Laut Merah hingga studi suhu dan arus di rak California selatan yang sempit.
- Set Bahasa Data Set Data - Turki, Ankara, Ayranji, Anadolu. Kumpulan data bahasa isyarat sekolah menengah.
- Anggur merah berkualitas - set data praktis yang sederhana dan jelas untuk pemodelan regresi atau klasifikasi.
- Spreadsheets Liga Premier Sepakbola Inggris (1968-2019).
- HotspotQA Dataset - Dataset dengan pertanyaan dan jawaban, memungkinkan Anda untuk membuat sistem untuk menjawab pertanyaan dengan cara yang lebih dimengerti.
- xView - salah satu set citra udara terbesar yang tersedia untuk umum di bumi. Ini berisi gambar dari berbagai adegan dari seluruh dunia, dijelaskan dengan kotak pembatas.
- Labelme - dataset gambar besar beranotasi.
- ImageNet - Kumpulan data untuk algoritme baru, yang disusun berdasarkan hierarki WordNet, di mana ratusan dan ribuan gambar mewakili setiap simpul hierarki.
- LSUN. - Kumpulan data gambar, dibagi menjadi adegan dan kategori dengan data penandaan sebagian.
- MS COCO - dataset skala besar untuk deteksi dan segmentasi objek.
- COIL100 - 100 objek berbeda digambarkan pada setiap sudut dalam rotasi melingkar.
- Visual Genome - Dataset dengan ~ 100 ribu. Detail gambar beranotasi.
- Gambar Terbuka Google. - koleksi 9 juta URL ke gambar "ditandai dengan lebih dari 6.000 kategori" di bawah lisensi Creative Commons.
- Labeled Faces in the Wild - satu set 13.000 gambar wajah orang untuk penggunaan aplikasi yang melibatkan penggunaan teknologi pengenalan wajah.
- Stanford Dogs Dataset - berisi 20.580 gambar dari 120 trah anjing.
- Pengenalan Pemandangan Dalam Ruangan. - Dataset untuk mengenali interior bangunan. Berisi 15.620 gambar dan 67 kategori.
- Oxford's Robotic Car - lebih dari 100 pengulangan satu rute melintasi Oxford, difilmkan sepanjang tahun. Berbagai kombinasi kondisi cuaca, lalu lintas dan pejalan kaki, serta perubahan yang lebih lama, seperti pekerjaan jalan, masuk ke dalam dataset.
- Cityscape Dataset - set data besar berisi catatan seratus adegan jalanan di 50 kota.
- KUL Belgium Traffic Sign Dataset - lebih dari 10.000 anotasi ribuan lampu lalu lintas berbeda di Belgia.
- Laboratorium LISA untuk Mobil Cerdas & Aman - Dataset dengan rambu-rambu jalan, lampu lalu lintas, kendaraan yang dikenal, dan lintasan pergerakan.
- Dataset Lampu Lalu Lintas Kecil Bosch - Tanggal dengan 24.000 lampu lalu lintas beranotasi.
- Kumpulan data WPI - Kumpulan data untuk pengenalan lampu lalu lintas, pejalan kaki, dan marka jalan.
- Berkeley DeepDrive - dataset besar untuk pilot otomatis. Ini berisi lebih dari 100.000 video dengan lebih dari 1.100 jam catatan mengemudi pada waktu yang berbeda dalam sehari dan dalam kondisi cuaca yang berbeda.
- MIMIC-III - Kumpulan data dengan data impersonal pada status kesehatan ~ 40.000 pasien pada perawatan intensif (data demografis, tanda-tanda vital, tes laboratorium dan obat-obatan).
- Ulasan Amazon - Berisi sekitar 35 juta ulasan dari Amazon selama 18 tahun. Data mencakup informasi produk dan pengguna, peringkat, dan teks ulasan itu sendiri.
Tautan yang berguna untuk mencari kumpulan data:
- Tentunya Kaggle - tempat pertemuan untuk semua penggemar kompetisi pembelajaran mesin.
- Google Dataset Search - Cari dataset di seluruh Internet. Juga, jika perlu, Anda dapat menambahkan set data sendiri .
- Repositori Pembelajaran Mesin - satu set database, teori domain, dan generator data yang digunakan oleh komunitas pembelajaran mesin untuk analisis empiris algoritma pembelajaran mesin.
- VisualData - pencarian dataset untuk visi mesin, dengan klasifikasi yang mudah berdasarkan kategori.
- DATA USA - set lengkap data AS yang tersedia untuk umum dengan visualisasi, deskripsi, dan infografis.
Tentang ini, seleksi singkat kami berakhir. Jika seseorang memiliki sesuatu untuk ditambahkan atau dibagikan - tulis di komentar.
Terima kasih!