52 dataset untuk proyek pelatihan
- Pelanggan Mall Dataset - data pengunjung ke toko: id, jenis kelamin, usia, pendapatan, peringkat pengeluaran. ( Kasus penggunaan : Proyek Segmentasi Pelanggan dengan Pembelajaran Mesin )
- Iris Dataset - dataset untuk pemula, berisi ukuran sepal dan kelopak untuk berbagai bunga.
- Dataset MNIST - dataset angka tulisan tangan. 60.000 gambar latihan dan 10.000 gambar uji.
- Boston Housing Dataset adalah dataset pengenalan pola yang populer. Ini berisi informasi tentang rumah-rumah di Boston: jumlah apartemen, harga sewa, indeks kejahatan.
- Dataset Deteksi Berita Palsu - berisi 7796 entri dengan markup berita: benar atau salah. ( Gunakan case dengan sumber Python: Proyek Python Deteksi Berita Palsu )
- Kumpulan data kualitas anggur - berisi informasi anggur: 4898 catatan dengan 14 parameter.
- Data SOCR - Ketinggian dan Berat Dataset adalah awal yang baik. Berisi 25.000 catatan tinggi dan berat anak berusia 18 tahun.

Artikel ini diterjemahkan dengan dukungan EDISON Software, sebuah perusahaan yang melakukan pesanan luar biasa dari Cina Selatan , dan juga mengembangkan aplikasi dan situs web .
- Parkinson Dataset - 195 catatan pasien dengan penyakit Parkinson, dengan 25 parameter analisis. Hal ini dapat digunakan untuk menilai perbedaan antara orang sakit dan orang sehat. ( Gunakan case dengan sumber Python: Project Learning Machine on Mendeteksi Penyakit Parkinson )
- Titanic Dataset - berisi informasi tentang penumpang (usia, jenis kelamin, kerabat di atas kapal, dll.) 891 di set pelatihan dan 418 di set tes.
- Uber Pickup Dataset - informasi 4,5 juta perjalanan ke Uber 2014 dan 14 juta 2015. ( Gunakan case dengan sumber pada R: Proyek Analisis Data Uber di R )
- Chars74k Dataset - berisi gambar karakter Inggris dan Kanada dari 64 kelas: 0-9, AZ, az. 7700 7,7 k gambar alami, 3400 k tulisan tangan, 62000 font yang disintesis komputer.
- Dataset Deteksi Penipuan Kartu Kredit - berisi informasi tentang transaksi kartu kredit yang dikompromikan. ( Gunakan case dengan sumber: Proyek Pembelajaran Mesin Deteksi Penipuan Kartu Kredit )
- Chatbot Intents Dataset - File JSON yang berisi berbagai tag: salam, selamat tinggal, hospital_search, pharmacy_search, dll. Berisi seperangkat templat tanya jawab. ( Gunakan case dengan sumber dalam Python: Chatbot Project in Python )
- Enron Email Dataset - Berisi setengah juta email dari 150 manajer Enron.
- The Yelp Dataset - berisi 1,2 juta rekomendasi dari 1,6 juta pengguna sekitar 1,2 juta organisasi.
- Jeopardy Dataset - Lebih dari 200.000 entri Tanya Jawab dari permainan televisi populer.
- Recommender Systems Dataset adalah portal dengan koleksi kumpulan data dari Universitas UCSD. Berisi ulasan ulasan di situs populer (Goodreads, Amazon). Sangat bagus untuk membuat sistem rekomendasi. ( Gunakan case dengan sumber pada R: Proyek Sistem Rekomendasi Film di R )
- UCI Spambase Dataset - set data pelatihan untuk mendeteksi spam. Berisi 4601 huruf dengan 57 parameter metadata.
- Flickr 30k Dataset - Lebih dari 30.000 gambar dan teks. ( Flickr 8k Dataset - 8000 gambar. Proyek Python: Image Caption Generator Proyek Python )
- Ulasan IMDB - 25.000 ulasan film di set pelatihan dan 25.000 di set tes. ( Gunakan case dengan sumber pada R: Proyek Ilmu Pengetahuan Analisis Sentimen )
- Dataset MS COCO - 1,5 juta gambar yang ditandai.
- Dataset CIFAR-10 dan CIFAR-100 - CIFAR-10 berisi 60.000 gambar kecil 32 * 32 piksel angka 0-9. CIFAR-100 - masing-masing, 0-100.
- GTSRB (tolok ukur pengenalan rambu lalu lintas Jerman) Dataset - 50.000 gambar dari 43 rambu jalan. ( Gunakan case dengan sumber Python: Traffic Signs Recognition Python Project )
- Kumpulan data ImageNet - berisi lebih dari 100.000 frase dan sekitar 1000 gambar per frase.
- Gambar Histopatologi Payudara Dataset - Dataset berisi gambar sampel kanker payudara. ( Gunakan case dengan sumber pada Proyek Python Klasifikasi Kanker Payudara )
- Cityscapes Dataset - berisi anotasi berkualitas tinggi dari urutan video jalan-jalan di berbagai kota.
- Kinetics Dataset - Berisi tautan URL ke sekitar 6,5 juta video berkualitas tinggi.
- Dataset pose manusia MPII - Dataset berisi 25.000 gambar pose manusia dengan anotasi untuk sambungan.
- Kumpulan data 20BN-sesuatu-sesuatu v2 adalah seperangkat video berkualitas tinggi yang menunjukkan bagaimana seseorang melakukan tindakan tertentu.
- Object 365 Dataset - dataset gambar berkualitas tinggi dengan kotak pembatas objek.
- Dataset sketsa foto - berisi lebih dari 1000 gambar dengan gambar garis besarnya.
- CQ500 Dataset - Dataset berisi 491 CT scan kepala dengan 193.317 irisan.
- Kumpulan data IMDB-Wiki - kumpulan data dengan lebih dari 5 juta gambar orang yang ditandai dengan jenis kelamin dan usia. ( Gunakan case dengan sumber pada Proyek Python Gender & Age Detection )
- Youtube 8M Dataset - Dataset video berlabel yang berisi 6,1 juta pengidentifikasi video Youtube
- Dataset Urban Sound 8K - satu set data audio kota (berisi 8732 suara kota dari 10 kelas).
- LSUN Dataset adalah kumpulan data jutaan gambar berwarna adegan dan objek (sekitar 59 juta gambar, 10 kategori pemandangan berbeda dan 20 kategori obyek berbeda).
- RAVDESS Dataset adalah database audiovisual dari pidato emosional. ( Gunakan case dengan sumber pada Proyek Python Recognition Emotion Recognition )
- Librispeech Dataset - Dataset berisi 1000 jam pidato bahasa Inggris dengan aksen yang berbeda.
- Baidu Apolloscape Dataset - dataset untuk pengembangan teknologi self-driving.
- Quandl Data Portal - repositori data ekonomi dan keuangan (ada konten gratis dan berbayar).
- Portal Data Terbuka Bank Dunia - Informasi tentang pinjaman yang dikeluarkan oleh Bank Dunia ke negara-negara berkembang.
- Portal Data IMF adalah portal dana moneter internasional yang menerbitkan data keuangan internasional, tingkat utang, investasi, cadangan devisa, dan barang.
- Portal Data Asosiasi Ekonomi Amerika (AEA) adalah sumber daya untuk menemukan data ekonomi makro AS.
- Portal Data Google Trends - Data Google Trends dapat digunakan untuk memeriksa dan menganalisis data secara visual.
- Portal Data Pasar Financial Times - sumber daya untuk mendapatkan informasi terkini tentang pasar keuangan dari seluruh dunia.
- Portal Data.gov adalah portal data terbuka pemerintah AS (pertanian, kesehatan, iklim, pendidikan, energi, keuangan, sains dan penelitian, dll.).
- Portal Data: Data pemerintah terbuka (India) adalah platform data pemerintah terbuka India .
- Lingkungan makanan, Atlas Data Portal - Berisi data penelitian nutrisi AS.
- Portal Data Kesehatan adalah portal Departemen Kesehatan dan Layanan Kemanusiaan AS.
- Pusat Pengendalian Penyakit dan Portal Data Pencegahan - Berisi berbagai macam data terkait kesehatan.
- London Datastore Portal - data tentang kehidupan orang-orang di London.
- Portal Data Terbuka Pemerintah Kanada - sebuah portal untuk membuka data tentang orang Kanada (pertanian, seni, musik, pendidikan, pemerintah, kesehatan, dll.)
Baca lebih lanjut

Baca juga blognya
Perusahaan EDISON:
20 perpustakaan untuk
aplikasi iOS yang spektakulerSource: https://habr.com/ru/post/id480408/
All Articles