Pilihan contoh kerja pemrosesan data

Halo pembaca.

Dalam jejak posting pertama saya dari pemilihan dataset untuk pembelajaran mesin - saya akan membuat pilihan dataset yang relatif baru dengan contoh-contoh kerja dari pengolahan data. Bagaimanapun, bukan rahasia bagi siapa pun bahwa belajar dengan contoh-contoh yang baik lebih efektif dan lebih cepat. Mari kita lihat apa yang menarik bagi kita akan dapat menunjukkan beberapa contoh terbaik dari pemrosesan data.

Skema bekerja dengan posting saat ini akan diwarisi dari posting saya tentang notebook terbaik di ML dan DS , yaitu - disimpan ke bookmark → diteruskan ke kolega.

+ bonus di akhir artikel - kursus keren dari FPMI MIPT.

gambar

Jadi mari kita mulai.

Pilihan dataset dengan contoh-contoh kerja dari pemrosesan data:


Ikhtisar Tingkat Bunuh Diri 1985 hingga 2016 - Perbandingan informasi sosial ekonomi dengan tingkat bunuh diri menurut tahun dan negara.

Contoh pengolahan:


Peringkat Lagu Harian Seluruh Dunia Spotify adalah peringkat harian dari 200 lagu yang paling banyak didengarkan di 53 negara mulai 2017 dan 2018 oleh pengguna Spotify.

Contoh pengolahan:


Crimes in Boston - catatan dari sistem pelaporan insiden kejahatan Boston, yang mencakup insiden dan informasi tentang kapan dan di mana itu terjadi.

Contoh pengolahan:


Aplikasi Google Play Store - kategori, peringkat, ukuran semua aplikasi Google Play.

Contoh pengolahan:


Pokemon untuk Penambangan Data dan Pembelajaran Mesin - statistik dan fitur Pokemon;

Contoh pengolahan:


A Juta Berita Utama - Data dari berita utama yang diterbitkan selama 15 tahun terakhir.

Contoh pengolahan:


Kecelakaan Pesawat Sejak 1908 - Sejarah lengkap kecelakaan udara di seluruh dunia, dari tahun 1908 hingga saat ini.

Contoh pengolahan:


Berita Utama Dataset Untuk Deteksi Sarkasme adalah dataset berkualitas tinggi untuk deteksi sarkasme.

Contoh pengolahan:


Historical Air Quality - Data kualitas udara yang dikumpulkan pada monitor luar di seluruh Amerika Serikat.

Contoh pengolahan:


Fakta Gizi untuk Menu McDonald's - Fakta Gizi untuk setiap item menu di McDonald's AS.

Contoh pengolahan:


Basis Data LEGO - perincian / set / warna dan stok dari masing-masing LEGO resmi yang diatur dalam basis data yang dapat didaur ulang.

Contoh pengolahan:


Statistik Perdagangan Komoditas Global - volume impor dan ekspor untuk 5.000 produk di sebagian besar negara di dunia selama 30 tahun terakhir.

Contoh pengolahan:


Kejahatan di India - informasi lengkap tentang berbagai aspek kejahatan yang dilakukan di India sejak tahun 2001.

Contoh pengolahan:


Predicting a Pulsar Star - data pulsar dikumpulkan selama survei alam semesta.

Contoh pengolahan:


Pekerjaan Perancis, gaji, populasi per kota - data menunjukkan kesetaraan dan ketidaksetaraan di Perancis.

Contoh pengolahan:


Sensus Amerika Serikat - Sensus AS.

Contoh pengolahan:


California Housing Prices - harga perumahan di California.

Contoh pengolahan:


Tingkat Pengangguran AS menurut Kabupaten, 1990-2016 - data pengangguran Departemen Tenaga Kerja AS.

Contoh pengolahan:


World of Warcraft Avatar History - Serangkaian catatan yang merinci informasi tentang karakter pemain dalam permainan seiring waktu.

Contoh pengolahan:


Data Penemuan Gelombang Gravitasi - data peristiwa gelombang gravitasi GW150914.

Contoh pengolahan:


Bonus!


Dan bonus hari ini adalah kursus Pembelajaran Mendalam yang dirancang untuk siswa sekolah menengah yang tertarik pada pemrograman dan matematika, serta siswa yang ingin memulai pembelajaran yang mendalam.

Tujuan kursus adalah untuk memperkenalkan prinsip-prinsip dasar pembelajaran mendalam (jaringan saraf) dalam format interaktif dan pada contoh tugas-tugas praktis.

Program kursus


  1. Python: dasar-dasar, Google Colab;
  2. Pengantar aljabar linier. Vektor. Matriks dan operasi dengan mereka. Perpustakaan NumPy;
  3. Perpustakaan Pandas dan MatPlotlib. Dasar-dasar pembelajaran mesin;
  4. Unsur teori optimasi. Gradien Keturunan gradien. Model linier;
  5. Pengantar pembelajaran yang mendalam. Perceptron. Neuron dengan sigmoid (dan fungsi aktivasi lainnya). Dasar-dasar OOP dalam Python;
  6. Pustaka PyTorch. Jaringan saraf multilayer;
  7. Melatih jaringan saraf dalam praktik. Cifar10, notMNIST;
  8. Jaringan saraf convolutional. Lapisan konvolusional. Lapisan pooling;
  9. Praktek melatih jaringan saraf. Klasifikasi rambu-rambu jalan;
  10. Transfer Pembelajaran. Populer dalam Arsitektur Visi Komputer;
  11. Segmentasi gambar. U-Net;
  12. Persaingan di Kaggle;
  13. Deteksi Objek YOLOv3;
  14. GAN klasik. Transfer gaya saraf;
  15. Metode pemrosesan teks dasar;
  16. Word Embeddings;
  17. Jaringan saraf berulang;
  18. LSTM, sel GRU;
  19. Model bahasa;
  20. Terjemahan mesin
  21. Text2Speech;
  22. SuperResolution.

Anda juga dapat melihat saluran Youtube Deep Learning School. Ada banyak video hebat;)

Dengan ini, pemilihan singkat contoh pengolahan data kami telah berakhir. Saya harap Anda belajar sesuatu yang baru untuk diri Anda sendiri. Seperti kebiasaan di Habré, saya menyukai pos - menempatkan nilai tambah. Jangan lupa untuk berbagi dengan rekan kerja. Juga, jika Anda memiliki sesuatu yang dapat Anda bagikan sendiri - tulis di komentar. Informasi lebih lanjut tentang pembelajaran mesin dan Ilmu Data tentang Habré dan di saluran telegram Neuron (@neurondata).

Semua pengetahuan!

Source: https://habr.com/ru/post/id460557/


All Articles