14 proyek sumber terbuka untuk memompa keterampilan Ilmu Data (mudah, normal, sulit)

Ilmu Data untuk Pemula

1. Analisis Sentimen


gambar

Lihat implementasi penuh proyek Ilmu Data menggunakan kode sumber - Proyek Analisis Sentimen di R.

Sentiment Analysis adalah analisis kata untuk mengidentifikasi suasana hati dan pendapat yang bisa positif atau negatif. Ini adalah jenis klasifikasi di mana kelas dapat biner (positif dan negatif) atau jamak (bahagia, jahat, sedih, jahat ...). Kami akan mengimplementasikan proyek Ilmu Data ini dalam bahasa R dan akan menggunakan set data dalam paket janeaustenR. Kami akan menggunakan kamus untuk keperluan umum, seperti AFINN, bing dan loughran, untuk terhubung secara internal, dan pada akhirnya kami akan membuat kata cloud untuk menampilkan hasilnya.

Bahasa: R
Set Data / Paket: janeaustenR

Perangkat Lunak EDISON - pengembangan web
Artikel ini diterjemahkan dengan dukungan EDISON Software, sebuah perusahaan yang membuat ruang pas virtual untuk toko multi-merek , dan juga menguji perangkat lunak .


2. Deteksi Berita Palsu


Tingkatkan keterampilan Anda ke tingkat selanjutnya dengan mengerjakan proyek Ilmu Data untuk pemula - menemukan berita palsu menggunakan Python .

gambar

Berita palsu adalah informasi palsu yang disebarluaskan melalui jejaring sosial dan media online lainnya untuk mencapai tujuan politik. Dalam ide proyek Ilmu Data ini, kami akan menggunakan Python untuk membangun model yang dapat secara akurat menentukan apakah berita itu nyata atau palsu. Kami akan membuat TfidfVectorizer dan menggunakan PassiveAggressiveClassifier untuk mengklasifikasikan berita menjadi "nyata" dan "palsu". Kami akan menggunakan dataset formulir 7796 × 4 dan menjalankan semuanya di Lab Jupyter.

Bahasa: Python

Set Data / Paket: news.csv

3. Mendeteksi Penyakit Parkinson (Deteksi Penyakit Parkinson)


Silakan dengan Ide Proyek Data Science - mengidentifikasi penyakit Parkinson dengan XGBoost .

gambar

Kami mulai menggunakan Ilmu Data untuk meningkatkan layanan kesehatan dan layanan - jika kami dapat memprediksi penyakit pada tahap awal, kami akan memiliki banyak manfaat. Jadi, dalam ide proyek Ilmu Data ini, kita akan belajar bagaimana mendeteksi penyakit Parkinson menggunakan Python. Ini adalah penyakit neurodegeneratif progresif sistem saraf pusat yang memengaruhi gerakan dan menyebabkan gemetar dan kaku. Ini mempengaruhi neuron penghasil dopamin di otak, dan setiap tahun, itu mempengaruhi lebih dari 1 juta orang di India.

Bahasa: Python

Dataset / Paket: Dataset UCI ML Parkinson

Proyek Sains Data dengan kompleksitas sedang

4. Pengenalan Emosi Pidato


Lihat implementasi penuh proyek sampel Ilmu Data - Pengenalan Bicara dengan Librosa .

gambar

Sekarang mari kita belajar cara menggunakan perpustakaan yang berbeda. Proyek Ilmu Data ini menggunakan librosa untuk pengenalan ucapan. SER adalah proses menentukan emosi manusia dan keadaan afektif dari ucapan. Karena kami menggunakan pitch dan pitch untuk mengekspresikan emosi dalam suara, SER relevan. Tetapi karena emosi bersifat subjektif, membuat anotasi suara adalah tugas yang menakutkan. Kami akan menggunakan fungsi mfcc, chroma dan mel dan menggunakan dataset RAVDESS untuk mengenali emosi. Kami akan membuat classifier MLPC untuk model ini.

Bahasa: Python

Set Data / Paket: RAVDESS dataset

5. Deteksi Gender dan Usia


Majikan para pengusaha dengan proyek Ilmu Data terbaru - Gender dan Penentuan Usia dengan OpenCV .

gambar

Ini adalah Ilmu Data yang menarik dengan Python. Dengan hanya menggunakan satu gambar, Anda akan belajar memprediksi jenis kelamin dan usia seseorang. Dalam hal ini kami akan memperkenalkan Anda kepada Computer Vision dan prinsip-prinsipnya. Kami akan membangun jaringan saraf convolutional dan akan menggunakan model yang dilatih oleh Tal Hassner dan Jill Levy untuk dataset Adience. Sepanjang jalan, kita akan menggunakan beberapa file .pb, .pbtxt, .prototxt, dan .caffemodel.

Bahasa: Python

Set Data / Paket: Adience

6. Analisis Data Uber


Lihat implementasi penuh proyek Sumber Sains Data Sains, Proyek Analisis Data Uber di R.

gambar

Ini adalah proyek visualisasi data dengan ggplot2, di mana kita akan menggunakan R dan perpustakaannya dan menganalisis berbagai parameter. Kami akan menggunakan dataset Uber Pickups di New York dan membuat visualisasi untuk berbagai kerangka waktu tahun ini. Ini memberitahu kita bagaimana waktu mempengaruhi perjalanan pelanggan.

Bahasa: R

Paket Data : Paket Uber di dataset Kota New York

7. Deteksi pengemudi Mengantuk


Tingkatkan keterampilan Anda saat bekerja di Top Data Science Project - sistem deteksi tidur dengan OpenCV & Keras .

gambar

Mengemudi mengantuk sangat berbahaya, dan setiap tahun ada sekitar seribu kecelakaan karena pengemudi tertidur saat mengemudi. Dalam proyek Python ini, kami akan membuat sistem yang dapat mendeteksi driver yang mengantuk, serta memberi tahu mereka dengan sinyal suara.

Proyek ini diimplementasikan menggunakan Keras dan OpenCV. Kami akan menggunakan OpenCV untuk mendeteksi wajah dan mata, dan dengan Keras kami akan mengklasifikasikan keadaan mata (Terbuka atau Tertutup) menggunakan teknik jaringan saraf yang mendalam.

8. Chatbot


Buat chatbot menggunakan Python dan melangkah maju dalam karier Anda - Chatbot dengan NLTK & Keras .

gambar

Chatbots adalah bagian integral dari bisnis. Banyak perusahaan harus menawarkan layanan kepada pelanggan mereka, dan layanan mereka membutuhkan banyak tenaga, waktu dan usaha. Chatbots dapat mengotomatiskan sebagian besar interaksi pelanggan mereka dengan menjawab beberapa pertanyaan umum yang diajukan pelanggan. Pada dasarnya ada dua jenis chatbots: Domain-spesifik dan Open-domain. Bot obrolan khusus domain sering digunakan untuk menyelesaikan masalah tertentu. Dengan demikian, Anda perlu mengkonfigurasinya untuk bekerja secara efektif di bidang Anda. Bot obrolan domain terbuka dapat ditanyakan, sehingga dibutuhkan sejumlah besar data untuk melatihnya.

Kumpulan Data : Maksud file json

Bahasa: Python

Proyek Sains Data Lanjutan

9. Pembuat Keterangan Gambar


Lihat implementasi proyek lengkap dengan kode sumber - Generator Keterangan Gambar dengan CNN & LSTM .

gambar

Deskripsi apa yang ada dalam gambar adalah tugas yang mudah bagi orang-orang, tetapi untuk komputer, gambar hanyalah sekumpulan angka yang mewakili nilai warna setiap piksel. Ini adalah tugas yang sulit untuk komputer. Memahami apa yang ada dalam gambar dan kemudian membuat deskripsi dalam bahasa alami (misalnya, dalam bahasa Inggris) adalah tugas yang sulit. Proyek ini menggunakan metode studi mendalam di mana kami menerapkan Jaringan Syaraf Berulang (CNN) dengan Jaringan Syaraf Berulang (LSTM) untuk membuat generator deskripsi gambar.

Kumpulan Data: Flickr 8K

Bahasa: Python

Kerangka Kerja: Keras

10. Deteksi Penipuan Kartu Kredit (Definisi penipuan kartu kredit)


Lakukan yang terbaik dengan mengerjakan ide proyek Ilmu Data - mendeteksi penipuan kartu kredit menggunakan pembelajaran mesin .

gambar

Sekarang, Anda sudah mulai memahami metode dan konsep. Mari kita beralih ke beberapa proyek ilmu data tingkat lanjut. Dalam proyek ini, kita akan menggunakan bahasa R dengan algoritma seperti pohon keputusan , regresi logistik, jaringan saraf tiruan, dan classifier boost gradien. Kami akan menggunakan data transaksi kartu yang ditetapkan untuk mengklasifikasikan transaksi kartu kredit sebagai penipuan dan asli. Kami akan memilih model yang berbeda untuk mereka dan membangun kurva kinerja.

Bahasa: R

Kumpulan Data / Paket: Dataset Transaksi Kartu

11. Sistem Rekomendasi Film


Pelajari cara menerapkan proyek Ilmu Data terbaik dengan Kode Sumber - Sistem Rekomendasi Film di R

gambar

Dalam proyek Ilmu Data ini, kami akan menggunakan R untuk memenuhi rekomendasi film melalui pembelajaran mesin. Sistem rekomendasi mengirimkan saran kepada pengguna melalui proses penyaringan berdasarkan preferensi pengguna lain dan riwayat penelusuran. Jika A dan B menyukai Home Alone, dan B menyukai Mean Girls, maka Anda dapat menawarkan A - mereka mungkin juga menyukainya. Ini memungkinkan pelanggan untuk berinteraksi dengan platform.

Bahasa: R

Kumpulan Data / Paket: Kumpulan data MovieLens

12. Segmentasi Pelanggan


Mengesankan pemberi kerja dengan proyek Ilmu Data (termasuk kode sumber) - Segmentasi Pelanggan Menggunakan Pembelajaran Mesin .

gambar

Segmentasi pelanggan adalah aplikasi pembelajaran populer tanpa pengawasan . Menggunakan pengelompokan, perusahaan menentukan segmen pelanggan untuk bekerja dengan basis pengguna potensial. Mereka membagi klien ke dalam kelompok sesuai dengan karakteristik umum, seperti jenis kelamin, usia, minat, dan kebiasaan belanja, sehingga mereka dapat secara efektif menjual produk mereka ke masing-masing kelompok. Kami akan menggunakan pengelompokan K-means , serta memvisualisasikan distribusi berdasarkan jenis kelamin dan usia. Kemudian kami menganalisis pendapatan tahunan dan tingkat pengeluaran mereka.

Bahasa: R

Dataset / Paket: dataset Mall_Customers

13. Klasifikasi Kanker Payudara


Lihat implementasi penuh proyek Ilmu Data dalam Python - Klasifikasi Kanker Payudara dengan Pembelajaran Jauh .

gambar

Kembali ke kontribusi medis ilmu data, mari kita belajar cara mendeteksi kanker payudara menggunakan Python. Kami akan menggunakan dataset IDC_regular untuk mendeteksi karsinoma saluran invasif, bentuk paling umum dari kanker payudara. Ini berkembang di saluran susu, menembus ke dalam jaringan fibrosa atau lemak dari kelenjar susu di luar saluran. Dalam ide proyek pengumpulan data ilmiah ini, kita akan menggunakan Deep Learning dan perpustakaan Keras untuk klasifikasi.

Bahasa: Python

Set Data / Paket: IDC_regular

14. Pengakuan Tanda Lalu Lintas


Mencapai Keakuratan dalam Teknologi Self-Driving dengan Proyek Pengakuan Tanda Sains Data Menggunakan CNN Open Source.

gambar

Rambu lalu lintas dan peraturan lalu lintas sangat penting bagi setiap pengemudi untuk menghindari kecelakaan. Untuk mengikuti aturan, pertama-tama Anda harus memahami seperti apa tanda jalan itu. Seseorang harus mempelajari semua rambu-rambu jalan sebelum diberi hak untuk mengendarai kendaraan apa pun. Tetapi sekarang jumlah kendaraan otonom meningkat, dan dalam waktu dekat, orang tidak akan lagi dapat secara mandiri mengendalikan mesin. Dalam proyek "Pengenalan Tanda Lalu Lintas", Anda akan belajar bagaimana program dapat mengenali jenis rambu lalu lintas dengan menerima gambar sebagai sinyal input. Daftar Periksa Pengakuan Tanda Jalan Jerman (GTSRB) digunakan untuk membangun jaringan saraf yang dalam untuk mengenali kelas tempat tanda jalan tersebut berada. Kami juga membuat antarmuka grafis sederhana untuk berinteraksi dengan aplikasi.

Bahasa: Python

Kumpulan Data : GTSRB (Tolok Ukur Tanda Tanda Lalu Lintas Jerman)

Baca lebih lanjut





Baca juga blognya
Perusahaan EDISON:


20 perpustakaan untuk
aplikasi iOS yang spektakuler

Source: https://habr.com/ru/post/id480378/


All Articles