Ilmu Data untuk Pemula1. Analisis Sentimen

Lihat implementasi penuh proyek Ilmu Data menggunakan kode sumber -
Proyek Analisis Sentimen di R.Sentiment Analysis adalah analisis kata untuk mengidentifikasi suasana hati dan pendapat yang bisa positif atau negatif. Ini adalah jenis klasifikasi di mana kelas dapat biner (positif dan negatif) atau jamak (bahagia, jahat, sedih, jahat ...). Kami akan mengimplementasikan proyek Ilmu Data ini dalam bahasa R dan akan menggunakan set data dalam paket janeaustenR. Kami akan menggunakan kamus untuk keperluan umum, seperti AFINN, bing dan loughran, untuk terhubung secara internal, dan pada akhirnya kami akan membuat kata cloud untuk menampilkan hasilnya.
Bahasa: R
Set Data
/ Paket: janeaustenR

Artikel ini diterjemahkan dengan dukungan EDISON Software, sebuah perusahaan yang membuat ruang pas virtual untuk toko multi-merek , dan juga menguji perangkat lunak .
2. Deteksi Berita Palsu
Tingkatkan keterampilan Anda ke tingkat selanjutnya dengan mengerjakan proyek Ilmu Data untuk pemula -
menemukan berita palsu menggunakan Python .

Berita palsu adalah informasi palsu yang disebarluaskan melalui jejaring sosial dan media online lainnya untuk mencapai tujuan politik. Dalam ide proyek Ilmu Data ini, kami akan menggunakan Python untuk membangun model yang dapat secara akurat menentukan apakah berita itu nyata atau palsu. Kami akan membuat TfidfVectorizer dan menggunakan PassiveAggressiveClassifier untuk mengklasifikasikan berita menjadi "nyata" dan "palsu". Kami akan menggunakan dataset formulir 7796 × 4 dan menjalankan semuanya di Lab Jupyter.
Bahasa: Python
Set Data
/ Paket: news.csv
3. Mendeteksi Penyakit Parkinson (Deteksi Penyakit Parkinson)
Silakan dengan Ide Proyek Data Science -
mengidentifikasi penyakit Parkinson dengan XGBoost .

Kami mulai menggunakan Ilmu Data untuk meningkatkan layanan kesehatan dan layanan - jika kami dapat memprediksi penyakit pada tahap awal, kami akan memiliki banyak manfaat. Jadi, dalam ide proyek Ilmu Data ini, kita akan belajar bagaimana mendeteksi penyakit Parkinson menggunakan Python. Ini adalah penyakit neurodegeneratif progresif sistem saraf pusat yang memengaruhi gerakan dan menyebabkan gemetar dan kaku. Ini mempengaruhi neuron penghasil dopamin di otak, dan setiap tahun, itu mempengaruhi lebih dari 1 juta orang di India.
Bahasa: Python
Dataset
/ Paket: Dataset UCI ML Parkinson
Proyek Sains Data dengan kompleksitas sedang4. Pengenalan Emosi Pidato
Lihat implementasi penuh proyek sampel Ilmu Data -
Pengenalan Bicara dengan Librosa .

Sekarang mari kita belajar cara menggunakan perpustakaan yang berbeda. Proyek Ilmu Data ini menggunakan librosa untuk pengenalan ucapan. SER adalah proses menentukan emosi manusia dan keadaan afektif dari ucapan. Karena kami menggunakan pitch dan pitch untuk mengekspresikan emosi dalam suara, SER relevan. Tetapi karena emosi bersifat subjektif, membuat anotasi suara adalah tugas yang menakutkan. Kami akan menggunakan fungsi mfcc, chroma dan mel dan menggunakan dataset RAVDESS untuk mengenali emosi. Kami akan membuat classifier MLPC untuk model ini.
Bahasa: Python
Set Data
/ Paket: RAVDESS dataset
5. Deteksi Gender dan Usia
Majikan para pengusaha dengan proyek Ilmu Data terbaru -
Gender dan Penentuan Usia dengan OpenCV .

Ini adalah Ilmu Data yang menarik dengan Python. Dengan hanya menggunakan satu gambar, Anda akan belajar memprediksi jenis kelamin dan usia seseorang. Dalam hal ini kami akan memperkenalkan Anda kepada Computer Vision dan prinsip-prinsipnya. Kami akan membangun
jaringan saraf convolutional dan akan menggunakan model yang dilatih oleh Tal Hassner dan Jill Levy untuk dataset Adience. Sepanjang jalan, kita akan menggunakan beberapa file .pb, .pbtxt, .prototxt, dan .caffemodel.
Bahasa: Python
Set Data
/ Paket: Adience
6. Analisis Data Uber
Lihat implementasi penuh proyek Sumber Sains Data Sains,
Proyek Analisis Data Uber di R.
Ini adalah proyek visualisasi data dengan ggplot2, di mana kita akan menggunakan R dan perpustakaannya dan menganalisis berbagai parameter. Kami akan menggunakan dataset Uber Pickups di New York dan membuat visualisasi untuk berbagai kerangka waktu tahun ini. Ini memberitahu kita bagaimana waktu mempengaruhi perjalanan pelanggan.
Bahasa: R
Paket Data
: Paket Uber di dataset Kota New York
7. Deteksi pengemudi Mengantuk
Tingkatkan keterampilan Anda saat bekerja di Top Data Science Project -
sistem deteksi tidur dengan OpenCV & Keras .

Mengemudi mengantuk sangat berbahaya, dan setiap tahun ada sekitar seribu kecelakaan karena pengemudi tertidur saat mengemudi. Dalam proyek Python ini, kami akan membuat sistem yang dapat mendeteksi driver yang mengantuk, serta memberi tahu mereka dengan sinyal suara.
Proyek ini diimplementasikan menggunakan Keras dan OpenCV. Kami akan menggunakan OpenCV untuk mendeteksi wajah dan mata, dan dengan Keras kami akan mengklasifikasikan keadaan mata (Terbuka atau Tertutup) menggunakan teknik jaringan saraf yang mendalam.
8. Chatbot
Buat
chatbot menggunakan Python dan melangkah maju dalam karier Anda -
Chatbot dengan NLTK & Keras .

Chatbots adalah bagian integral dari bisnis. Banyak perusahaan harus menawarkan layanan kepada pelanggan mereka, dan layanan mereka membutuhkan banyak tenaga, waktu dan usaha. Chatbots dapat mengotomatiskan sebagian besar interaksi pelanggan mereka dengan menjawab beberapa pertanyaan umum yang diajukan pelanggan. Pada dasarnya ada dua jenis chatbots: Domain-spesifik dan Open-domain. Bot obrolan khusus domain sering digunakan untuk menyelesaikan masalah tertentu. Dengan demikian, Anda perlu mengkonfigurasinya untuk bekerja secara efektif di bidang Anda. Bot obrolan domain terbuka dapat ditanyakan, sehingga dibutuhkan sejumlah besar data untuk melatihnya.
Kumpulan Data
: Maksud file json
Bahasa: Python
Proyek Sains Data Lanjutan9. Pembuat Keterangan Gambar
Lihat implementasi proyek lengkap dengan kode sumber -
Generator Keterangan Gambar dengan CNN & LSTM .

Deskripsi apa yang ada dalam gambar adalah tugas yang mudah bagi orang-orang, tetapi untuk komputer, gambar hanyalah sekumpulan angka yang mewakili nilai warna setiap piksel. Ini adalah tugas yang sulit untuk komputer. Memahami apa yang ada dalam gambar dan kemudian membuat deskripsi dalam bahasa alami (misalnya, dalam bahasa Inggris) adalah tugas yang sulit. Proyek ini menggunakan metode studi mendalam di mana kami menerapkan Jaringan Syaraf Berulang (CNN) dengan Jaringan Syaraf Berulang (LSTM) untuk membuat generator deskripsi gambar.
Kumpulan Data: Flickr 8K
Bahasa: Python
Kerangka Kerja: Keras
10. Deteksi Penipuan Kartu Kredit (Definisi penipuan kartu kredit)
Lakukan yang terbaik dengan mengerjakan ide proyek Ilmu Data -
mendeteksi penipuan kartu kredit menggunakan pembelajaran mesin .

Sekarang, Anda sudah mulai memahami metode dan konsep. Mari kita beralih ke beberapa proyek ilmu data tingkat lanjut. Dalam proyek ini, kita akan menggunakan bahasa R dengan algoritma seperti
pohon keputusan , regresi logistik, jaringan saraf tiruan, dan classifier boost gradien. Kami akan menggunakan data transaksi kartu yang ditetapkan untuk mengklasifikasikan transaksi kartu kredit sebagai penipuan dan asli. Kami akan memilih model yang berbeda untuk mereka dan membangun kurva kinerja.
Bahasa: R
Kumpulan Data
/ Paket: Dataset Transaksi Kartu
11. Sistem Rekomendasi Film
Pelajari cara menerapkan proyek Ilmu Data terbaik dengan Kode Sumber -
Sistem Rekomendasi Film di R
Dalam proyek Ilmu Data ini, kami akan menggunakan R untuk memenuhi rekomendasi film melalui pembelajaran mesin. Sistem rekomendasi mengirimkan saran kepada pengguna melalui proses penyaringan berdasarkan preferensi pengguna lain dan riwayat penelusuran. Jika A dan B menyukai Home Alone, dan B menyukai Mean Girls, maka Anda dapat menawarkan A - mereka mungkin juga menyukainya. Ini memungkinkan pelanggan untuk berinteraksi dengan platform.
Bahasa: R
Kumpulan Data
/ Paket: Kumpulan data MovieLens
12. Segmentasi Pelanggan
Mengesankan pemberi kerja dengan proyek Ilmu Data (termasuk kode sumber) -
Segmentasi Pelanggan Menggunakan Pembelajaran Mesin .

Segmentasi pelanggan adalah aplikasi
pembelajaran populer
tanpa pengawasan . Menggunakan pengelompokan, perusahaan menentukan segmen pelanggan untuk bekerja dengan basis pengguna potensial. Mereka membagi klien ke dalam kelompok sesuai dengan karakteristik umum, seperti jenis kelamin, usia, minat, dan kebiasaan belanja, sehingga mereka dapat secara efektif menjual produk mereka ke masing-masing kelompok. Kami akan menggunakan
pengelompokan K-means , serta memvisualisasikan distribusi berdasarkan jenis kelamin dan usia. Kemudian kami menganalisis pendapatan tahunan dan tingkat pengeluaran mereka.
Bahasa: R
Dataset
/ Paket: dataset Mall_Customers
13. Klasifikasi Kanker Payudara
Lihat implementasi penuh proyek Ilmu Data dalam Python -
Klasifikasi Kanker Payudara dengan Pembelajaran Jauh .

Kembali ke kontribusi medis ilmu data, mari kita belajar cara mendeteksi kanker payudara menggunakan Python. Kami akan menggunakan dataset IDC_regular untuk mendeteksi karsinoma saluran invasif, bentuk paling umum dari kanker payudara. Ini berkembang di saluran susu, menembus ke dalam jaringan fibrosa atau lemak dari kelenjar susu di luar saluran. Dalam ide proyek pengumpulan data ilmiah ini, kita akan menggunakan
Deep Learning dan perpustakaan Keras untuk klasifikasi.
Bahasa: Python
Set Data
/ Paket: IDC_regular
14. Pengakuan Tanda Lalu Lintas
Mencapai Keakuratan dalam Teknologi Self-Driving dengan Proyek
Pengakuan Tanda Sains Data
Menggunakan CNN Open Source.

Rambu lalu lintas dan peraturan lalu lintas sangat penting bagi setiap pengemudi untuk menghindari kecelakaan. Untuk mengikuti aturan, pertama-tama Anda harus memahami seperti apa tanda jalan itu. Seseorang harus mempelajari semua rambu-rambu jalan sebelum diberi hak untuk mengendarai kendaraan apa pun. Tetapi sekarang jumlah kendaraan otonom meningkat, dan dalam waktu dekat, orang tidak akan lagi dapat secara mandiri mengendalikan mesin. Dalam proyek "Pengenalan Tanda Lalu Lintas", Anda akan belajar bagaimana program dapat mengenali jenis rambu lalu lintas dengan menerima gambar sebagai sinyal input. Daftar Periksa Pengakuan Tanda Jalan Jerman (GTSRB) digunakan untuk membangun jaringan saraf yang dalam untuk mengenali kelas tempat tanda jalan tersebut berada. Kami juga membuat antarmuka grafis sederhana untuk berinteraksi dengan aplikasi.
Bahasa: Python
Kumpulan Data
: GTSRB (Tolok Ukur Tanda Tanda Lalu Lintas Jerman)
Baca lebih lanjut

Baca juga blognya
Perusahaan EDISON:
20 perpustakaan untuk
aplikasi iOS yang spektakuler