14 projets open source pour pomper les compétences en science des données (facile, normal, difficile)

Science des données pour les débutants

1. Analyse de sentiment


image

Voir l'implémentation complète du projet Data Science en utilisant le code source - Sentiment Analysis Project dans R.

L'analyse des sentiments est une analyse de mots pour identifier les humeurs et les opinions qui peuvent être positives ou négatives. Il s'agit d'un type de classification dans lequel les classes peuvent être binaires (positives et négatives) ou plurielles (joyeuses, mauvaises, tristes, méchantes ...). Nous mettrons en œuvre ce projet Data Science en langage R et utiliserons l'ensemble de données du package janeaustenR. Nous utiliserons des dictionnaires à usage général, tels que AFINN, bing et loughran, pour effectuer une jointure interne, et à la fin, nous créerons un nuage de mots pour afficher le résultat.

Langue: R
Jeu de données / package: janeaustenR

Logiciel EDISON - développement web
Cet article a été traduit avec le soutien d'EDISON Software, une entreprise qui fabrique des cabines d'essayage virtuelles pour les magasins multimarques , et teste également des logiciels .


2. Détection de fausses nouvelles


Faites passer vos compétences au niveau supérieur en travaillant sur le projet Data Science pour les débutants - en découvrant de fausses nouvelles en utilisant Python .

image

Les fausses nouvelles sont de fausses informations diffusées via les réseaux sociaux et d'autres médias en ligne pour atteindre des objectifs politiques. Dans cette idée de projet Data Science, nous allons utiliser Python pour construire un modèle qui peut déterminer avec précision si les nouvelles sont réelles ou fausses. Nous allons créer un TfidfVectorizer et utiliser le PassiveAggressiveClassifier pour classer les nouvelles en «réel» et «faux». Nous utiliserons l'ensemble de données du formulaire 7796 × 4 et exécuterons tout dans le Jupyter Lab.

Langue: Python

Jeu de données / package: news.csv

3. Détection de la maladie de Parkinson (détection de la maladie de Parkinson)


Allez-y avec l'idée du Data Science Project - identifier la maladie de Parkinson avec XGBoost .

image

Nous avons commencé à utiliser la science des données pour améliorer les soins de santé et les services - si nous pouvons prédire la maladie à un stade précoce, nous en retirerons de nombreux avantages. Ainsi, dans cette idée de projet Data Science, nous apprendrons à détecter la maladie de Parkinson en utilisant Python. Il s'agit d'une maladie neurodégénérative progressive du système nerveux central qui affecte les mouvements et provoque des tremblements et des raideurs. Il affecte les neurones producteurs de dopamine dans le cerveau et, chaque année, il affecte plus d'un million de personnes en Inde.

Langue: Python

Ensemble de données / package: ensemble de données UCI ML Parkinsons

Projets de science des données de complexité moyenne

4. Reconnaissance de l'émotion de la parole


Découvrez la mise en œuvre complète de l'exemple de projet Data Science - Reconnaissance vocale avec Librosa .

image

Voyons maintenant comment utiliser différentes bibliothèques. Ce projet Data Science utilise la librosa pour la reconnaissance vocale. SER est le processus de détermination des émotions humaines et des états affectifs à partir de la parole. Puisque nous utilisons le pitch et le pitch pour exprimer des émotions dans la voix, SER est pertinent. Mais comme les émotions sont subjectives, l'annotation du son est une tâche intimidante. Nous utiliserons les fonctions mfcc, chroma et mel et utiliserons l'ensemble de données RAVDESS pour reconnaître les émotions. Nous allons créer un classificateur MLPC pour ce modèle.

Langue: Python

Ensemble de données / package: ensemble de données RAVDESS

5. Détection du sexe et de l'âge


Etonnez les employeurs avec le dernier projet Data Science - Détermination du sexe et de l'âge avec OpenCV .

image

Il s'agit d'une science des données intéressante avec Python. En utilisant une seule image, vous apprendrez à prédire le sexe et l'âge d'une personne. En cela, nous vous présenterons la vision par ordinateur et ses principes. Nous allons construire un réseau neuronal convolutionnel et utiliser des modèles formés par Tal Hassner et Jill Levy pour l'ensemble de données Adience. En cours de route, nous utiliserons des fichiers .pb, .pbtxt, .prototxt et .caffemodel.

Langue: Python

Ensemble de données / package: Adience

6. Analyse des données Uber


Voir la mise en œuvre complète du projet Source Science Data Science, le projet d'analyse de données Uber dans R.

image

Il s'agit d'un projet de visualisation de données avec ggplot2, dans lequel nous allons utiliser R et ses bibliothèques et analyser divers paramètres. Nous utiliserons le jeu de données Uber Pickups à New York et créerons des visualisations pour différentes périodes de l'année. Cela nous indique comment le temps affecte les déplacements des clients.

Langue: R

Ensemble de données / package: Uber Pickups in New York City dataset

7. Détection de somnolence du conducteur


Améliorez vos compétences tout en travaillant sur le projet Top Data Science - un système de détection du sommeil avec OpenCV et Keras .

image

La conduite somnolente est extrêmement dangereuse et chaque année, il y a environ un millier d'accidents dus au fait que les conducteurs s'endorment en conduisant. Dans ce projet Python, nous allons créer un système capable de détecter les pilotes somnolents, ainsi que de les avertir par un signal sonore.

Ce projet est implémenté en utilisant Keras et OpenCV. Nous utiliserons OpenCV pour détecter le visage et les yeux, et avec Keras, nous classerons l'état de l'œil (ouvert ou fermé) en utilisant des techniques de réseau de neurones profonds.

8. Chatbot


Créez un chatbot en utilisant Python et faites un pas en avant dans votre carrière - Chatbot avec NLTK & Keras .

image

Les chatbots font partie intégrante de l'entreprise. De nombreuses entreprises doivent offrir des services à leurs clients, et leur service nécessite beaucoup de travail, de temps et d'efforts. Les chatbots peuvent automatiser la plupart de leurs interactions avec les clients en répondant à certaines des questions courantes que les clients posent. Il existe essentiellement deux types de chatbots: spécifiques au domaine et ouverts. Un bot de chat spécifique au domaine est souvent utilisé pour résoudre un problème spécifique. Ainsi, vous devez le configurer pour qu'il fonctionne efficacement dans votre domaine. Les bots de chat en domaine ouvert peuvent être interrogés, donc une énorme quantité de données est nécessaire pour les former.

Jeu de données : Intents json file

Langue: Python

Projets avancés de science des données

9. Générateur de légende d'image


Découvrez l'implémentation complète du projet avec le code source - Générateur de légendes d'images avec CNN et LSTM .

image

La description de ce qui est dans l'image est une tâche facile pour les gens, mais pour les ordinateurs, une image n'est qu'un ensemble de nombres qui représentent la valeur de couleur de chaque pixel. C'est une tâche difficile pour les ordinateurs. Comprendre ce qu'il y a dans l'image puis créer une description en langage naturel (par exemple, en anglais) est une autre tâche difficile. Ce projet utilise des méthodes d'étude approfondie dans lesquelles nous implémentons un réseau neuronal récurrent (CNN) avec un réseau neuronal récurrent (LSTM) pour créer un générateur de description d'image.

Jeu de données: Flickr 8K

Langue: Python

Cadre: Keras

10. Détection de fraude par carte de crédit (définition de la fraude par carte de crédit)


Faites de votre mieux en travaillant sur l'idée du projet Data Science - détecter la fraude par carte de crédit à l'aide de l'apprentissage automatique .

image

Vous avez maintenant commencé à comprendre les méthodes et les concepts. Passons à quelques projets avancés de science des données. Dans ce projet, nous utiliserons le langage R avec des algorithmes tels que les arbres de décision , la régression logistique, les réseaux de neurones artificiels et le classificateur de boost de gradient. Nous utiliserons un ensemble de données sur les transactions par carte pour classer les transactions par carte de crédit comme frauduleuses et authentiques. Nous allons sélectionner pour eux différents modèles et construire des courbes de performances.

Langue: R

Jeu de données / package: jeu de données de transactions par carte

11. Système de recommandation de films


Apprenez à mettre en œuvre le meilleur projet de science des données avec le code source - Système de recommandation de films dans R

image

Dans ce projet Data Science, nous utiliserons R pour répondre aux recommandations du film grâce à l'apprentissage automatique. Le système de recommandation envoie des suggestions aux utilisateurs via un processus de filtrage basé sur les préférences et l'historique de navigation des autres utilisateurs. Si A et B aiment Home Alone, et B aime Mean Girls, alors vous pouvez offrir A - ils pourraient aussi l'aimer. Cela permet aux clients d'interagir avec la plateforme.

Langue: R

Ensemble de données / package: ensemble de données MovieLens

12. Segmentation de la clientèle


Impressionnez les employeurs avec un projet Data Science (y compris le code source) - Segmentation des clients à l'aide du Machine Learning .

image

La segmentation client est une application d' apprentissage non supervisée populaire. En utilisant le clustering, les entreprises définissent des segments de clientèle pour travailler avec une base d'utilisateurs potentiels. Ils divisent les clients en groupes selon des caractéristiques communes, telles que le sexe, l'âge, les intérêts et les habitudes de dépenses, afin de pouvoir vendre efficacement leurs produits à chaque groupe. Nous utiliserons le clustering K-means et visualiserons la distribution par sexe et par âge. Nous analysons ensuite leurs revenus annuels et leur niveau de dépenses.

Langue: R

Ensemble de données / package: ensemble de données Mall_Customers

13. Classification du cancer du sein


Voir la mise en œuvre complète du projet Data Science dans Python - Classification du cancer du sein avec Deep Learning .

image

Revenant à l'apport médical de la science des données, apprenons à détecter le cancer du sein à l'aide de Python. Nous utiliserons l'ensemble de données IDC_regular pour détecter le carcinome canalaire invasif, la forme la plus courante de cancer du sein. Il se développe dans les canaux lactifères, pénétrant dans les tissus fibreux ou graisseux de la glande mammaire à l'extérieur du canal. Dans cette idée d'un projet de collecte de données scientifiques, nous utiliserons le Deep Learning et la bibliothèque Keras pour la classification.

Langue: Python

Ensemble de données / package: IDC_regular

14. Reconnaissance des panneaux de signalisation


Atteindre l'exactitude de la technologie de conduite autonome avec le projet de reconnaissance des signes de Data Science utilisant CNN Open Source.

image

Les panneaux de signalisation et les règles de circulation sont très importants pour chaque conducteur afin d'éviter les accidents. Pour suivre la règle, vous devez d'abord comprendre à quoi ressemble un panneau routier. Une personne doit apprendre tous les panneaux de signalisation avant d'avoir le droit de conduire un véhicule. Mais maintenant, le nombre de véhicules autonomes augmente, et dans un avenir proche, les gens ne pourront plus contrôler indépendamment la machine. Dans le projet «Traffic Sign Recognition», vous apprendrez comment le programme peut reconnaître le type de panneaux de signalisation en acceptant une image comme signal d'entrée. La liste de contrôle allemande de reconnaissance des panneaux de signalisation (GTSRB) est utilisée pour construire un réseau neuronal profond pour reconnaître la classe à laquelle appartient le panneau de signalisation. Nous créons également une interface graphique simple pour interagir avec l'application.

Langue: Python

Jeu de données : GTSRB (German Traffic Sign Recognition Benchmark)

Lire la suite





Lisez aussi le blog
Société EDISON:


20 bibliothèques pour
application iOS spectaculaire

Source: https://habr.com/ru/post/fr480378/


All Articles