Lettre à un débutant pour étudier la science des données

J'aimerais recevoir une telle lettre il y a trois ans alors que je commençais à peine à étudier la Data Science (DS). Qu'il y avait des liens nécessaires vers des documents utiles. L'article ne prétend pas couvrir le vaste domaine de DS. Cependant, pour un spécialiste novice, cela sera utile.


Les réseaux de neurones sont ...


Les technologies suivantes sont les plus couramment utilisées dans DS:


  • maîtrise de l'anglais;
  • Système d'exploitation Ubuntu Linux (tel qu'il s'est développé historiquement);
  • Langage de programmation Python (mais meilleur qu'Anaconda Python );
  • L' environnement de développement intégré (IDE) de PyCharm (l'édition communautaire est gratuite);
  • infrastructure (cadre) pour l'apprentissage automatique (apprentissage automatique ML), l'apprentissage profond (apprentissage profond DL) et la création de réseaux de neurones ( PyTorch , TensorFlow et des dizaines d'autres );
  • si vous ne disposez pas de votre propre carte graphique puissante (unité de traitement graphique GPU), vous devez utiliser des technologies cloud gratuites basées sur Jupyter Notebook ;
  • la possibilité d'utiliser un système de contrôle de version distribué Git ( GitHub , GitLab , Bitbucket , etc.);
  • Avoir un compte sur StackOverflow et toutes ses branches .

De plus, au fil du temps, vous aurez besoin de nombreuses bibliothèques et outils supplémentaires pour le traitement des images et des données. Il y en a des dizaines. Le plus utile pour moi ( traitement d'image ) par ordre décroissant d'importance:


  • Environnement virtuel - un environnement de développement virtuel pour divers projets, qui encapsule différentes versions de bibliothèques et d'outils.
  • NumPy - travail avec matrices, algèbre linéaire.
  • OpenCV - de nombreux algorithmes différents pour travailler avec des images.
  • Jupyter Notebook est une application Web pour développer et exécuter des programmes Python dans un navigateur et dans le cloud.
  • Tensorflow-gpu - configuration de réseaux de neurones et calculs sur cartes graphiques.
  • iPython est un travail de console plus pratique avec les commandes Python, je vous conseille de l'utiliser à la place de la console par défaut.
  • Matplotlib - dessiner des graphiques et des tableaux.
  • Oreiller - fonctionne avec tous les formats d'image populaires.
  • Pandas - travaillez avec des données.
  • SciPy - travail avancé avec algorithmes, une alternative gratuite au programme MatLab.
  • Scikit-learn - algorithmes d'apprentissage automatique.
  • Scikit-image - traitement d'image avancé.
  • K3D - travaillez avec des graphiques et des images en trois dimensions dans le cahier Jupyter.

L'apprentissage automatique (apprentissage automatique ML), et en particulier l'apprentissage profond (apprentissage profond) sont impossibles sans données. Les bases de données nécessaires (jeux de données, jeux de données) peuvent être recherchées via le service de recherche de jeux de données Google ou parmi 25 000 jeux de données Kaggle .


Eh bien venez nous montrer des exemples


Ce que j'ai:



Merci de votre attention!

Source: https://habr.com/ru/post/fr482652/


All Articles