( c )

Github n'est pas seulement une plate-forme d'hébergement et de développement conjoint de projets informatiques, mais également une énorme base de connaissances compilée par des centaines d'experts. Heureusement, le service fournit non seulement des outils pour travailler avec du code open source, mais également du matériel de formation de haute qualité. Nous avons sélectionné certains référentiels populaires et les avons triés par nombre d'étoiles dans l'ordre décroissant.

Cette collection vous aidera à déterminer les référentiels auxquels vous devez prêter attention si vous souhaitez travailler avec des données et une formation approfondie.

Science des données

Le Master Open Data Science Science
Étoiles: 11 227, fourchettes: 4 737

Le référentiel officiel du programme de Master Data Science , développé comme une alternative open-source à l'éducation formelle dans le domaine de la Data Science. Le référentiel est une collection de supports de formation collectés sur plusieurs années.

Génial science des données
Étoiles: 9240, fourchettes: 2761

Collection puissante qui répond aux questions: «Qu'est-ce que la science des données?» et "ce que vous devez savoir pour bien connaître cette science?". Idéalement divisé en catégories. Par exemple, il existe une liste de livres sur la science des données, une sélection d'infographies et même des groupes thématiques sur Facebook .

Cahier interactif Jupyter
Étoiles: 5 242, fourchettes: 2 331

L'ancêtre de ce référentiel est une plate-forme pour travailler avec des scripts dans 40 langages de programmation Data Science iPython Notebooks , avec plus de 14 000 étoiles et 4 000 fourches. Les spécialistes du traitement des données et de l'apprentissage automatique l'ont activement utilisé pour le calcul scientifique.

Aujourd'hui, Jupyter Notebook est un ensemble pratique de fichiers de bloc-notes constitués de paragraphes dans lesquels les demandes sont écrites et exécutées. À l'aide de visualiseurs intégrés, un bloc-notes avec un ensemble de requêtes se transforme en un tableau de bord de données à part entière.

Blogs sur la science des données
Étoiles: 4510, fourchettes: 1178

Une liste simple mais complète de matériel de formation, triée par ordre alphabétique. Vous trouverez ici tous les blogs populaires, ainsi que de nombreux petits sites contenant des informations utiles (un total de 251 ressources sont répertoriées).

Spécialisation en science des données
Étoiles: 3 114, fourchettes: 27 184

Le Data Science Education Repository de l'Université Johns Hopkins est un cours très populaire de Roger Pen, Jeff Lick et Brian Cuffo. Pour être plus précis, le programme de formation dans la spécialité «Data Science» de Coursera comprend plusieurs cours interconnectés sur divers sujets (par exemple, la programmation R) liés à divers aspects de l'analyse des données, et le référentiel présenté dans la collection combine les informations utilisées dans tous les cours.

Cahier Spark
Étoiles: 2 677, fourchettes: 587

Spark Notebook est un bloc-notes open source qui fournit un éditeur Web interactif qui peut combiner du code Scala, des requêtes SQL, du balisage et du JavaScript pour analyser et explorer les données ensemble.

Apprenez la science des données
Étoiles: 2129, fourchettes: 1210

Une collection de cahiers iPython axés sur les concepts fondamentaux de l'apprentissage automatique pour les débutants.

La science des données sur la ligne de commande
Étoiles: 2057, Fourchettes: 503

Le référentiel contient des textes, des données, des scripts et des outils utilisateur de console utilisés dans Data Science sur la ligne de commande . Ce guide pratique montre comment combiner des outils de ligne de commande petits mais puissants pour récupérer, nettoyer, rechercher et modéliser rapidement des données.

Site communautaire de spécialisation en science des données
Étoiles: 1 395, fourchettes: 2 661

Plusieurs étudiants qui ont terminé le cours à l'Université Johns Hopkins ont créé un contenu d'une telle qualité que le personnel de l'université l'a partagé et a également créé un catalogue pour tout le contenu intéressant créé par la communauté.

Visualisation des données pour le web

D3
Étoiles: 81837, Fourchettes: 20282

D3 est une bibliothèque de visualisation de données JavaScript pour HTML et SVG. Dans D3, l'accent est mis sur les normes Web, vous pouvez donc utiliser toutes les capacités des navigateurs modernes sans vous lier à une structure propriétaire, combinant de puissants composants de visualisation, une approche contrôlée et une interaction avec le modèle d'objet de document (DOM) . Il s'agit du projet de visualisation de données le plus populaire sur GitHub.

Chart.js
Étoiles: 41393, fourchettes: 9294

Chart.js est une bibliothèque HTML5 qui crée des visualisations via l'élément <canvas>. Chart.js se positionne comme un outil simple et flexible, interactif, prenant en charge six types de graphiques différents.

Eharts
Étoiles: 32204, fourchettes: 9369

ECharts est une bibliothèque basée sur un navigateur pour la représentation graphique et la visualisation. Facile à utiliser, intuitif et facile à configurer.

Dépliant
Étoiles: 23 810, fourchettes: 3 937

Bibliothèque JavaScript pour créer des cartes interactives axées sur les applications mobiles. Le code de la bibliothèque est incroyablement petit - il est conçu pour une utilisation simple, rapide et pratique. Les fonctionnalités de la brochure peuvent être étendues via un ensemble de plugins.

Sigma.js
Étoiles: 8 348, fourchettes: 1 305

Bibliothèque JS orientée graphique. Sigma vous permet de développer des représentations graphiques sur des pages Web et de les intégrer dans des applications Web.

Vega
Étoiles: 6559, Fourchettes: 702

Vega est un langage déclaratif pour créer, enregistrer et partager des projets de visualisation interactive. En l'utilisant, vous pouvez décrire l'apparence et le comportement interactif de la visualisation au format JSON, ainsi que créer des vues Web à l'aide de Canvas ou SVG. Vega fournit les blocs de construction de base pour un large éventail de projets de visualisation: chargement et conversion de données, mise à l'échelle, projections cartographiques, légende, étiquettes graphiques, etc.

DC.js
Étoiles: 6 458, fourchettes: 1 734

DC.js est un diagramme multidimensionnel construit sur D3.js pour travailler avec un filtre croisé . DC.js s'affiche au format SVG compatible avec CSS. Conçu pour une analyse puissante des données à la fois dans le navigateur et sur les appareils mobiles.

Époque
Étoiles: 4949, fourchettes: 290

Bibliothèque de visualisation universelle en temps réel. Il se concentre sur deux aspects différents: les graphiques de base pour créer des rapports historiques et les graphiques en temps réel pour afficher les données de séries chronologiques fréquemment mises à jour.

Apprentissage profond

Keras
Étoiles: 37611, fourchettes: 14344

Keras est une bibliothèque d'apprentissage en profondeur Python utilisée à la fois par TensorFlow et Theano (oui, vous pouvez l'exécuter au-dessus des bibliothèques TensorFlow , Theano et CNTK ). Keras est conçu pour une expérimentation rapide, car la clé pour faire de bonnes recherches est la capacité de passer de l'idée au résultat avec le moins de retard. Grâce à une documentation complète et accessible, Keras occupe à juste titre une place dans notre sélection.

Caffe
Étoiles: 26 892, fourchettes: 16 276

Caffe (Convolution Architecture For Feature Extraction) est une bibliothèque d'apprentissage en profondeur reliant Python et MATLAB. En fait, c'est une bibliothèque polyvalente conçue pour le déploiement de réseaux convolutifs et pour la reconnaissance d'images, de la parole ou du multimédia.

Il existe également un projet Caffe2, qui comprend de nouvelles fonctionnalités, en particulier, les réseaux de neurones récurrents. En mai 2018, les équipes Caffe2 et PyTorch ont fusionné, le code Caffe2 a été transféré dans le référentiel PyTorch (étoiles: 24 075 , fourches: 5 707 ).

MXNet
Étoiles: 16157, fourchettes: 5824

Environnement d'apprentissage en profondeur léger, compact et flexible pour Python, R, Julia, Scala, Go, JavaScript, etc. Pour de meilleures performances, MXNet vous permet de mélanger des méthodes de programmation impératives et symboliques. Le projet contient également des lignes directrices pour la création d'autres systèmes d'apprentissage en profondeur.

Ordinateurs portables IPython Data Science
Étoiles: 14747, fourchettes: 4410

La collection de cahiers iPython, y compris les mégadonnées, Hadoop, scikit-learn, les bibliothèques conçues pour l'informatique scientifique, etc. En parlant d'apprentissage en profondeur, TensorFlow, Theano, Caffe et d'autres outils sont couverts.

Convnetjs
Étoiles: 9 510, Fourchettes: 1 982

ConvNetJS est une implémentation de réseaux de neurones et de leurs modules JavaScript communs. Le projet n'est actuellement pas soutenu, mais mérite tout de même l'attention. Vous permet d'apprendre les réseaux convolutionnels (ou réguliers) directement dans le navigateur.

Deeplearning4j
Étoiles: 10227, fourchettes: 4570

Bibliothèque d'apprentissage en profondeur pour Java et Scala. S'intègre à Hadoop et Spark. Deeplearning4j permet également le calcul GPU compatible CUDA. De plus, il existe des outils pour travailler avec la bibliothèque en Python. Le référentiel contient toute la documentation et les tutoriels nécessaires.

Tutoriels d'apprentissage en profondeur de LISA Lab
Étoiles: 3 673, fourchettes: 2 045

Une collection de manuels de l'Université de Montréal. Le matériel présenté ici présente certains des algorithmes d'apprentissage en profondeur les plus importants, et démontre également le principe de travailler avec Theano. Theano est une bibliothèque Python qui simplifie l'écriture de modèles d'apprentissage profond et permet de les former sur le GPU.

Avec cette liste, le nombre de choses intéressantes sur le Github n'est pas limité. La prochaine fois, nous parlerons de projets d'apprentissage automatique et d'ensembles de données ouverts. Si vous avez vos propres exemples de référentiels intéressants, partagez-les dans les commentaires.

Un autre GitHub: des référentiels sur la science des données, la visualisation des données et le Deep Learning

Science des données

Visualisation des données pour le web

Apprentissage profond

More articles: