Un autre Github 2: Machine Learning, Datasets et Jupyter Notebooks



Malgré les nombreuses sources de logiciels d'apprentissage automatique gratuits disponibles sur Internet, Github reste un important centre d'échange pour tous les types d'outils open source utilisés par la communauté de l'apprentissage automatique et de l'analyse de données.

Cette collection contient des référentiels d'apprentissage automatique, des jeux de données et des cahiers Jupyter, classés par nombre d'étoiles. Dans la partie précédente , nous avons parlé des référentiels populaires pour étudier la visualisation des données et le deep learning.

Apprentissage automatique


Génial apprentissage automatique
38 809, 9 615


Une liste impressionnante de systèmes, bibliothèques et logiciels classés par langue et catégorie (vision par ordinateur, traitement du langage naturel, etc.). De plus, dans ce référentiel, vous trouverez une liste de livres d'apprentissage machine gratuits, des cours d'apprentissage machine gratuits (principalement), des blogs de science des données.

Scikit-learn
34 067, 16 698


Développé depuis 2007, le module Python pour l'apprentissage automatique, construit sur la base des bibliothèques SciPy, NumPy et Matplotlib. Distribué sous la licence BSD 3-Clause. Scikit-learn est un outil de travail universel qui contient des algorithmes de classification, de régression et de clustering, ainsi que des méthodes de préparation des données et d'évaluation des modèles.

PredictionIO
11 703, 1 903


Un framework d'apprentissage machine open source qui prend en charge la collecte d'événements, le déploiement d'algorithmes, l'évaluation, des modèles pour des tâches bien connues telles que la classification et les recommandations. Se connecte aux applications existantes à l'aide de l'API REST ou du SDK. PredictionIO est basé sur des services open source évolutifs tels que Hadoop, HBase (et d'autres bases de données), Elasticsearch, Spark.

Plongez dans l'apprentissage automatique
9 163, 1 673


Matériel pour débutants sur le sujet. Le référentiel contient une collection de didacticiels IPython pour la bibliothèque Scikit-learn, qui implémente un grand nombre d'algorithmes d'apprentissage automatique, ainsi que plusieurs liens vers des sujets d'apprentissage automatique liés à Python et des informations plus générales sur l'analyse des données. L'auteur fournit des liens vers de nombreux autres didacticiels couvrant le sujet.

Motif
6 845, 1 353


Module de développement Web basé sur Python avec des outils d'analyse, de traitement du langage naturel (balisage de parties du discours, recherche n-gramme, analyse d'humeur, WordNet), apprentissage automatique, analyse de réseau et visualisation. Le module a été créé et bien documenté au Centre de recherche en linguistique informatique et psycholinguistique de l'Université d'Anvers (Belgique). Dans le référentiel, vous trouverez plus de 50 exemples de son utilisation.

Golearn
6 374, 867


Développement actif d'une bibliothèque d'apprentissage automatique pour Go. Fournit aux développeurs un progiciel complet, facile à utiliser et hautement personnalisable. GoLearn implémente l'interface d'apprentissage Scikit-learn familière.

Vowpal wabbit
6 189, 1 519


Le système Vowpal Wabbit repousse les limites de l'apprentissage automatique à l'aide de méthodes telles que le hachage, allreduce, learning2search et l'apprentissage actif et interactif. Vowpal Wabbit vise à modéliser rapidement des ensembles de données massifs et prend en charge l'apprentissage parallèle. Une attention particulière est accordée à l'apprentissage par renforcement à l'aide de plusieurs «algorithmes de gangster» contextuels.

NuPIC (plateforme Numenta pour l'informatique intelligente)
5 852, 1 570


NuPIC implémente des algorithmes d'apprentissage automatique de la mémoire temporelle hiérarchique (HTM). En général, HTM est une tentative de simuler les opérations de calcul du néocortex du cerveau humain et se concentre sur la conservation et l'invocation de modèles spatiaux et temporels. HTM est un système de mémoire, il n'est pas programmé, n'apprend pas à exécuter des algorithmes pour diverses tâches, il apprend à résoudre un problème. NuPIC convient à toutes sortes de tâches, en particulier pour détecter les anomalies de modèle.

aérosol
4,522, 570


aerosolve essaie de se distinguer des autres bibliothèques en se concentrant sur des outils de débogage conviviaux, un code Scala pour la formation, un mécanisme d'analyse du contenu de l'image pour un classement facile, une flexibilité et un contrôle des fonctions. La bibliothèque est destinée à être utilisée avec de rares fonctions interprétables que l'on trouve généralement dans la recherche (mots-clés de recherche, filtres) ou la tarification (nombre de chambres dans une chambre d'hôtel, emplacement, prix).

Code d'apprentissage automatique pour les pirates
3 467, 2,220


Le référentiel complétant le livre Machine Learning for Hackers , dans lequel tout le code est présenté en langage R, destiné au traitement des données statistiques (en fait, la norme des programmes statistiques) et aux graphiques. Vous trouverez ici de nombreux packages R. Les sujets traités comprennent les tâches générales de classification, de classement et de régression, ainsi que les procédures statistiques pour l'analyse des composants et la mise à l'échelle multidimensionnelle.

Jeux de données Github


Superbes ensembles de données publics
31 852, 5 361


Un autre référentiel impressionnant par sa taille avec une liste divisée en 30 sujets: biologie, sports, musées, langage naturel, etc. Le référentiel comprend plusieurs centaines de jeux de données, dont la plupart sont gratuits. Voici des liens vers d'autres collections Big Data.

Openaddresses
1 644, 745


Le référentiel officiel OpenAddresses.io est une collection mondiale d'adresses publiques gratuite et ouverte. Le projet comprend les noms des rues, les numéros de maison, les codes postaux et les coordonnées géographiques.

Ouvrir le catalogue d'exoplanètes
583, 176


Un catalogue de toutes les planètes connues existant en dehors du système solaire. Auparavant, la base de données était mise à jour dans les 24 heures suivant la découverte d'une nouvelle planète, mais maintenant, malheureusement, le projet ne se développe pratiquement pas.

CitySDK
510, 149


La base de données US Census Bureau, adaptée à l'intégration avec d'autres ensembles de données ouverts, avec des fonctions pratiques pour travailler et créer votre propre ensemble de données personnalisé avec l'API Census: statistiques, cartographie GeoJSON, lat / lng, etc.

openFDA
353, 84


openFDA est un projet de la Food and Drug Administration (FDA) des États-Unis qui vise à fournir une collection d'ensembles de données publiques pour les chercheurs et les développeurs via l'API, ainsi que des exemples d'utilisation de ces données et de cette documentation. Il y a des informations sur les effets secondaires des médicaments, l'étiquetage des médicaments, des rapports sur le retrait des médicaments du marché et les modifications de la formule de prescription.

Portail de données ouvertes du CERN
247, 88


Le code source du portail de données ouvertes de l'Organisation de recherche nucléaire du CERN, qui est décrit comme «un point d'accès à une gamme croissante de données issues de la recherche au CERN».

Ordinateurs portables IPython (Jupyter)


Une liste de référentiels Github utiles composés de blocs-notes IPython (Jupyter) axés sur la manipulation de données et l'apprentissage automatique.

Livre d'apprentissage machine Python
9 655, 3 674


Un référentiel d'accompagnement de la première édition du livre Machine Learning with Python (référentiel pour la deuxième édition ici ), qui traite du travail avec les valeurs manquantes, de la conversion des variables catégorielles en formats adaptés à l'apprentissage automatique, du choix des propriétés informatives, de la compression des données avec transfert vers des sous-espaces avec moins nombre de mesures.

Exemple de cahier de science des données
4 156, 1 463


Un référentiel de matériel de formation, de code et de données pour divers projets d'analyse de données et d'apprentissage automatique. Notebook contient tous les principes de base de l'utilisation de l'analyse de données en utilisant le jeu de données Iris comme exemple et illustre la construction d'un flux de travail en science des données. Les points de base pour travailler dans un référentiel sont glanés dans le livre « The Elements of Data Analytic Style » (Jeff Leek, 2015).

Apprenez la science des données
2 197, 1 228


Une collection de cahiers et d'ensembles de données couvrant quatre sujets algorithmiques: régression linéaire, régression logistique, forêts aléatoires et algorithmes de clustering K-Means. Learn Data Science est basé sur des matériaux créés pour le projet Open Data Science Training .

Carnets Ipython
2 106, 1 226


Le référentiel contient divers cahiers IPython - d'une vue d'ensemble du langage et des fonctionnalités IPython à des exemples d'utilisation de diverses bibliothèques populaires dans l'analyse de données. Vous trouverez ici une collection complète de matériel d'apprentissage automatique, d'apprentissage en profondeur et de traitement de données volumineuses des cours d'apprentissage automatique d'Andrew Ng (Coursera), de l'introduction à TensorFlow pour l'apprentissage profond (Udacity) et Spark (edX).

Tutoriel Scikit-learn
963, 573


Un référentiel pour apprendre la bibliothèque Scikit-learn , qui implémente un grand nombre d'algorithmes d'apprentissage automatique. La bibliothèque fournit une implémentation d'un certain nombre d'algorithmes pour apprendre avec ou sans professeur. Scikit-learn est construit sur SciPy (Scientific Python).

Apprentissage automatique
543, 336


Une série de tutoriels IPython Notebook très détaillés basés sur les données du cours Andrew Nga Machine Learning (Stanford University), du cours Tom Mitchell (Carnegie Mellon University) et du livre de Christopher M. Bishor, Pattern Recognition and Machine Learning.

La liste fournie n'est pas entièrement exhaustive, nous accueillons donc les commentaires avec une liste de vos référentiels préférés (ou vos propres).

Source: https://habr.com/ru/post/fr445530/


All Articles