Apesar das muitas fontes de software de aprendizado de máquina gratuito disponíveis na Internet, o Github continua sendo uma importante câmara de compensação para todos os tipos de ferramentas de código aberto usadas pela comunidade de aprendizado de máquina e análise de dados.

Esta coleção contém repositórios de aprendizado de máquina, conjuntos de dados e Notebooks Jupyter, classificados por classificação por estrelas. Na parte anterior , falamos sobre repositórios populares para estudar visualização de dados e aprendizado profundo.

Aprendizado de máquina

Aprendizado de máquina impressionante
38 809, 9 615

Uma lista impressionante de sistemas, bibliotecas e software classificados por idioma e categoria (visão computacional, processamento de linguagem natural etc.). Além disso, neste repositório você encontrará uma lista de livros gratuitos de aprendizado de máquina, cursos gratuitos (principalmente) de aprendizado de máquina, blogs de ciência de dados.

Scikit-learn
34 067, 16 698

Desenvolvido desde 2007, o módulo Python para aprendizado de máquina, construído com base nas bibliotecas SciPy, NumPy e Matplotlib. Distribuído sob a licença BSD de 3 cláusulas. O Scikit-learn é uma ferramenta universal para trabalhos que contém algoritmos de classificação, regressão e clustering, além de métodos para preparar dados e avaliar modelos.

PredictionIO
11 703, 1 903

Uma estrutura de aprendizado de máquina de código aberto que suporta coleta de eventos, implantação de algoritmos, avaliação e modelos para tarefas conhecidas, como classificação e recomendações. Conecta-se a aplicativos existentes usando a API REST ou SDK. O PredictionIO é baseado em serviços de código aberto escalonáveis, como Hadoop, HBase (e outros bancos de dados), Elasticsearch, Spark.

Mergulhe no aprendizado de máquina
9 163, 1.673

Material para iniciantes no assunto. O repositório contém uma coleção de tutoriais IPython para a biblioteca Scikit-learn, que implementa um grande número de algoritmos de aprendizado de máquina, além de vários links para tópicos de aprendizado de máquina relacionados ao Python e informações mais gerais sobre análise de dados. O autor fornece links para muitos outros tutoriais que cobrem o tópico.

Padrão
6 845, 1.353

Módulo de desenvolvimento web baseado em Python com ferramentas para análise, processamento de linguagem natural (marcando partes do discurso, pesquisa por grama, análise de humor, WordNet), aprendizado de máquina, análise e visualização de rede. O módulo foi criado e bem documentado no Centro de Pesquisa em Linguística de Computadores e Psicolinguística da Universidade de Antuérpia (Bélgica). No repositório você encontrará mais de 50 exemplos de seu uso.

Golearn
6 374, 867

Desenvolvendo ativamente a biblioteca de aprendizado de máquina para o Go. Fornece um pacote de software altamente personalizável, fácil de usar e com todos os recursos para desenvolvedores. O GoLearn implementa a interface de aprendizado familiar do Scikit-learn.

Vowpal wabbit
6 189, 1.519

O sistema Vowpal Wabbit estende os limites do aprendizado de máquina usando métodos como hash, allreduce, learning2search e aprendizado ativo e interativo. O Vowpal Wabbit visa modelar rapidamente conjuntos de dados massivos e suporta o aprendizado paralelo. É dada atenção especial ao aprendizado por reforço usando vários "algoritmos de gangster" contextuais.

NuPIC (Numenta Platform for Intelligent Computing)
5 852, 1.570

O NuPIC implementa algoritmos de aprendizado de máquina Memória Temporal Hierárquica (HTM). Em geral, o HTM é uma tentativa de simular as operações computacionais do neocórtex do cérebro humano e se concentra na conservação e invocação de padrões espaciais e temporais. HTM é um sistema de memória, não está programado, não aprende a executar algoritmos para várias tarefas, aprende a resolver um problema. O NuPIC é adequado para todos os tipos de tarefas, em particular, para detectar anomalias de padrões.

aerossolve
4.522, 570

O aerosolve tenta se diferenciar de outras bibliotecas, concentrando-se em ferramentas de depuração fáceis de usar, um código Scala para treinamento, um mecanismo de análise de conteúdo de imagem para fácil classificação, flexibilidade e controle sobre funções. A biblioteca é projetada para uso com raras funções interpretáveis que geralmente são encontradas em pesquisa (palavras-chave de pesquisa, filtros) ou preços (número de quartos em um quarto de hotel, local, preço).

Código de aprendizado de máquina para hackers
3 467, 2.220

O repositório que complementa o livro Machine Learning for Hackers , no qual todo o código é apresentado na linguagem R, destinado ao processamento estatístico de dados (na verdade, o padrão dos programas estatísticos) e gráficos. Você encontrará vários pacotes R. Aqui, os tópicos abordados incluem classificação geral, tarefas de classificação e regressão, além de procedimentos estatísticos para análise de componentes e dimensionamento multidimensional.

Conjuntos de dados do Github

Conjuntos de dados públicos impressionantes
31 852, 5.361

Outro repositório impressionante com seu tamanho é uma lista dividida em 30 tópicos: biologia, esportes, museus, linguagem natural, etc. O repositório inclui várias centenas de conjuntos de dados, a maioria dos quais é grátis. Aqui estão os links para outras coleções de Big Data.

Openaddresses
1 644, 745

O repositório oficial OpenAddresses.io é uma coleção global gratuita e aberta de endereços. O projeto inclui nomes de ruas, números de casas, códigos postais e coordenadas geográficas.

Abrir catálogo de exoplanetas
583, 176

Um catálogo de todos os planetas conhecidos existentes fora do sistema solar. Anteriormente, o banco de dados era atualizado 24 horas após a descoberta de um novo planeta, mas agora, infelizmente, o projeto praticamente não está em desenvolvimento.

CitySDK
510, 149

O banco de dados do US Census Bureau, adaptado para integração com outros conjuntos de dados abertos, com funções convenientes para trabalhar e criar seu próprio conjunto de dados personalizado com a API do Census: estatísticas, GeoJSON cartográfico, lat / lng, etc.

openFDA
353, 84

O openFDA é um projeto da Administração de Alimentos e Medicamentos dos EUA (FDA) que visa fornecer uma coleção de conjuntos de dados públicos para pesquisadores e desenvolvedores por meio da API, bem como exemplos de como usar esses dados e documentação. Há informações sobre os efeitos colaterais de medicamentos, rotulagem de medicamentos, relatórios sobre retirada de medicamentos do mercado e alterações na fórmula de prescrição.

Portal de dados abertos do CERN
247, 88

O código fonte do portal de dados abertos da Organização de Pesquisa Nuclear do CERN, que é descrito como "um ponto de acesso a uma gama crescente de dados da pesquisa do CERN".

Notebooks IPython (Jupyter)

Uma lista de repositórios úteis do Github que consistem em blocos de notas IPython (Jupyter) focados na manipulação de dados e aprendizado de máquina.

Livro de aprendizado de máquina Python
9 655, 3 674

Um repositório que acompanha a primeira edição do livro Machine Learning with Python (repositório para a segunda edição aqui ), que discute o trabalho com valores ausentes, convertendo variáveis categóricas em formatos adequados para aprendizado de máquina, escolhendo propriedades informativas, compactando dados com transferência para subespaços com menos número de medições.

Exemplo de caderno de ciências de dados
4 156, 1 463

Um repositório de materiais de treinamento, código e dados para vários projetos de análise de dados e aprendizado de máquina. O Notebook contém todos os princípios básicos do trabalho com análise de dados usando o conjunto de dados Iris como exemplo e ilustra a construção de um fluxo de trabalho na ciência de dados. Os pontos básicos para trabalhar em um repositório são recolhidos no livro " Os elementos do estilo analítico de dados " (Jeff Leek, 2015).

Aprenda ciência de dados
2 197, 1 228

Uma coleção de Notebooks e conjuntos de dados que abrangem quatro tópicos algorítmicos: regressão linear, regressão logística, florestas aleatórias e algoritmos de agrupamento K-Means. O Learn Data Science é baseado em materiais criados para o projeto Open Data Science Training .

Cadernos Ipython
2 106, 1 226

O repositório contém vários Notebooks IPython - de uma visão geral da linguagem e funcionalidade do IPython a exemplos de uso de várias bibliotecas populares na análise de dados. Aqui você encontrará uma coleção abrangente de materiais de aprendizado de máquina, aprendizado profundo e processamento de grande volume de dados dos cursos de Machine Learning de Andrew Ng (Coursera), Introdução ao TensorFlow for Deep Learning (Udacity) e Spark (edX).

Tutorial do Scikit-learn
963, 573

Um repositório para aprender a biblioteca Scikit-learn , que implementa um grande número de algoritmos de aprendizado de máquina. A biblioteca fornece uma implementação de vários algoritmos para aprender com ou sem um professor. O Scikit-learn é construído sobre o SciPy (Scientific Python).