
Apesar das muitas fontes de software de aprendizado de máquina gratuito disponíveis na Internet, o Github continua sendo uma importante câmara de compensação para todos os tipos de ferramentas de código aberto usadas pela comunidade de aprendizado de máquina e análise de dados.
Esta coleção contém repositórios de aprendizado de máquina, conjuntos de dados e Notebooks Jupyter, classificados por classificação por estrelas. Na parte
anterior , falamos sobre repositórios populares para estudar visualização de dados e aprendizado profundo.
Aprendizado de máquina
Uma lista impressionante de sistemas, bibliotecas e software classificados por idioma e categoria (visão computacional, processamento de linguagem natural etc.). Além disso, neste repositório você encontrará uma lista de livros gratuitos de aprendizado de máquina, cursos gratuitos (principalmente) de aprendizado de máquina, blogs de ciência de dados.
Desenvolvido desde 2007, o módulo Python para aprendizado de máquina, construído com base nas bibliotecas SciPy, NumPy e Matplotlib. Distribuído sob a licença BSD de 3 cláusulas. O Scikit-learn é uma ferramenta universal para trabalhos que contém algoritmos de classificação, regressão e clustering, além de métodos para preparar dados e avaliar modelos.
Uma estrutura de aprendizado de máquina de código aberto que suporta coleta de eventos, implantação de algoritmos, avaliação e modelos para tarefas conhecidas, como classificação e recomendações. Conecta-se a aplicativos existentes usando a API REST ou SDK. O PredictionIO é baseado em serviços de código aberto escalonáveis, como Hadoop, HBase (e outros bancos de dados), Elasticsearch, Spark.
Material para iniciantes no assunto. O repositório contém uma coleção de tutoriais IPython para a biblioteca Scikit-learn, que implementa um grande número de algoritmos de aprendizado de máquina, além de vários links para tópicos de aprendizado de máquina relacionados ao Python e informações mais gerais sobre análise de dados. O autor fornece links para muitos outros tutoriais que cobrem o tópico.
Padrão
6 845,
1.353
Módulo de desenvolvimento web baseado em Python com ferramentas para análise, processamento de linguagem natural (marcando partes do discurso, pesquisa por grama, análise de humor, WordNet), aprendizado de máquina, análise e visualização de rede. O módulo foi criado e bem documentado no Centro de Pesquisa em Linguística de Computadores e Psicolinguística da Universidade de Antuérpia (Bélgica). No repositório você encontrará mais de 50 exemplos de seu uso.
Desenvolvendo ativamente a biblioteca de aprendizado de máquina para o Go. Fornece um pacote de software altamente personalizável, fácil de usar e com todos os recursos para desenvolvedores. O GoLearn implementa a interface de aprendizado familiar do Scikit-learn.
O sistema Vowpal Wabbit estende os limites do aprendizado de máquina usando métodos como hash, allreduce, learning2search e aprendizado ativo e interativo. O Vowpal Wabbit visa modelar rapidamente conjuntos de dados massivos e suporta o aprendizado paralelo. É dada atenção especial ao aprendizado por reforço usando vários "algoritmos de gangster" contextuais.
O NuPIC implementa algoritmos de aprendizado de máquina Memória Temporal Hierárquica (HTM). Em geral, o HTM é uma tentativa de simular as operações computacionais do neocórtex do cérebro humano e se concentra na conservação e invocação de padrões espaciais e temporais. HTM é um sistema de memória, não está programado, não aprende a executar algoritmos para várias tarefas, aprende a resolver um problema. O NuPIC é adequado para todos os tipos de tarefas, em particular, para detectar anomalias de padrões.
O aerosolve tenta se diferenciar de outras bibliotecas, concentrando-se em ferramentas de depuração fáceis de usar, um código Scala para treinamento, um mecanismo de análise de conteúdo de imagem para fácil classificação, flexibilidade e controle sobre funções. A biblioteca é projetada para uso com raras funções interpretáveis que geralmente são encontradas em pesquisa (palavras-chave de pesquisa, filtros) ou preços (número de quartos em um quarto de hotel, local, preço).
O repositório que
complementa o livro
Machine Learning for Hackers , no qual todo o código é apresentado na linguagem R, destinado ao processamento estatístico de dados (na verdade, o padrão dos programas estatísticos) e gráficos. Você encontrará vários pacotes R. Aqui, os tópicos abordados incluem classificação geral, tarefas de classificação e regressão, além de procedimentos estatísticos para análise de componentes e dimensionamento multidimensional.
Conjuntos de dados do Github
Outro repositório impressionante com seu tamanho é uma lista dividida em 30 tópicos: biologia, esportes, museus, linguagem natural, etc. O repositório inclui várias centenas de conjuntos de dados, a maioria dos quais é grátis. Aqui estão os links para outras coleções de Big Data.
O repositório oficial OpenAddresses.io é uma coleção global gratuita e aberta de endereços. O projeto inclui nomes de ruas, números de casas, códigos postais e coordenadas geográficas.
Um catálogo de todos os planetas conhecidos existentes fora do sistema solar. Anteriormente, o banco de dados era atualizado 24 horas após a descoberta de um novo planeta, mas agora, infelizmente, o projeto praticamente não está em desenvolvimento.
O banco de dados do US Census Bureau, adaptado para integração com outros conjuntos de dados abertos, com funções convenientes para trabalhar e criar seu próprio conjunto de dados personalizado com a API do Census: estatísticas, GeoJSON cartográfico, lat / lng, etc.
O openFDA é um projeto da Administração de Alimentos e Medicamentos dos EUA (FDA) que visa fornecer uma coleção de conjuntos de dados públicos para pesquisadores e desenvolvedores por meio da API, bem como exemplos de como usar esses dados e documentação. Há informações sobre os efeitos colaterais de medicamentos, rotulagem de medicamentos, relatórios sobre retirada de medicamentos do mercado e alterações na fórmula de prescrição.
O código fonte do portal de dados abertos da Organização de Pesquisa Nuclear do CERN, que é descrito como "um ponto de acesso a uma gama crescente de dados da pesquisa do CERN".
Notebooks IPython (Jupyter)
Uma lista de repositórios úteis do Github que consistem em blocos de notas IPython (Jupyter) focados na manipulação de dados e aprendizado de máquina.
Um repositório que acompanha a primeira edição do livro
Machine Learning with Python (repositório para a segunda edição
aqui ), que discute o trabalho com valores ausentes, convertendo variáveis categóricas em formatos adequados para aprendizado de máquina, escolhendo propriedades informativas, compactando dados com transferência para subespaços com menos número de medições.
Um repositório de materiais de treinamento, código e dados para vários projetos de análise de dados e aprendizado de máquina. O Notebook contém todos os princípios básicos do trabalho com análise de dados usando o conjunto de dados
Iris como exemplo e ilustra a construção de um fluxo de trabalho na ciência de dados. Os pontos básicos para trabalhar em um repositório são recolhidos no livro "
Os elementos do estilo analítico de dados " (Jeff Leek, 2015).
Uma coleção de Notebooks e conjuntos de dados que abrangem quatro tópicos algorítmicos: regressão linear, regressão logística, florestas aleatórias e algoritmos de agrupamento K-Means. O Learn Data Science é baseado em materiais criados para o projeto
Open Data Science Training .
O repositório contém vários Notebooks IPython - de uma visão geral da linguagem e funcionalidade do IPython a exemplos de uso de várias bibliotecas populares na análise de dados. Aqui você encontrará uma coleção abrangente de materiais de aprendizado de máquina, aprendizado profundo e processamento de grande volume de dados dos cursos de Machine Learning de Andrew Ng (Coursera), Introdução ao TensorFlow for Deep Learning (Udacity) e Spark (edX).
Um repositório para aprender a biblioteca
Scikit-learn , que implementa um grande número de algoritmos de aprendizado de máquina. A biblioteca fornece uma implementação de vários algoritmos para aprender com ou sem um professor. O Scikit-learn é construído sobre o
SciPy (Scientific Python).
Uma série de tutoriais IPython Notebook altamente detalhados, com base nos dados do curso Andrew Nga Machine Learning (Universidade de Stanford), do
curso Tom Mitchell (Universidade Carnegie Mellon) e do livro Pattern Recognition and Machine Learning de Christopher M. Bishor.
A lista fornecida não é totalmente completa; portanto, agradecemos comentários com uma lista de seus repositórios favoritos (ou seus).