c )
O Github não é apenas uma plataforma para hospedagem e desenvolvimento conjunto de projetos de TI, mas também uma enorme base de conhecimento compilada por centenas de especialistas. Felizmente, o serviço fornece não apenas ferramentas para trabalhar com código-fonte aberto, mas também materiais de alta qualidade para treinamento. Selecionamos alguns repositórios populares e os classificamos pelo número de estrelas em ordem decrescente.
Esta coleção ajudará você a descobrir em quais repositórios você deve prestar atenção se estiver interessado em trabalhar com dados e treinamento aprofundado.
Ciência de dados
Os Mestres de Ciência de Dados de Código AbertoEstrelas: 11,227, Forks: 4,737
O repositório oficial do currículo do
Data Science Masters , desenvolvido como uma alternativa de código aberto à educação formal no campo da Data Science. O repositório é uma coleção de materiais de treinamento coletados ao longo de vários anos.
Awesome data scienceEstrelas: 9.240, Forks: 2.761
Coleção poderosa que responde às perguntas: “O que é Ciência de Dados?” e "o que você precisa saber para ser bem versado nessa ciência?". Convenientemente dividido em categorias. Por exemplo, há uma
lista de livros sobre ciência de dados, uma
seleção de infográficos e até
grupos temáticos
no Facebook .
Caderno interativo JupyterEstrelas: 5.242, Forks: 2.331
O progenitor deste repositório é uma plataforma para trabalhar com scripts em 40 linguagens de programação
Data Science iPython Notebooks , com mais de 14.000 estrelas e 4.000 garfos. Os especialistas em processamento de dados e aprendizado de máquina o utilizaram ativamente para a computação científica.
Hoje, o Jupyter Notebook é um conjunto conveniente de arquivos de notebook, consistindo em parágrafos nos quais as solicitações são gravadas e executadas. Usando visualizadores embutidos, um bloco de notas com um conjunto de consultas se transforma em um painel de dados completo.
Blogs de ciência de dadosEstrelas: 4 510, Forquilhas: 1 178
Uma lista simples, mas extensa, de materiais de treinamento, classificados em ordem alfabética. Aqui você encontrará todos os blogs populares, bem como muitos sites pequenos com informações úteis (um total de 251 recursos estão listados).
Especialização em ciência de dadosEstrelas: 3 114, Forks: 27 184
O Repositório de
Educação em Ciência de Dados da Universidade Johns Hopkins é um curso muito popular de Roger Pen, Jeff Lick e Brian Cuffo. Para ser mais preciso, o programa de treinamento na especialidade "Data Science" da Coursera inclui vários cursos interconectados sobre vários tópicos (por exemplo, Programação R) relacionados a vários aspectos da análise de dados, e o repositório apresentado na coleção combina as informações usadas em todos os cursos.
Caderno SparkEstrelas: 2 677, Forquilhas: 587
O Spark Notebook é um bloco de notas de código aberto que fornece um editor interativo da Web que pode combinar código Scala, consultas SQL, marcação e JavaScript para analisar e explorar dados juntos.
Aprenda ciência de dadosEstrelas: 2 129, Forks: 1 210
Uma coleção de notebooks iPython focados em conceitos fundamentais de aprendizado de máquina para iniciantes.
Ciência de dados na linha de comandoEstrelas: 2 057, Forquilhas: 503
O repositório contém textos, dados, scripts e ferramentas de usuário do console usadas no
Data Science na linha de comando . Este guia de instruções demonstra como combinar ferramentas de linha de comando pequenas, porém poderosas, para recuperar, limpar, pesquisar e modelar dados rapidamente.
Site da Comunidade de Especialização em Ciência de DadosEstrelas: 1 395, Forks: 2 661
Vários estudantes que concluíram o curso na Universidade Johns Hopkins criaram conteúdo de alta qualidade que os funcionários da universidade o compartilharam e também criaram um catálogo para todo o conteúdo interessante criado pela comunidade.
Visualização de dados para a web
D3Estrelas: 81 837, Forks: 20282
D3 é uma biblioteca de visualização de dados JavaScript para HTML e SVG. No D3, a ênfase está nos padrões da Web, para que você possa usar todos os recursos dos navegadores modernos sem se vincular a uma estrutura proprietária, combinando poderosos componentes de visualização, uma abordagem controlada e interação com o
DOM (Document Object Model) . Este é o projeto de visualização de dados mais popular no GitHub.
Chart.jsEstrelas: 41,393, Forks: 9,294
Chart.js é uma biblioteca HTML5 que cria visualizações através do elemento <canvas>. O Chart.js se posiciona como uma ferramenta simples e flexível, interativa, suportando seis tipos diferentes de gráficos.
EhartsEstrelas: 32 204, Forks: 9,369
O ECharts é uma biblioteca baseada em navegador para gráficos e visualização. Fácil de usar, intuitivo e fácil de configurar.
FolhetoEstrelas: 23.810, Forks: 3.937
Biblioteca JavaScript para criar mapas interativos focados em aplicativos móveis. O código da biblioteca é incrivelmente pequeno - foi projetado para uso simples, rápido e conveniente. Os recursos do folheto podem ser expandidos através de um conjunto de plugins.
Sigma.jsEstrelas: 8.348, Forks: 1.305
Biblioteca JS orientada a gráfico. O Sigma permite desenvolver representações gráficas em páginas da web e integrá-las em aplicativos da web.
VegaEstrelas: 6.559, Forquilhas: 702
Vega é uma linguagem declarativa para criar, salvar e compartilhar projetos de visualização interativa. Usando-o, você pode descrever a aparência e o comportamento interativo da visualização no formato JSON, além de criar visualizações da Web usando o Canvas ou SVG. A Vega fornece os blocos de construção básicos para uma ampla gama de projetos de visualização: carregamento e conversão de dados, dimensionamento, projeções de mapas, legenda, etiquetas gráficas, etc.
DC.jsEstrelas: 6,458, Forquilhas: 1,734
O DC.js é um diagrama multidimensional criado no D3.js para trabalhar com
filtros cruzados . O DC.js é renderizado no formato SVG compatível com CSS. Projetado para uma poderosa análise de dados no navegador e em dispositivos móveis.
ÉpocaEstrelas: 4.949, Forquilhas: 290
Biblioteca universal de visualização em tempo real. Ele se concentra em dois aspectos diferentes: gráficos básicos para criar relatórios históricos e gráficos em tempo real para exibir dados de séries temporais atualizados com frequência.
Aprendizagem profunda
KerasEstrelas: 37,611, Forks: 14,344
Keras é uma biblioteca de aprendizado profundo do Python usada pelo TensorFlow e Theano (sim, você pode executá-lo no topo das
bibliotecas TensorFlow , Theano e
CNTK ). O Keras foi projetado para experimentação rápida, pois a chave para fazer uma boa pesquisa é a capacidade de passar da ideia para o resultado com o menor atraso. Graças à documentação completa e acessível, Keras ocupa um lugar na nossa seleção.
CaffeEstrelas: 26,892, Forks: 16,276
O Caffe (Arquitetura de Convolução para Extração de Recursos) é uma biblioteca de aprendizado profundo que liga o Python e o MATLAB. De fato, é uma biblioteca de uso geral projetada para a implantação de redes convolucionais e para reconhecimento de imagens, fala ou multimídia.
Há também um projeto Caffe2, que inclui novos recursos, em particular, redes neurais recorrentes. Em maio de 2018, as equipes Caffe2 e PyTorch se fundiram, o código Caffe2 foi transferido para
o repositório PyTorch (estrelas:
24.075 , garfos:
5.707 ).
MXNetEstrelas: 16,157, Forks: 5,824
Ambiente de aprendizado profundo leve, compacto e distribuído de forma flexível para Python, R, Julia, Scala, Go, JavaScript etc. Para obter melhor desempenho, o MXNet permite combinar métodos de programação imperativos e simbólicos. O projeto também contém diretrizes para a criação de outros sistemas de aprendizado profundo.
Datay IPython NotebooksEstrelas: 14.747, Forks: 4.410
A coleção de notebooks iPython, incluindo big data, Hadoop, scikit-learn, bibliotecas projetadas para computação científica, etc. Falando em aprendizado profundo, TensorFlow, Theano, Caffe e outras ferramentas são abordadas.
ConvnetjsEstrelas: 9.510, Forks: 1.982
ConvNetJS é uma implementação de redes neurais e seus módulos JavaScript comuns. O projeto atualmente não é suportado, mas ainda merece atenção. Permite que você aprenda redes convolucionais (ou regulares) diretamente no navegador.
Deeplearning4jEstrelas: 10,227, Forks: 4,570
Biblioteca de Deep Learning para Java e Scala. Integra-se ao Hadoop e Spark. O Deeplearning4j também permite a computação de GPU habilitada para CUDA. Além disso, existem ferramentas para trabalhar com a biblioteca em Python. O repositório contém toda a documentação e tutoriais necessários.
Tutoriais de aprendizagem profunda do LISA LabEstrelas: 3.673, Forquilhas: 2.045
Uma coleção de livros didáticos da Universidade de Montreal. O material apresentado aqui apresenta alguns dos mais importantes algoritmos de aprendizado profundo e também demonstra o princípio de trabalhar com o Theano. Theano é uma biblioteca Python que simplifica a criação de modelos de aprendizado profundo e possibilita treiná-los na GPU.
Com esta lista, o número de coisas interessantes no Github não é limitado. Da próxima vez, falaremos sobre projetos de aprendizado de máquina e abrir conjuntos de dados. Se você possui seus próprios exemplos de repositórios interessantes, compartilhe-os nos comentários.