c )

O Github não é apenas uma plataforma para hospedagem e desenvolvimento conjunto de projetos de TI, mas também uma enorme base de conhecimento compilada por centenas de especialistas. Felizmente, o serviço fornece não apenas ferramentas para trabalhar com código-fonte aberto, mas também materiais de alta qualidade para treinamento. Selecionamos alguns repositórios populares e os classificamos pelo número de estrelas em ordem decrescente.

Esta coleção ajudará você a descobrir em quais repositórios você deve prestar atenção se estiver interessado em trabalhar com dados e treinamento aprofundado.

Ciência de dados

Os Mestres de Ciência de Dados de Código Aberto
Estrelas: 11,227, Forks: 4,737

O repositório oficial do currículo do Data Science Masters , desenvolvido como uma alternativa de código aberto à educação formal no campo da Data Science. O repositório é uma coleção de materiais de treinamento coletados ao longo de vários anos.

Awesome data science
Estrelas: 9.240, Forks: 2.761

Coleção poderosa que responde às perguntas: “O que é Ciência de Dados?” e "o que você precisa saber para ser bem versado nessa ciência?". Convenientemente dividido em categorias. Por exemplo, há uma lista de livros sobre ciência de dados, uma seleção de infográficos e até grupos temáticos no Facebook .

Caderno interativo Jupyter
Estrelas: 5.242, Forks: 2.331

O progenitor deste repositório é uma plataforma para trabalhar com scripts em 40 linguagens de programação Data Science iPython Notebooks , com mais de 14.000 estrelas e 4.000 garfos. Os especialistas em processamento de dados e aprendizado de máquina o utilizaram ativamente para a computação científica.

Hoje, o Jupyter Notebook é um conjunto conveniente de arquivos de notebook, consistindo em parágrafos nos quais as solicitações são gravadas e executadas. Usando visualizadores embutidos, um bloco de notas com um conjunto de consultas se transforma em um painel de dados completo.

Blogs de ciência de dados
Estrelas: 4 510, Forquilhas: 1 178

Uma lista simples, mas extensa, de materiais de treinamento, classificados em ordem alfabética. Aqui você encontrará todos os blogs populares, bem como muitos sites pequenos com informações úteis (um total de 251 recursos estão listados).

Especialização em ciência de dados
Estrelas: 3 114, Forks: 27 184

O Repositório de Educação em Ciência de Dados da Universidade Johns Hopkins é um curso muito popular de Roger Pen, Jeff Lick e Brian Cuffo. Para ser mais preciso, o programa de treinamento na especialidade "Data Science" da Coursera inclui vários cursos interconectados sobre vários tópicos (por exemplo, Programação R) relacionados a vários aspectos da análise de dados, e o repositório apresentado na coleção combina as informações usadas em todos os cursos.

Caderno Spark
Estrelas: 2 677, Forquilhas: 587

O Spark Notebook é um bloco de notas de código aberto que fornece um editor interativo da Web que pode combinar código Scala, consultas SQL, marcação e JavaScript para analisar e explorar dados juntos.

Aprenda ciência de dados
Estrelas: 2 129, Forks: 1 210

Uma coleção de notebooks iPython focados em conceitos fundamentais de aprendizado de máquina para iniciantes.

Ciência de dados na linha de comando
Estrelas: 2 057, Forquilhas: 503

O repositório contém textos, dados, scripts e ferramentas de usuário do console usadas no Data Science na linha de comando . Este guia de instruções demonstra como combinar ferramentas de linha de comando pequenas, porém poderosas, para recuperar, limpar, pesquisar e modelar dados rapidamente.

Site da Comunidade de Especialização em Ciência de Dados
Estrelas: 1 395, Forks: 2 661

Vários estudantes que concluíram o curso na Universidade Johns Hopkins criaram conteúdo de alta qualidade que os funcionários da universidade o compartilharam e também criaram um catálogo para todo o conteúdo interessante criado pela comunidade.

Visualização de dados para a web

D3
Estrelas: 81 837, Forks: 20282

D3 é uma biblioteca de visualização de dados JavaScript para HTML e SVG. No D3, a ênfase está nos padrões da Web, para que você possa usar todos os recursos dos navegadores modernos sem se vincular a uma estrutura proprietária, combinando poderosos componentes de visualização, uma abordagem controlada e interação com o DOM (Document Object Model) . Este é o projeto de visualização de dados mais popular no GitHub.

Chart.js
Estrelas: 41,393, Forks: 9,294

Chart.js é uma biblioteca HTML5 que cria visualizações através do elemento <canvas>. O Chart.js se posiciona como uma ferramenta simples e flexível, interativa, suportando seis tipos diferentes de gráficos.

Eharts
Estrelas: 32 204, Forks: 9,369

O ECharts é uma biblioteca baseada em navegador para gráficos e visualização. Fácil de usar, intuitivo e fácil de configurar.

Folheto
Estrelas: 23.810, Forks: 3.937

Biblioteca JavaScript para criar mapas interativos focados em aplicativos móveis. O código da biblioteca é incrivelmente pequeno - foi projetado para uso simples, rápido e conveniente. Os recursos do folheto podem ser expandidos através de um conjunto de plugins.

Sigma.js
Estrelas: 8.348, Forks: 1.305

Biblioteca JS orientada a gráfico. O Sigma permite desenvolver representações gráficas em páginas da web e integrá-las em aplicativos da web.

Vega
Estrelas: 6.559, Forquilhas: 702

Vega é uma linguagem declarativa para criar, salvar e compartilhar projetos de visualização interativa. Usando-o, você pode descrever a aparência e o comportamento interativo da visualização no formato JSON, além de criar visualizações da Web usando o Canvas ou SVG. A Vega fornece os blocos de construção básicos para uma ampla gama de projetos de visualização: carregamento e conversão de dados, dimensionamento, projeções de mapas, legenda, etiquetas gráficas, etc.

DC.js
Estrelas: 6,458, Forquilhas: 1,734

O DC.js é um diagrama multidimensional criado no D3.js para trabalhar com filtros cruzados . O DC.js é renderizado no formato SVG compatível com CSS. Projetado para uma poderosa análise de dados no navegador e em dispositivos móveis.

Época
Estrelas: 4.949, Forquilhas: 290

Biblioteca universal de visualização em tempo real. Ele se concentra em dois aspectos diferentes: gráficos básicos para criar relatórios históricos e gráficos em tempo real para exibir dados de séries temporais atualizados com frequência.

Aprendizagem profunda

Keras
Estrelas: 37,611, Forks: 14,344

Keras é uma biblioteca de aprendizado profundo do Python usada pelo TensorFlow e Theano (sim, você pode executá-lo no topo das bibliotecas TensorFlow , Theano e CNTK ). O Keras foi projetado para experimentação rápida, pois a chave para fazer uma boa pesquisa é a capacidade de passar da ideia para o resultado com o menor atraso. Graças à documentação completa e acessível, Keras ocupa um lugar na nossa seleção.

Caffe
Estrelas: 26,892, Forks: 16,276

O Caffe (Arquitetura de Convolução para Extração de Recursos) é uma biblioteca de aprendizado profundo que liga o Python e o MATLAB. De fato, é uma biblioteca de uso geral projetada para a implantação de redes convolucionais e para reconhecimento de imagens, fala ou multimídia.

Há também um projeto Caffe2, que inclui novos recursos, em particular, redes neurais recorrentes. Em maio de 2018, as equipes Caffe2 e PyTorch se fundiram, o código Caffe2 foi transferido para o repositório PyTorch (estrelas: 24.075 , garfos: 5.707 ).

MXNet
Estrelas: 16,157, Forks: 5,824

Ambiente de aprendizado profundo leve, compacto e distribuído de forma flexível para Python, R, Julia, Scala, Go, JavaScript etc. Para obter melhor desempenho, o MXNet permite combinar métodos de programação imperativos e simbólicos. O projeto também contém diretrizes para a criação de outros sistemas de aprendizado profundo.

Datay IPython Notebooks
Estrelas: 14.747, Forks: 4.410

A coleção de notebooks iPython, incluindo big data, Hadoop, scikit-learn, bibliotecas projetadas para computação científica, etc. Falando em aprendizado profundo, TensorFlow, Theano, Caffe e outras ferramentas são abordadas.

Convnetjs
Estrelas: 9.510, Forks: 1.982

ConvNetJS é uma implementação de redes neurais e seus módulos JavaScript comuns. O projeto atualmente não é suportado, mas ainda merece atenção. Permite que você aprenda redes convolucionais (ou regulares) diretamente no navegador.

Deeplearning4j
Estrelas: 10,227, Forks: 4,570

Biblioteca de Deep Learning para Java e Scala. Integra-se ao Hadoop e Spark. O Deeplearning4j também permite a computação de GPU habilitada para CUDA. Além disso, existem ferramentas para trabalhar com a biblioteca em Python. O repositório contém toda a documentação e tutoriais necessários.

Tutoriais de aprendizagem profunda do LISA Lab
Estrelas: 3.673, Forquilhas: 2.045

Uma coleção de livros didáticos da Universidade de Montreal. O material apresentado aqui apresenta alguns dos mais importantes algoritmos de aprendizado profundo e também demonstra o princípio de trabalhar com o Theano. Theano é uma biblioteca Python que simplifica a criação de modelos de aprendizado profundo e possibilita treiná-los na GPU.

Com esta lista, o número de coisas interessantes no Github não é limitado. Da próxima vez, falaremos sobre projetos de aprendizado de máquina e abrir conjuntos de dados. Se você possui seus próprios exemplos de repositórios interessantes, compartilhe-os nos comentários.

Outro GitHub: Repositórios sobre Ciência de Dados, Visualização de Dados e Aprendizado Profundo

Ciência de dados

Visualização de dados para a web

Aprendizagem profunda

More articles: