Otro GitHub: repositorios en ciencia de datos, visualización de datos y aprendizaje profundo


( c )

Github no es solo una plataforma para el alojamiento y el desarrollo conjunto de proyectos de TI, sino también una enorme base de conocimiento compilada por cientos de expertos. Afortunadamente, el servicio proporciona no solo herramientas para trabajar con código fuente abierto, sino también materiales de alta calidad para capacitación. Seleccionamos algunos repositorios populares y los ordenamos por el número de estrellas en orden descendente.

Esta colección lo ayudará a determinar a qué repositorios debe prestar atención si está interesado en trabajar con datos y capacitación en profundidad.

Ciencia de datos


Los maestros de la ciencia de datos de código abierto
Estrellas: 11,227, Horquillas: 4,737

El repositorio oficial del plan de estudios de Data Science Masters , desarrollado como una alternativa de código abierto a la educación formal en el campo de Data Science. El repositorio es una colección de materiales de capacitación recopilados durante varios años.

Ciencia de datos impresionante
Estrellas: 9.240, Horquillas: 2.761

Potente colección que responde a las preguntas: "¿Qué es la ciencia de datos?" y "¿qué necesitas saber para estar bien versado en esta ciencia?". Convenientemente dividido en categorías. Por ejemplo, hay una lista de libros sobre ciencia de datos, una selección de infografías e incluso grupos temáticos en Facebook .

Cuaderno interactivo Jupyter
Estrellas: 5,242, Horquillas: 2,331

El progenitor de este repositorio es una plataforma para trabajar con scripts en 40 lenguajes de programación de Data Science iPython Notebooks , con más de 14,000 estrellas y 4,000 tenedores. Los especialistas en procesamiento de datos y aprendizaje automático lo han utilizado activamente para la informática científica.

Hoy, Jupyter Notebook es un conjunto conveniente de archivos de notebook que consta de párrafos en los que las solicitudes se escriben y ejecutan. Usando visualizadores integrados, un bloc de notas con un conjunto de consultas se convierte en un panel de datos completo.

Blogs de ciencia de datos
Estrellas: 4 510, Horquillas: 1 178

Una lista simple pero extensa de materiales de capacitación, ordenados alfabéticamente. Aquí encontrará todos los blogs populares, así como muchos sitios pequeños con información útil (se enumeran un total de 251 recursos).

Especialización en ciencia de datos
Estrellas: 3114, Horquillas: 27184

El Repositorio de Educación de Ciencia de Datos de la Universidad Johns Hopkins es un curso muy popular de Roger Pen, Jeff Lick y Brian Cuffo. Para ser más precisos, el programa de capacitación en la especialidad "Ciencia de datos" en Coursera incluye varios cursos interconectados sobre diversos temas (por ejemplo, programación R) relacionados con diversos aspectos del análisis de datos, y el repositorio presentado en la colección combina la información utilizada en todos los cursos.

Cuaderno de chispas
Estrellas: 2 677, Horquillas: 587

Spark Notebook es un bloc de notas de código abierto que proporciona un editor web interactivo que puede combinar código Scala, consultas SQL, Marcado y JavaScript para analizar y explorar datos juntos.

Aprende ciencia de datos
Estrellas: 2 129, Horquillas: 1 210

Una colección de portátiles iPython centrada en conceptos fundamentales de aprendizaje automático para principiantes.

Ciencia de datos en la línea de comando
Estrellas: 2057, Horquillas: 503

El repositorio contiene textos, datos, scripts y herramientas de usuario de consola utilizadas en Data Science en la línea de comandos . Esta guía práctica muestra cómo combinar herramientas de línea de comandos pequeñas pero potentes para recuperar, limpiar, investigar y modelar datos rápidamente.

Sitio de la Comunidad de Especialización en Ciencia de Datos
Estrellas: 1 395, Horquillas: 2 661

Varios estudiantes que completaron el curso en la Universidad Johns Hopkins crearon contenido de tan alta calidad que el personal de la universidad lo compartió y también hicieron un catálogo para todo el contenido interesante creado por la comunidad.

Visualización de datos para la web.


D3
Estrellas: 81837, Horquillas: 20282

D3 es una biblioteca de visualización de datos JavaScript para HTML y SVG. En D3, el énfasis está en los estándares web, por lo que puede utilizar todas las capacidades de los navegadores modernos sin atarse a una estructura patentada, combinando componentes de visualización potentes, un enfoque controlado e interacción con el Modelo de Objetos del Documento (DOM) . Este es el proyecto de visualización de datos más popular en GitHub.

Chart.js
Estrellas: 41,393, Horquillas: 9,294

Chart.js es una biblioteca HTML5 que crea visualizaciones a través del elemento <canvas>. Chart.js se posiciona como una herramienta simple y flexible, interactiva, que admite seis tipos diferentes de gráficos.

Eharts
Estrellas: 32204, Horquillas: 9.369

ECharts es una biblioteca basada en navegador para gráficos y visualización. Fácil de usar, intuitivo y fácil de configurar.

Folleto
Estrellas: 23.810, Horquillas: 3.937

Biblioteca de JavaScript para crear mapas interactivos centrados en aplicaciones móviles. El código de la biblioteca es increíblemente pequeño: está diseñado para un uso simple, rápido y conveniente. Las características del folleto se pueden ampliar a través de un conjunto de complementos.

Sigma.js
Estrellas: 8.348, Horquillas: 1.305

Biblioteca JS orientada a gráficos. Sigma le permite desarrollar representaciones gráficas en páginas web e integrarlas en aplicaciones web.

Vega
Estrellas: 6.559, Horquillas: 702

Vega es un lenguaje declarativo para crear, guardar y compartir proyectos de visualización interactiva. Utilizándolo, puede describir la apariencia y el comportamiento interactivo de la visualización en formato JSON, así como crear vistas web usando Canvas o SVG. Vega proporciona los bloques de construcción básicos para una amplia gama de proyectos de visualización: carga y conversión de datos, escalado, proyecciones de mapas, leyendas, etiquetas gráficas, etc.

DC.js
Estrellas: 6.458, Horquillas: 1.734

DC.js es un diagrama multidimensional construido en D3.js para trabajar con filtro cruzado . DC.js renderiza en formato SVG compatible con CSS. Diseñado para un potente análisis de datos tanto en el navegador como en dispositivos móviles.

Época
Estrellas: 4,949, Horquillas: 290

Biblioteca universal de visualización en tiempo real. Se centra en dos aspectos diferentes: gráficos básicos para crear informes históricos y gráficos en tiempo real para mostrar datos de series de tiempo actualizados con frecuencia.

Aprendizaje profundo


Keras
Estrellas: 37,611, Horquillas: 14,344

Keras es una biblioteca de aprendizaje profundo de Python utilizada por TensorFlow y Theano (sí, puede ejecutarla sobre las bibliotecas TensorFlow , Theano y CNTK ). Keras está diseñado para una experimentación rápida, ya que la clave para hacer una buena investigación es la capacidad de pasar de la idea al resultado con el menor retraso. Gracias a la documentación exhaustiva y accesible, Keras legítimamente ocupa un lugar en nuestra selección.

Cafe
Estrellas: 26.892, Horquillas: 16.276

Caffe (Convolution Architecture For Feature Extraction) es una biblioteca de aprendizaje profundo que vincula Python y MATLAB. De hecho, es una biblioteca de uso general diseñada para el despliegue de redes convolucionales y para el reconocimiento de imágenes, habla o multimedia.

También hay un proyecto Caffe2, que incluye nuevas características, en particular, redes neuronales recurrentes. En mayo de 2018, los equipos Caffe2 y PyTorch se fusionaron, el código Caffe2 se transfirió al repositorio PyTorch (estrellas: 24,075 , horquillas: 5,707 ).

MXNet
Estrellas: 16,157, Horquillas: 5,824

Entorno de aprendizaje profundo ligero, compacto y flexible para Python, R, Julia, Scala, Go, JavaScript, etc. Para un mayor rendimiento, MXNet le permite mezclar métodos de programación imperativos y simbólicos. El proyecto también contiene pautas para crear otros sistemas de aprendizaje profundo.

Cuadernos de Data Science IPython
Estrellas: 14,747, Horquillas: 4,410

La colección de portátiles iPython, que incluye big data, Hadoop, scikit-learn, bibliotecas diseñadas para computación científica, etc. Hablando de aprendizaje profundo, TensorFlow, Theano, Caffe y otras herramientas están cubiertas.

Convnetjs
Estrellas: 9.510, Horquillas: 1.982

ConvNetJS es una implementación de redes neuronales y sus módulos JavaScript comunes. El proyecto actualmente no es compatible, pero aún merece atención. Le permite aprender redes convolucionales (o regulares) directamente en el navegador.

Deeplearning4j
Estrellas: 10,227, Horquillas: 4,570

Biblioteca de aprendizaje profundo para Java y Scala. Se integra con Hadoop y Spark. Deeplearning4j también permite la computación con GPU habilitada para CUDA. Además, hay herramientas para trabajar con la biblioteca en Python. El repositorio contiene toda la documentación y tutoriales necesarios.

Tutoriales de aprendizaje profundo de LISA Lab
Estrellas: 3,673, Horquillas: 2,045

Una colección de libros de texto de la Universidad de Montreal. El material presentado aquí presenta algunos de los algoritmos de aprendizaje profundo más importantes y también demuestra el principio de trabajar con Theano. Theano es una biblioteca de Python que simplifica la escritura de modelos de aprendizaje profundo y hace posible entrenarlos en la GPU.

Con esta lista, el número de cosas interesantes en Github no está limitado. La próxima vez hablaremos sobre proyectos de aprendizaje automático y conjuntos de datos abiertos. Si tienes tus propios ejemplos de repositorios interesantes, compártelos en los comentarios.

Source: https://habr.com/ru/post/437940/


All Articles