
(
c )
Github ist nicht nur eine Plattform für das Hosting und die gemeinsame Entwicklung von IT-Projekten, sondern auch eine riesige Wissensbasis, die von Hunderten von Experten zusammengestellt wurde. Glücklicherweise bietet der Service nicht nur Tools für die Arbeit mit Open Source Code, sondern auch hochwertige Schulungsmaterialien. Wir haben einige beliebte Repositories ausgewählt und sie nach der Anzahl der Sterne in absteigender Reihenfolge sortiert.
Mithilfe dieser Sammlung können Sie herausfinden, auf welche Repositorys Sie achten sollten, wenn Sie an der Arbeit mit Daten und an eingehenden Schulungen interessiert sind.
Datenwissenschaft
Die Open Source Data Science MastersSterne: 11.227, Gabeln: 4.737
Das offizielle Repository des
Data Science Masters- Lehrplans, das als Open-Source-Alternative zur formalen Bildung im Bereich Data Science entwickelt wurde. Das Repository ist eine Sammlung von Schulungsmaterialien, die über mehrere Jahre gesammelt wurden.
Fantastische DatenwissenschaftSterne: 9.240, Gabeln: 2.761
Leistungsstarke Sammlung, die die Fragen beantwortet: „Was ist Data Science?“ und "was müssen Sie wissen, um sich in dieser Wissenschaft gut auskennen zu können?". Bequem in Kategorien unterteilt. Zum Beispiel gibt es eine
Liste von Büchern über Data Science, eine
Auswahl von Infografiken und sogar thematische
Gruppen auf Facebook .
Jupyter Interactive NotebookSterne: 5.242, Gabeln: 2.331
Der Vorläufer dieses Repositorys ist eine Plattform für die Arbeit mit Skripten in 40 Programmiersprachen
Data Science iPython Notebooks mit mehr als 14.000 Sternen und 4.000 Gabeln. Spezialisten für Datenverarbeitung und maschinelles Lernen haben es aktiv für das wissenschaftliche Rechnen genutzt.
Heutzutage ist Jupyter Notebook ein praktischer Satz von Notebook-Dateien, die aus Absätzen bestehen, in denen Anforderungen geschrieben und ausgeführt werden. Mithilfe integrierter Visualisierer wird ein Notizblock mit einer Reihe von Abfragen zu einem vollwertigen Daten-Dashboard.
Data Science-BlogsSterne: 4 510, Gabeln: 1 178
Eine einfache, aber umfangreiche Liste von Schulungsmaterialien, alphabetisch sortiert. Hier finden Sie alle beliebten Blogs sowie viele kleine Websites mit nützlichen Informationen (insgesamt sind 251 Ressourcen aufgelistet).
Spezialisierung auf DatenwissenschaftSterne: 3 114, Gabeln: 27 184
Das Data Science
Education Repository der Johns Hopkins University ist ein sehr beliebter Kurs von Roger Pen, Jeff Lick und Brian Caffo. Genauer gesagt umfasst das Schulungsprogramm in der Spezialität „Data Science“ bei Coursera mehrere miteinander verbundene Kurse zu verschiedenen Themen (z. B. R-Programmierung), die sich auf verschiedene Aspekte der Datenanalyse beziehen, und das in der Sammlung präsentierte Repository kombiniert die in allen Kursen verwendeten Informationen.
Spark-NotebookSterne: 2 677, Gabeln: 587
Spark Notebook ist ein Open-Source-Notizblock, der einen interaktiven Web-Editor bietet, der Scala-Code, SQL-Abfragen, Markup und JavaScript kombinieren kann, um Daten gemeinsam zu analysieren und zu untersuchen.
Lernen Sie Data ScienceSterne: 2 129, Gabeln: 1 210
Eine Sammlung von iPython-Notizbüchern, die sich auf grundlegende Konzepte des maschinellen Lernens für Anfänger konzentrieren.
Data Science an der KommandozeileSterne: 2 057, Gabeln: 503
Das Repository enthält Texte, Daten, Skripte und Konsolenbenutzer-Tools, die in
Data Science über die Befehlszeile verwendet werden . Diese Anleitung zeigt, wie Sie kleine, aber leistungsstarke Befehlszeilentools kombinieren, um Daten schnell abzurufen, zu bereinigen, zu recherchieren und zu modellieren.
Community-Site für Data Science-SpezialisierungSterne: 1 395, Gabeln: 2 661
Mehrere Studenten, die den Kurs an der Johns Hopkins University abgeschlossen haben, haben so hochwertige Inhalte erstellt, dass die Mitarbeiter der Universität sie geteilt haben, und einen Katalog mit allen interessanten Inhalten erstellt, die von der Community erstellt wurden.
Datenvisualisierung für das Web
D3Sterne: 81 837, Gabeln: 20 282
D3 ist eine JavaScript-Datenvisualisierungsbibliothek für HTML und SVG. In D3 liegt der Schwerpunkt auf Webstandards, sodass Sie alle Funktionen moderner Browser nutzen können, ohne sich an eine proprietäre Struktur zu binden. Sie kombinieren leistungsstarke Visualisierungskomponenten, einen kontrollierten Ansatz und die Interaktion mit dem
Document Object Model (DOM) . Dies ist das beliebteste Datenvisualisierungsprojekt auf GitHub.
Chart.jsSterne: 41.393, Gabeln: 9.294
Chart.js ist eine HTML5-Bibliothek, die Visualisierungen über das <canvas> -Element erstellt. Chart.js positioniert sich als einfaches und flexibles interaktives Tool, das sechs verschiedene Diagrammtypen unterstützt.
EhartsSterne: 32 204, Gabeln: 9.369
ECharts ist eine browserbasierte Bibliothek zur grafischen Darstellung und Visualisierung. Einfach zu bedienen, intuitiv und einfach zu konfigurieren.
FaltblattSterne: 23.810, Gabeln: 3.937
JavaScript-Bibliothek zum Erstellen interaktiver Karten für mobile Anwendungen. Der Bibliothekscode ist unglaublich klein - er ist für eine einfache, schnelle und bequeme Verwendung konzipiert. Die Funktionen der Broschüren können durch eine Reihe von Plugins erweitert werden.
Sigma.jsSterne: 8.348, Gabeln: 1.305
Graphorientierte JS-Bibliothek. Mit Sigma können Sie Diagrammdarstellungen auf Webseiten entwickeln und in Webanwendungen integrieren.
VegaSterne: 6.559, Gabeln: 702
Vega ist eine deklarative Sprache zum Erstellen, Speichern und Freigeben interaktiver Visualisierungsprojekte. Mithilfe dieser Funktion können Sie das Erscheinungsbild und das interaktive Verhalten der Visualisierung im JSON-Format beschreiben sowie Webansichten mit Canvas oder SVG erstellen. Vega bietet die Grundbausteine für eine Vielzahl von Visualisierungsprojekten: Laden und Konvertieren von Daten, Skalieren, Kartenprojektionen, Legenden, grafische Beschriftungen usw.
DC.jsSterne: 6.458, Gabeln: 1.734
DC.js ist ein mehrdimensionales Diagramm, das auf D3.js für die Arbeit mit Kreuzfiltern basiert. DC.js wird im SVG-Format mit CSS kompatibel gerendert. Entwickelt für leistungsstarke Datenanalyse sowohl im Browser als auch auf Mobilgeräten.
EpocheSterne: 4.949, Gabeln: 290
Universelle Echtzeit-Visualisierungsbibliothek. Es konzentriert sich auf zwei verschiedene Aspekte: grundlegende Diagramme zum Erstellen historischer Berichte und Echtzeitdiagramme zum Anzeigen häufig aktualisierter Zeitreihendaten.
Tiefes Lernen
KerasSterne: 37.611, Gabeln: 14.344
Keras ist eine Python-Deep-Learning-Bibliothek, die sowohl von TensorFlow als auch von Theano verwendet wird (ja, Sie können sie über den
Bibliotheken TensorFlow ,
Theano und
CNTK ausführen ). Keras ist für schnelles Experimentieren konzipiert, da der Schlüssel zu guter Forschung die Fähigkeit ist, mit der geringsten Verzögerung von der Idee zum Ergebnis zu gelangen. Dank einer gründlichen und zugänglichen Dokumentation nimmt Keras zu Recht einen Platz in unserer Auswahl ein.
CaffeSterne: 26.892, Gabeln: 16.276
Caffe (Convolution Architecture For Feature Extraction) ist eine Deep-Learning-Bibliothek, die Python und MATLAB verbindet. Tatsächlich handelt es sich um eine Allzweckbibliothek, die für die Bereitstellung von Faltungsnetzwerken und für die Erkennung von Bildern, Sprache oder Multimedia entwickelt wurde.
Es gibt auch ein Caffe2-Projekt, das neue Funktionen enthält, insbesondere wiederkehrende neuronale Netze. Im Mai 2018 fusionierten die Teams Caffe2 und PyTorch. Der Caffe2-Code wurde in
das PyTorch-Repository übertragen (Sterne:
24.075 , Gabeln:
5.707 ).
MXNetSterne: 16.157, Gabeln: 5.824
Leichte, kompakte, flexibel verteilte Deep-Learning-Umgebung für Python, R, Julia, Scala, Go, JavaScript usw. Für eine höhere Leistung können Sie mit MXNet imperative und symbolische Programmiermethoden mischen. Das Projekt enthält auch Richtlinien für die Erstellung anderer Deep-Learning-Systeme.
Data Science IPython-NotizbücherSterne: 14.747, Gabeln: 4.410
Die Sammlung von iPython-Notebooks, einschließlich Big Data, Hadoop, Scikit-Learn, Bibliotheken für wissenschaftliches Rechnen usw. Apropos Deep Learning: TensorFlow, Theano, Caffe und andere Tools werden behandelt.
ConvnetjsSterne: 9.510, Gabeln: 1.982
ConvNetJS ist eine Implementierung neuronaler Netze und ihrer gemeinsamen JavaScript-Module. Das Projekt wird derzeit nicht unterstützt, verdient aber dennoch Aufmerksamkeit. Ermöglicht das Erlernen von Faltungsnetzwerken (oder regulären Netzwerken) direkt im Browser.
Deeplearning4jSterne: 10.227, Gabeln: 4.570
Deep Learning Library für Java und Scala. Integriert in Hadoop und Spark. Deeplearning4j ermöglicht auch CUDA-fähiges GPU-Computing. Darüber hinaus gibt es Tools für die Arbeit mit der Bibliothek in Python. Das Repository enthält alle erforderlichen Dokumentationen und Tutorials.
LISA Lab Deep Learning TutorialsSterne: 3.673, Gabeln: 2.045
Eine Sammlung von Lehrbüchern der Universität von Montreal. Das hier vorgestellte Material stellt einige der wichtigsten Deep-Learning-Algorithmen vor und demonstriert auch das Prinzip der Arbeit mit Theano. Theano ist eine Python-Bibliothek, die das Schreiben von Deep-Learning-Modellen vereinfacht und es ermöglicht, sie auf der GPU zu trainieren.
Mit dieser Liste ist die Anzahl der interessanten Dinge auf dem Github nicht begrenzt. Das nächste Mal werden wir über maschinelle Lernprojekte und offene Datensätze sprechen. Wenn Sie eigene Beispiele für interessante Repositories haben, teilen Sie diese in den Kommentaren mit.