
(
c )
Github bukan hanya platform untuk hosting dan pengembangan bersama proyek-proyek TI, tetapi juga basis pengetahuan yang sangat besar yang disusun oleh ratusan ahli. Untungnya, layanan ini tidak hanya menyediakan alat untuk bekerja dengan kode sumber terbuka, tetapi juga materi berkualitas tinggi untuk pelatihan. Kami memilih beberapa repositori populer dan mengurutkannya berdasarkan jumlah bintang dalam urutan menurun.
Koleksi ini akan membantu Anda mengetahui repositori mana yang harus Anda perhatikan jika Anda tertarik bekerja dengan data dan pelatihan mendalam.
Ilmu data
Master Ilmu Data Sumber TerbukaBintang: 11.227, Forks: 4.737
Gudang resmi kurikulum
Data Science Masters , dikembangkan sebagai alternatif sumber terbuka untuk pendidikan formal di bidang Ilmu Data. Repositori adalah kumpulan materi pelatihan yang dikumpulkan selama beberapa tahun.
Ilmu data yang luar biasaBintang: 9.240, Forks: 2.761
Koleksi hebat yang menjawab pertanyaan: "Apa itu Ilmu Data?" dan "apa yang perlu Anda ketahui agar fasih dalam ilmu ini?". Mudah dibagi menjadi beberapa kategori. Misalnya, ada
daftar buku tentang Ilmu Data,
pilihan infografis, dan bahkan
kelompok tematik
di Facebook .
Notebook Interaktif JupyterBintang: 5.242, Forks: 2.331
Leluhur dari repositori ini adalah platform untuk bekerja dengan skrip dalam 40 bahasa pemrograman
Data Science iPython Notebooks , dengan lebih dari 14.000 bintang dan 4.000 garpu. Spesialis pemrosesan dan pembelajaran mesin telah menggunakannya secara aktif untuk komputasi ilmiah.
Hari ini, Jupyter Notebook adalah seperangkat file notebook yang terdiri dari paragraf di mana permintaan ditulis dan dieksekusi. Menggunakan visualisator bawaan, notepad dengan serangkaian pertanyaan berubah menjadi dasbor data lengkap.
Blog Sains DataBintang: 4 510, Forks: 1 178
Daftar materi pelatihan yang sederhana namun ekstensif, disortir berdasarkan abjad. Di sini Anda akan menemukan semua blog populer, serta banyak situs kecil dengan informasi yang berguna (total 251 sumber daya terdaftar).
Spesialisasi ilmu dataBintang: 3 114, Forks: 27 184
Repositori
Pendidikan Sains Data Universitas Johns Hopkins adalah program yang sangat populer oleh Roger Pen, Jeff Lick dan Brian Cuffo. Untuk lebih tepatnya, program pelatihan dalam "Ilmu Data" khusus di Coursera mencakup beberapa kursus yang saling berhubungan tentang berbagai topik (misalnya, Pemrograman R) yang terkait dengan berbagai aspek analisis data, dan repositori yang disajikan dalam koleksi menggabungkan informasi yang digunakan dalam semua kursus.
Notebook SparkBintang: 2 677, Forks: 587
Spark Notebook adalah notepad open source yang menyediakan editor web interaktif yang dapat menggabungkan kode Scala, query SQL, Markup, dan JavaScript untuk menganalisis dan mengeksplorasi data bersama.
Pelajari ilmu dataBintang: 2 129, Forks: 1 210
Koleksi notebook iPython fokus pada konsep pembelajaran mesin dasar untuk pemula.
Ilmu Data di Baris PerintahBintang: 2 057, Forks: 503
Repositori berisi teks, data, skrip, dan alat pengguna konsol yang digunakan dalam
Ilmu Data di Baris Perintah . Panduan cara ini menunjukkan cara menggabungkan alat baris perintah yang kecil namun kuat untuk mengambil, membersihkan, meneliti, dan memodelkan data dengan cepat.
Situs Komunitas Spesialisasi Ilmu DataBintang: 1 395, Forks: 2 661
Beberapa siswa yang menyelesaikan kursus di Universitas Johns Hopkins membuat konten berkualitas tinggi yang dibagikan oleh staf universitas, dan juga membuat katalog untuk semua konten menarik yang dibuat oleh komunitas.
Visualisasi data untuk web
D3Bintang: 81 837, Forks: 20 282
D3 adalah perpustakaan visualisasi data JavaScript untuk HTML dan SVG. Di D3, penekanannya adalah pada standar web, sehingga Anda dapat menggunakan semua kemampuan browser modern tanpa mengikat diri Anda pada struktur yang dipatenkan, menggabungkan komponen visualisasi yang kuat, pendekatan terkontrol dan interaksi dengan
Document Object Model (DOM) . Ini adalah proyek visualisasi data paling populer di GitHub.
Chart.jsBintang: 41.393, Forks: 9.294
Chart.js adalah pustaka HTML5 yang membuat visualisasi melalui elemen <canvas>. Chart.js memposisikan dirinya sebagai alat yang sederhana dan fleksibel, interaktif, mendukung enam jenis grafik.
EhartsBintang: 32.20, Forks: 9.369
ECharts adalah pustaka berbasis browser untuk grafik dan visualisasi. Mudah digunakan, intuitif dan mudah dikonfigurasi.
LeafletBintang: 23.810, Forks: 3.937
Pustaka JavaScript untuk membuat peta interaktif yang berfokus pada aplikasi seluler. Kode perpustakaan sangat kecil - ia dirancang untuk penggunaan yang sederhana, cepat dan nyaman. Fitur Leaflet dapat diperluas melalui satu set plugin.
Sigma.jsBintang: 8.348, Forks: 1.305
Pustaka JS yang berorientasi grafik. Sigma memungkinkan Anda untuk mengembangkan representasi grafik pada halaman web dan mengintegrasikannya ke dalam aplikasi web.
VegaBintang: 6.559, Forks: 702
Vega adalah bahasa deklaratif untuk membuat, menyimpan, dan berbagi proyek visualisasi interaktif. Dengan menggunakannya, Anda dapat mendeskripsikan penampilan dan perilaku interaktif visualisasi dalam format JSON, serta membuat tampilan web menggunakan Canvas atau SVG. Vega menyediakan blok bangunan dasar untuk berbagai proyek visualisasi: memuat dan mengonversi data, penskalaan, proyeksi peta, legenda, label grafis, dll.
DC.jsBintang: 6.458, Forks: 1.734
DC.js adalah diagram multidimensi yang dibangun pada D3.js untuk bekerja dengan
cross-filter . DC.js merender dalam format SVG yang kompatibel dengan CSS. Dirancang untuk analisis data yang kuat baik di browser maupun di perangkat seluler.
ZamanBintang: 4,949, Forks: 290
Perpustakaan visualisasi real-time universal. Ini berfokus pada dua aspek berbeda: grafik dasar untuk membuat laporan historis dan grafik real-time untuk menampilkan data deret waktu yang sering diperbarui.
Pembelajaran yang mendalam
KerasBintang: 37.611, Forks: 14.344
Keras adalah perpustakaan pembelajaran mendalam Python yang digunakan oleh TensorFlow dan Theano (ya, Anda dapat menjalankannya di atas
perpustakaan TensorFlow ,
Theano, dan
CNTK ). Keras dirancang untuk eksperimen cepat, karena kunci untuk melakukan penelitian yang baik adalah kemampuan untuk berpindah dari ide ke hasil dengan penundaan paling sedikit. Berkat dokumentasi yang lengkap dan dapat diakses, Keras berhak menempati tempat dalam pilihan kami.
CaffeBintang: 26.892, Forks: 16.276
Caffe (Convolution Architecture For Feature Extraction) adalah perpustakaan pembelajaran mendalam yang menghubungkan Python dan MATLAB. Bahkan, itu adalah perpustakaan tujuan umum yang dirancang untuk penyebaran jaringan konvolusional dan untuk pengenalan gambar, ucapan atau multimedia.
Ada juga proyek Caffe2, yang mencakup fitur-fitur baru, khususnya, jaringan saraf berulang. Pada Mei 2018, tim Caffe2 dan PyTorch bergabung, kode Caffe2 dipindahkan ke
repositori PyTorch (bintang:
24.075 , fork:
5.707 ).
MXNetBintang: 16.157, Forks: 5.824
Lingkungan belajar yang dalam, ringan, kompak, dan terdistribusi fleksibel untuk Python, R, Julia, Scala, Go, JavaScript, dll. Untuk kinerja yang lebih baik, MXNet memungkinkan Anda untuk menggabungkan metode pemrograman imperatif dan simbolis. Proyek ini juga berisi pedoman untuk menciptakan sistem pembelajaran mendalam lainnya.
Ilmu Data Notebook IPythonBintang: 14.747, Forks: 4.410
Koleksi notebook iPython, termasuk data besar, Hadoop, scikit-belajar, perpustakaan yang dirancang untuk komputasi ilmiah, dll. Berbicara tentang pembelajaran yang mendalam, TensorFlow, Theano, Caffe dan alat-alat lainnya tercakup.
ConvnetjsBintang: 9.510, Forks: 1.982
ConvNetJS adalah implementasi dari jaringan saraf dan modul JavaScript umum mereka. Proyek saat ini tidak didukung, tetapi masih layak mendapat perhatian. Memungkinkan Anda mempelajari jaringan convolutional (atau reguler) langsung di peramban.
Deeplearning4jBintang: 10.227, Forks: 4.570
Perpustakaan Pembelajaran Jauh untuk Jawa dan Scala. Terintegrasi dengan Hadoop dan Spark. Deeplearning4j juga memungkinkan komputasi GPU yang mendukung CUDA. Selain itu, ada alat untuk bekerja dengan perpustakaan di Python. Repositori berisi semua dokumentasi dan tutorial yang diperlukan.
Tutorial Belajar Mendalam LISA LabBintang: 3,673, Forks: 2,045
Koleksi buku pelajaran dari Universitas Montreal. Materi yang disajikan di sini memperkenalkan beberapa algoritma pembelajaran mendalam yang paling penting, dan juga menunjukkan prinsip bekerja dengan Theano. Theano adalah perpustakaan Python yang menyederhanakan penulisan model pembelajaran yang mendalam dan memungkinkannya untuk melatih mereka pada GPU.
Dengan daftar ini, jumlah hal menarik di Github tidak terbatas. Lain kali kita akan berbicara tentang proyek pembelajaran mesin dan membuka kumpulan data. Jika Anda memiliki contoh repositori yang menarik, bagikan dalam komentar.