GitHub lain: Repositori pada Ilmu Data, Visualisasi Data dan Pembelajaran Jauh


( c )

Github bukan hanya platform untuk hosting dan pengembangan bersama proyek-proyek TI, tetapi juga basis pengetahuan yang sangat besar yang disusun oleh ratusan ahli. Untungnya, layanan ini tidak hanya menyediakan alat untuk bekerja dengan kode sumber terbuka, tetapi juga materi berkualitas tinggi untuk pelatihan. Kami memilih beberapa repositori populer dan mengurutkannya berdasarkan jumlah bintang dalam urutan menurun.

Koleksi ini akan membantu Anda mengetahui repositori mana yang harus Anda perhatikan jika Anda tertarik bekerja dengan data dan pelatihan mendalam.

Ilmu data


Master Ilmu Data Sumber Terbuka
Bintang: 11.227, Forks: 4.737

Gudang resmi kurikulum Data Science Masters , dikembangkan sebagai alternatif sumber terbuka untuk pendidikan formal di bidang Ilmu Data. Repositori adalah kumpulan materi pelatihan yang dikumpulkan selama beberapa tahun.

Ilmu data yang luar biasa
Bintang: 9.240, Forks: 2.761

Koleksi hebat yang menjawab pertanyaan: "Apa itu Ilmu Data?" dan "apa yang perlu Anda ketahui agar fasih dalam ilmu ini?". Mudah dibagi menjadi beberapa kategori. Misalnya, ada daftar buku tentang Ilmu Data, pilihan infografis, dan bahkan kelompok tematik di Facebook .

Notebook Interaktif Jupyter
Bintang: 5.242, Forks: 2.331

Leluhur dari repositori ini adalah platform untuk bekerja dengan skrip dalam 40 bahasa pemrograman Data Science iPython Notebooks , dengan lebih dari 14.000 bintang dan 4.000 garpu. Spesialis pemrosesan dan pembelajaran mesin telah menggunakannya secara aktif untuk komputasi ilmiah.

Hari ini, Jupyter Notebook adalah seperangkat file notebook yang terdiri dari paragraf di mana permintaan ditulis dan dieksekusi. Menggunakan visualisator bawaan, notepad dengan serangkaian pertanyaan berubah menjadi dasbor data lengkap.

Blog Sains Data
Bintang: 4 510, Forks: 1 178

Daftar materi pelatihan yang sederhana namun ekstensif, disortir berdasarkan abjad. Di sini Anda akan menemukan semua blog populer, serta banyak situs kecil dengan informasi yang berguna (total 251 sumber daya terdaftar).

Spesialisasi ilmu data
Bintang: 3 114, Forks: 27 184

Repositori Pendidikan Sains Data Universitas Johns Hopkins adalah program yang sangat populer oleh Roger Pen, Jeff Lick dan Brian Cuffo. Untuk lebih tepatnya, program pelatihan dalam "Ilmu Data" khusus di Coursera mencakup beberapa kursus yang saling berhubungan tentang berbagai topik (misalnya, Pemrograman R) yang terkait dengan berbagai aspek analisis data, dan repositori yang disajikan dalam koleksi menggabungkan informasi yang digunakan dalam semua kursus.

Notebook Spark
Bintang: 2 677, Forks: 587

Spark Notebook adalah notepad open source yang menyediakan editor web interaktif yang dapat menggabungkan kode Scala, query SQL, Markup, dan JavaScript untuk menganalisis dan mengeksplorasi data bersama.

Pelajari ilmu data
Bintang: 2 129, Forks: 1 210

Koleksi notebook iPython fokus pada konsep pembelajaran mesin dasar untuk pemula.

Ilmu Data di Baris Perintah
Bintang: 2 057, Forks: 503

Repositori berisi teks, data, skrip, dan alat pengguna konsol yang digunakan dalam Ilmu Data di Baris Perintah . Panduan cara ini menunjukkan cara menggabungkan alat baris perintah yang kecil namun kuat untuk mengambil, membersihkan, meneliti, dan memodelkan data dengan cepat.

Situs Komunitas Spesialisasi Ilmu Data
Bintang: 1 395, Forks: 2 661

Beberapa siswa yang menyelesaikan kursus di Universitas Johns Hopkins membuat konten berkualitas tinggi yang dibagikan oleh staf universitas, dan juga membuat katalog untuk semua konten menarik yang dibuat oleh komunitas.

Visualisasi data untuk web


D3
Bintang: 81 837, Forks: 20 282

D3 adalah perpustakaan visualisasi data JavaScript untuk HTML dan SVG. Di D3, penekanannya adalah pada standar web, sehingga Anda dapat menggunakan semua kemampuan browser modern tanpa mengikat diri Anda pada struktur yang dipatenkan, menggabungkan komponen visualisasi yang kuat, pendekatan terkontrol dan interaksi dengan Document Object Model (DOM) . Ini adalah proyek visualisasi data paling populer di GitHub.

Chart.js
Bintang: 41.393, Forks: 9.294

Chart.js adalah pustaka HTML5 yang membuat visualisasi melalui elemen <canvas>. Chart.js memposisikan dirinya sebagai alat yang sederhana dan fleksibel, interaktif, mendukung enam jenis grafik.

Eharts
Bintang: 32.20, Forks: 9.369

ECharts adalah pustaka berbasis browser untuk grafik dan visualisasi. Mudah digunakan, intuitif dan mudah dikonfigurasi.

Leaflet
Bintang: 23.810, Forks: 3.937

Pustaka JavaScript untuk membuat peta interaktif yang berfokus pada aplikasi seluler. Kode perpustakaan sangat kecil - ia dirancang untuk penggunaan yang sederhana, cepat dan nyaman. Fitur Leaflet dapat diperluas melalui satu set plugin.

Sigma.js
Bintang: 8.348, Forks: 1.305

Pustaka JS yang berorientasi grafik. Sigma memungkinkan Anda untuk mengembangkan representasi grafik pada halaman web dan mengintegrasikannya ke dalam aplikasi web.

Vega
Bintang: 6.559, Forks: 702

Vega adalah bahasa deklaratif untuk membuat, menyimpan, dan berbagi proyek visualisasi interaktif. Dengan menggunakannya, Anda dapat mendeskripsikan penampilan dan perilaku interaktif visualisasi dalam format JSON, serta membuat tampilan web menggunakan Canvas atau SVG. Vega menyediakan blok bangunan dasar untuk berbagai proyek visualisasi: memuat dan mengonversi data, penskalaan, proyeksi peta, legenda, label grafis, dll.

DC.js
Bintang: 6.458, Forks: 1.734

DC.js adalah diagram multidimensi yang dibangun pada D3.js untuk bekerja dengan cross-filter . DC.js merender dalam format SVG yang kompatibel dengan CSS. Dirancang untuk analisis data yang kuat baik di browser maupun di perangkat seluler.

Zaman
Bintang: 4,949, Forks: 290

Perpustakaan visualisasi real-time universal. Ini berfokus pada dua aspek berbeda: grafik dasar untuk membuat laporan historis dan grafik real-time untuk menampilkan data deret waktu yang sering diperbarui.

Pembelajaran yang mendalam


Keras
Bintang: 37.611, Forks: 14.344

Keras adalah perpustakaan pembelajaran mendalam Python yang digunakan oleh TensorFlow dan Theano (ya, Anda dapat menjalankannya di atas perpustakaan TensorFlow , Theano, dan CNTK ). Keras dirancang untuk eksperimen cepat, karena kunci untuk melakukan penelitian yang baik adalah kemampuan untuk berpindah dari ide ke hasil dengan penundaan paling sedikit. Berkat dokumentasi yang lengkap dan dapat diakses, Keras berhak menempati tempat dalam pilihan kami.

Caffe
Bintang: 26.892, Forks: 16.276

Caffe (Convolution Architecture For Feature Extraction) adalah perpustakaan pembelajaran mendalam yang menghubungkan Python dan MATLAB. Bahkan, itu adalah perpustakaan tujuan umum yang dirancang untuk penyebaran jaringan konvolusional dan untuk pengenalan gambar, ucapan atau multimedia.

Ada juga proyek Caffe2, yang mencakup fitur-fitur baru, khususnya, jaringan saraf berulang. Pada Mei 2018, tim Caffe2 dan PyTorch bergabung, kode Caffe2 dipindahkan ke repositori PyTorch (bintang: 24.075 , fork: 5.707 ).

MXNet
Bintang: 16.157, Forks: 5.824

Lingkungan belajar yang dalam, ringan, kompak, dan terdistribusi fleksibel untuk Python, R, Julia, Scala, Go, JavaScript, dll. Untuk kinerja yang lebih baik, MXNet memungkinkan Anda untuk menggabungkan metode pemrograman imperatif dan simbolis. Proyek ini juga berisi pedoman untuk menciptakan sistem pembelajaran mendalam lainnya.

Ilmu Data Notebook IPython
Bintang: 14.747, Forks: 4.410

Koleksi notebook iPython, termasuk data besar, Hadoop, scikit-belajar, perpustakaan yang dirancang untuk komputasi ilmiah, dll. Berbicara tentang pembelajaran yang mendalam, TensorFlow, Theano, Caffe dan alat-alat lainnya tercakup.

Convnetjs
Bintang: 9.510, Forks: 1.982

ConvNetJS adalah implementasi dari jaringan saraf dan modul JavaScript umum mereka. Proyek saat ini tidak didukung, tetapi masih layak mendapat perhatian. Memungkinkan Anda mempelajari jaringan convolutional (atau reguler) langsung di peramban.

Deeplearning4j
Bintang: 10.227, Forks: 4.570

Perpustakaan Pembelajaran Jauh untuk Jawa dan Scala. Terintegrasi dengan Hadoop dan Spark. Deeplearning4j juga memungkinkan komputasi GPU yang mendukung CUDA. Selain itu, ada alat untuk bekerja dengan perpustakaan di Python. Repositori berisi semua dokumentasi dan tutorial yang diperlukan.

Tutorial Belajar Mendalam LISA Lab
Bintang: 3,673, Forks: 2,045

Koleksi buku pelajaran dari Universitas Montreal. Materi yang disajikan di sini memperkenalkan beberapa algoritma pembelajaran mendalam yang paling penting, dan juga menunjukkan prinsip bekerja dengan Theano. Theano adalah perpustakaan Python yang menyederhanakan penulisan model pembelajaran yang mendalam dan memungkinkannya untuk melatih mereka pada GPU.

Dengan daftar ini, jumlah hal menarik di Github tidak terbatas. Lain kali kita akan berbicara tentang proyek pembelajaran mesin dan membuka kumpulan data. Jika Anda memiliki contoh repositori yang menarik, bagikan dalam komentar.

Source: https://habr.com/ru/post/id437940/


All Articles