Github 2 lainnya: Pembelajaran Mesin, Kumpulan Data, dan Notebook Jupyter



Terlepas dari banyak sumber perangkat lunak pembelajaran mesin gratis yang tersedia di Internet, Github tetap menjadi clearinghouse penting untuk semua jenis alat sumber terbuka yang digunakan oleh pembelajaran mesin dan komunitas analisis data.

Koleksi ini berisi repositori pembelajaran mesin, dataset, dan Notebook Jupyter, yang diberi peringkat berdasarkan peringkat bintang. Pada bagian sebelumnya , kami berbicara tentang repositori populer untuk mempelajari visualisasi data dan pembelajaran mendalam.

Pembelajaran mesin


Pembelajaran mesin yang mengagumkan
38 809, 9 615


Daftar sistem, perpustakaan, dan perangkat lunak yang mengesankan yang diklasifikasikan berdasarkan bahasa dan kategori (visi komputer, pemrosesan bahasa alami, dll.). Selain itu, dalam repositori ini Anda akan menemukan daftar buku pembelajaran mesin gratis, kursus pembelajaran mesin gratis, blog ilmu data.

Scikit-belajar
34 067, 16 698


Dikembangkan sejak 2007, modul Python untuk pembelajaran mesin, dibangun berdasarkan perpustakaan SciPy, NumPy, dan Matplotlib. Didistribusikan di bawah lisensi BSD 3-Clause. Scikit-learn adalah alat universal untuk pekerjaan yang berisi algoritma klasifikasi, regresi dan pengelompokan, serta metode untuk mempersiapkan data dan mengevaluasi model.

PrediksiIO
11 703, 1 903


Kerangka kerja pembelajaran mesin sumber terbuka yang mendukung pengumpulan acara, penyebaran algoritma, evaluasi, templat untuk tugas-tugas terkenal seperti klasifikasi dan rekomendasi. Terhubung ke aplikasi yang ada menggunakan REST API atau SDK. PredictionIO didasarkan pada layanan sumber terbuka yang dapat diskalakan seperti Hadoop, HBase (dan basis data lainnya), Elasticsearch, Spark.

Selami pembelajaran mesin
9 163, 1,673


Bahan untuk pemula dalam subjek. Repositori berisi kumpulan tutorial IPython untuk perpustakaan Scikit-learn, yang mengimplementasikan sejumlah besar algoritma pembelajaran mesin, serta beberapa tautan ke topik pembelajaran mesin yang berhubungan dengan Python dan informasi yang lebih umum tentang analisis data. Penulis memberikan tautan ke banyak tutorial lain yang membahas topik tersebut.

Pola
6 845, 1,353


Modul pengembangan web berbasis-python dengan alat untuk analisis, pemrosesan bahasa alami (menandai bagian-bagian pembicaraan, pencarian n-gram, analisis suasana hati, WordNet), pembelajaran mesin, analisis jaringan, dan visualisasi. Modul ini dibuat dan didokumentasikan dengan baik di Pusat Penelitian untuk Linguistik Komputer dan Psikolinguistik Universitas Antwerp (Belgia). Dalam repositori Anda akan menemukan lebih dari 50 contoh penggunaannya.

Golearn
6 374, 867


Secara aktif mengembangkan perpustakaan pembelajaran mesin untuk Go. Menyediakan paket perangkat lunak berfitur lengkap, mudah digunakan, dan sangat dapat disesuaikan untuk para pengembang. GoLearn mengimplementasikan antarmuka pembelajaran Scikit-learning yang sudah dikenal.

Vowpal wabbit
6 189, 1.519


Sistem Vowpal Wabbit memperluas batas pembelajaran mesin menggunakan metode seperti hashing, allreduce, learning2search, dan pembelajaran aktif dan interaktif. Vowpal Wabbit bertujuan untuk dengan cepat memodelkan kumpulan data yang besar dan mendukung pembelajaran paralel. Perhatian khusus diberikan pada pembelajaran penguatan dengan menggunakan beberapa "algoritma gangster" kontekstual.

NuPIC (Platform Numenta untuk Komputasi Cerdas)
5 852, 1.570


NuPIC mengimplementasikan algoritma pembelajaran mesin Hierarchical Temporal Memory (HTM). Secara umum, HTM adalah upaya untuk mensimulasikan operasi komputasi neokorteks otak manusia dan berfokus pada konservasi dan doa pola spasial dan temporal. HTM adalah sistem memori, tidak diprogram, tidak belajar untuk mengeksekusi algoritma untuk berbagai tugas, ia belajar untuk menyelesaikan masalah. NuPIC cocok untuk semua jenis tugas, khususnya, untuk mendeteksi anomali pola.

aerosolve
4,522, 570


aerosolve mencoba untuk membedakan dirinya dari perpustakaan lain dengan berfokus pada alat debugging yang ramah pengguna, kode Scala untuk pelatihan, mekanisme untuk menganalisis konten gambar untuk peringkat yang mudah, fleksibilitas, dan kontrol atas fungsi. Perpustakaan ini dimaksudkan untuk digunakan dengan fungsi-fungsi langka yang dapat ditafsirkan yang biasanya ditemukan dalam pencarian (kata kunci pencarian, filter) atau harga (jumlah kamar di kamar hotel, lokasi, harga).

Kode untuk Pembelajaran Mesin untuk Peretas
3 467, 2,220


Repositori pelengkap Machine Learning for Hacker , repositori tempat semua kode disajikan dalam bahasa R, dimaksudkan untuk pemrosesan data statistik (pada kenyataannya, standar program statistik) dan untuk bekerja dengan grafik. Anda akan menemukan banyak paket R. Topik yang dibahas meliputi klasifikasi umum, tugas menentukan peringkat dan regresi, serta prosedur statistik untuk analisis komponen dan penskalaan multi-dimensi.

Kumpulan data github


Kumpulan data publik yang mengagumkan
31 852, 5,361


Repositori lain yang mengesankan dengan ukurannya adalah daftar yang dibagi menjadi 30 topik: biologi, olahraga, museum, bahasa alami, dll. Repositori mencakup beberapa ratus set data, yang sebagian besar gratis. Berikut ini tautan ke koleksi Big Data lainnya.

Openaddresses
1 644, 745


Repositori OpenAddresses.io resmi adalah kumpulan global alamat jalan yang bebas dan terbuka. Proyek ini mencakup nama jalan, nomor rumah, kode pos dan koordinat geografis.

Buka katalog planet ekstrasurya
583, 176


Katalog semua planet terkenal yang ada di luar tata surya. Sebelumnya, database diperbarui dalam waktu 24 jam setelah ditemukannya sebuah planet baru, tetapi sekarang, sayangnya, proyek ini praktis tidak berkembang.

CitySDK
510, 149


Basis data Biro Sensus AS, diadaptasi untuk integrasi dengan set data terbuka lainnya, dengan fungsi yang mudah digunakan untuk bekerja dan membuat set data kustom Anda sendiri dengan API Sensus: statistik, Geografi Geografis, lat / lng, dll.

openFDA
353, 84


openFDA adalah proyek Administrasi Makanan dan Obat-Obatan (FDA) AS yang bertujuan untuk menyediakan kumpulan set data publik untuk para peneliti dan pengembang melalui API, serta contoh bagaimana menggunakan data dan dokumentasi ini. Ada informasi tentang efek samping dari obat-obatan, label obat, laporan penarikan obat dari pasar, dan perubahan pada resep resep.

Portal Data Terbuka CERN
247, 88


Kode sumber untuk portal data terbuka Organisasi Riset Nuklir CERN, yang digambarkan sebagai "titik akses ke berbagai data yang berkembang dari penelitian CERN."

Notebook IPython (Jupyter)


Daftar repositori Github berguna yang terdiri dari notebook IPython (Jupyter) yang berfokus pada manipulasi data dan pembelajaran mesin.

Buku Belajar Mesin Python
9 655, 3 674


Repositori terlampir edisi pertama Machine Learning dengan buku Python (repositori untuk edisi kedua di sini ), yang berkaitan dengan bekerja dengan nilai-nilai yang hilang, mengubah variabel kategori menjadi format yang sesuai untuk pembelajaran mesin, memilih properti informatif, mengompresi data dengan transfer ke subruang dengan lebih sedikit jumlah pengukuran.

Contoh Data Ilmu Notebook
4 156, 1 463


Tempat penyimpanan materi pelatihan, kode dan data untuk berbagai analisis data dan proyek pembelajaran mesin. Notebook berisi semua prinsip dasar bekerja dengan analisis data menggunakan dataset Iris sebagai contoh dan menggambarkan konstruksi alur kerja dalam ilmu data. Poin dasar untuk bekerja dalam repo diperoleh dari buku " The Elements of Data Analytic Style " (Jeff Leek, 2015).

Pelajari ilmu data
2 197, 1 228


Kumpulan Notebook dan kumpulan data yang mencakup empat topik algoritmik: regresi linier, regresi logistik, hutan acak, dan algoritma pengelompokan K-Means. Learn Data Science didasarkan pada materi yang dibuat untuk proyek Pelatihan Open Data Science .

Notebook Ipython
2 106, 1 226


Repositori berisi berbagai Notebook IPython - mulai dari tinjauan umum tentang bahasa dan fungsi IPython hingga contoh penggunaan berbagai perpustakaan populer dalam analisis data. Di sini Anda akan menemukan koleksi komprehensif pembelajaran mesin, pembelajaran mendalam, dan materi pengolahan data besar dari kursus Machine Learning oleh Andrew Ng (Coursera), Pengantar TensorFlow untuk Pembelajaran Jauh (Udacity), dan Spark (edX).

Scikit-pelajari tutorial
963, 573


Repositori untuk mempelajari perpustakaan Scikit-learning , yang mengimplementasikan sejumlah besar algoritma pembelajaran mesin. Perpustakaan menyediakan implementasi sejumlah algoritma untuk belajar dengan atau tanpa guru. Scikit-learn dibangun di atas SciPy (Scientific Python).

Pembelajaran mesin
543, 336


Serangkaian tutorial Notebook IPython yang sangat rinci berdasarkan data dari kursus Pembelajaran Mesin Andrew Nga (Universitas Stanford), kursus Tom Mitchell (Universitas Carnegie Mellon), dan buku Pengenalan Pola dan Pembelajaran Mesin karya Christopher M. Bishor.

Daftar yang disediakan tidak sepenuhnya lengkap, jadi kami menyambut komentar dengan daftar repositori favorit Anda (atau milik Anda).

Source: https://habr.com/ru/post/id445530/


All Articles