
Terlepas dari banyak sumber perangkat lunak pembelajaran mesin gratis yang tersedia di Internet, Github tetap menjadi clearinghouse penting untuk semua jenis alat sumber terbuka yang digunakan oleh pembelajaran mesin dan komunitas analisis data.
Koleksi ini berisi repositori pembelajaran mesin, dataset, dan Notebook Jupyter, yang diberi peringkat berdasarkan peringkat bintang. Pada bagian
sebelumnya , kami berbicara tentang repositori populer untuk mempelajari visualisasi data dan pembelajaran mendalam.
Pembelajaran mesin
Daftar sistem, perpustakaan, dan perangkat lunak yang mengesankan yang diklasifikasikan berdasarkan bahasa dan kategori (visi komputer, pemrosesan bahasa alami, dll.). Selain itu, dalam repositori ini Anda akan menemukan daftar buku pembelajaran mesin gratis, kursus pembelajaran mesin gratis, blog ilmu data.
Dikembangkan sejak 2007, modul Python untuk pembelajaran mesin, dibangun berdasarkan perpustakaan SciPy, NumPy, dan Matplotlib. Didistribusikan di bawah lisensi BSD 3-Clause. Scikit-learn adalah alat universal untuk pekerjaan yang berisi algoritma klasifikasi, regresi dan pengelompokan, serta metode untuk mempersiapkan data dan mengevaluasi model.
Kerangka kerja pembelajaran mesin sumber terbuka yang mendukung pengumpulan acara, penyebaran algoritma, evaluasi, templat untuk tugas-tugas terkenal seperti klasifikasi dan rekomendasi. Terhubung ke aplikasi yang ada menggunakan REST API atau SDK. PredictionIO didasarkan pada layanan sumber terbuka yang dapat diskalakan seperti Hadoop, HBase (dan basis data lainnya), Elasticsearch, Spark.
Bahan untuk pemula dalam subjek. Repositori berisi kumpulan tutorial IPython untuk perpustakaan Scikit-learn, yang mengimplementasikan sejumlah besar algoritma pembelajaran mesin, serta beberapa tautan ke topik pembelajaran mesin yang berhubungan dengan Python dan informasi yang lebih umum tentang analisis data. Penulis memberikan tautan ke banyak tutorial lain yang membahas topik tersebut.
Pola
6 845,
1,353
Modul pengembangan web berbasis-python dengan alat untuk analisis, pemrosesan bahasa alami (menandai bagian-bagian pembicaraan, pencarian n-gram, analisis suasana hati, WordNet), pembelajaran mesin, analisis jaringan, dan visualisasi. Modul ini dibuat dan didokumentasikan dengan baik di Pusat Penelitian untuk Linguistik Komputer dan Psikolinguistik Universitas Antwerp (Belgia). Dalam repositori Anda akan menemukan lebih dari 50 contoh penggunaannya.
Secara aktif mengembangkan perpustakaan pembelajaran mesin untuk Go. Menyediakan paket perangkat lunak berfitur lengkap, mudah digunakan, dan sangat dapat disesuaikan untuk para pengembang. GoLearn mengimplementasikan antarmuka pembelajaran Scikit-learning yang sudah dikenal.
Sistem Vowpal Wabbit memperluas batas pembelajaran mesin menggunakan metode seperti hashing, allreduce, learning2search, dan pembelajaran aktif dan interaktif. Vowpal Wabbit bertujuan untuk dengan cepat memodelkan kumpulan data yang besar dan mendukung pembelajaran paralel. Perhatian khusus diberikan pada pembelajaran penguatan dengan menggunakan beberapa "algoritma gangster" kontekstual.
NuPIC mengimplementasikan algoritma pembelajaran mesin Hierarchical Temporal Memory (HTM). Secara umum, HTM adalah upaya untuk mensimulasikan operasi komputasi neokorteks otak manusia dan berfokus pada konservasi dan doa pola spasial dan temporal. HTM adalah sistem memori, tidak diprogram, tidak belajar untuk mengeksekusi algoritma untuk berbagai tugas, ia belajar untuk menyelesaikan masalah. NuPIC cocok untuk semua jenis tugas, khususnya, untuk mendeteksi anomali pola.
aerosolve mencoba untuk membedakan dirinya dari perpustakaan lain dengan berfokus pada alat debugging yang ramah pengguna, kode Scala untuk pelatihan, mekanisme untuk menganalisis konten gambar untuk peringkat yang mudah, fleksibilitas, dan kontrol atas fungsi. Perpustakaan ini dimaksudkan untuk digunakan dengan fungsi-fungsi langka yang dapat ditafsirkan yang biasanya ditemukan dalam pencarian (kata kunci pencarian, filter) atau harga (jumlah kamar di kamar hotel, lokasi, harga).
Repositori pelengkap
Machine Learning for Hacker , repositori tempat semua kode disajikan dalam bahasa R, dimaksudkan untuk pemrosesan data statistik (pada kenyataannya, standar program statistik) dan untuk bekerja dengan grafik. Anda akan menemukan banyak paket R. Topik yang dibahas meliputi klasifikasi umum, tugas menentukan peringkat dan regresi, serta prosedur statistik untuk analisis komponen dan penskalaan multi-dimensi.
Kumpulan data github
Repositori lain yang mengesankan dengan ukurannya adalah daftar yang dibagi menjadi 30 topik: biologi, olahraga, museum, bahasa alami, dll. Repositori mencakup beberapa ratus set data, yang sebagian besar gratis. Berikut ini tautan ke koleksi Big Data lainnya.
Repositori OpenAddresses.io resmi adalah kumpulan global alamat jalan yang bebas dan terbuka. Proyek ini mencakup nama jalan, nomor rumah, kode pos dan koordinat geografis.
Katalog semua planet terkenal yang ada di luar tata surya. Sebelumnya, database diperbarui dalam waktu 24 jam setelah ditemukannya sebuah planet baru, tetapi sekarang, sayangnya, proyek ini praktis tidak berkembang.
Basis data Biro Sensus AS, diadaptasi untuk integrasi dengan set data terbuka lainnya, dengan fungsi yang mudah digunakan untuk bekerja dan membuat set data kustom Anda sendiri dengan API Sensus: statistik, Geografi Geografis, lat / lng, dll.
openFDA adalah proyek Administrasi Makanan dan Obat-Obatan (FDA) AS yang bertujuan untuk menyediakan kumpulan set data publik untuk para peneliti dan pengembang melalui API, serta contoh bagaimana menggunakan data dan dokumentasi ini. Ada informasi tentang efek samping dari obat-obatan, label obat, laporan penarikan obat dari pasar, dan perubahan pada resep resep.
Kode sumber untuk portal data terbuka Organisasi Riset Nuklir CERN, yang digambarkan sebagai "titik akses ke berbagai data yang berkembang dari penelitian CERN."
Notebook IPython (Jupyter)
Daftar repositori Github berguna yang terdiri dari notebook IPython (Jupyter) yang berfokus pada manipulasi data dan pembelajaran mesin.
Repositori terlampir edisi pertama
Machine Learning dengan buku
Python (repositori untuk edisi kedua di
sini ), yang berkaitan dengan bekerja dengan nilai-nilai yang hilang, mengubah variabel kategori menjadi format yang sesuai untuk pembelajaran mesin, memilih properti informatif, mengompresi data dengan transfer ke subruang dengan lebih sedikit jumlah pengukuran.
Tempat penyimpanan materi pelatihan, kode dan data untuk berbagai analisis data dan proyek pembelajaran mesin. Notebook berisi semua prinsip dasar bekerja dengan analisis data menggunakan dataset
Iris sebagai contoh dan menggambarkan konstruksi alur kerja dalam ilmu data. Poin dasar untuk bekerja dalam repo diperoleh dari buku "
The Elements of Data Analytic Style " (Jeff Leek, 2015).
Kumpulan Notebook dan kumpulan data yang mencakup empat topik algoritmik: regresi linier, regresi logistik, hutan acak, dan algoritma pengelompokan K-Means. Learn Data Science didasarkan pada materi yang dibuat untuk proyek
Pelatihan Open Data Science .
Repositori berisi berbagai Notebook IPython - mulai dari tinjauan umum tentang bahasa dan fungsi IPython hingga contoh penggunaan berbagai perpustakaan populer dalam analisis data. Di sini Anda akan menemukan koleksi komprehensif pembelajaran mesin, pembelajaran mendalam, dan materi pengolahan data besar dari kursus Machine Learning oleh Andrew Ng (Coursera), Pengantar TensorFlow untuk Pembelajaran Jauh (Udacity), dan Spark (edX).
Repositori untuk
mempelajari perpustakaan
Scikit-learning , yang mengimplementasikan sejumlah besar algoritma pembelajaran mesin. Perpustakaan menyediakan implementasi sejumlah algoritma untuk belajar dengan atau tanpa guru. Scikit-learn dibangun di atas
SciPy (Scientific Python).
Serangkaian tutorial Notebook IPython yang sangat rinci berdasarkan data dari
kursus Pembelajaran Mesin Andrew Nga (Universitas Stanford),
kursus Tom Mitchell (Universitas Carnegie Mellon), dan buku Pengenalan Pola dan Pembelajaran Mesin karya Christopher M. Bishor.
Daftar yang disediakan tidak sepenuhnya lengkap, jadi kami menyambut komentar dengan daftar repositori favorit Anda (atau milik Anda).