
尽管Internet上有许多免费的机器学习软件资源,但是Github仍然是机器学习和数据分析社区使用的所有类型的开源工具的重要信息交换所。
该集合包含机器学习存储库,数据集和Jupyter笔记本,按星级进行排名。 在
上一部分中,我们讨论了用于研究数据可视化和深度学习的流行存储库。
机器学习
一系列按语言和类别(计算机视觉,自然语言处理等)分类的系统,库和软件的令人印象深刻的清单。 此外,在此存储库中,您将找到免费的机器学习书籍,免费的(主要是)机器学习课程,数据科学博客的列表。
自2007年以来,用于机器学习的Python模块在SciPy,NumPy和Matplotlib库的基础上构建。 根据BSD 3条款许可分发。 Scikit-learn是一种通用的工作工具,其中包含分类,回归和聚类算法,以及准备数据和评估模型的方法。
预测IO
11703,
1903
一个开源的机器学习框架,它支持事件收集,算法部署,评估,知名任务(例如分类和建议)的模板。 使用REST API或SDK连接到现有应用程序。 PredictionIO基于可扩展的开源服务,例如Hadoop,HBase(和其他数据库),Elasticsearch,Spark。
主题初学者的材料。 该存储库包含Scikit-learn库的IPython教程集合,该库实现了大量的机器学习算法,以及与Python相关的机器学习主题的一些链接以及有关数据分析的更多常规信息。 作者提供了许多其他涉及该主题的教程的链接。
模式
6845,
1,353
基于Python的Web开发模块,带有分析,自然语言处理(标记语音部分,n-gram搜索,情绪分析,WordNet),机器学习,网络分析和可视化工具。 该模块是在安特卫普大学(比利时)的计算机语言学和心理语言学研究中心创建的,并有详尽的文档记录。 在存储库中,您将找到50多个使用示例。
积极为Go开发机器学习库。 为开发人员提供功能齐全,易于使用的高度可定制的软件包。 GoLearn实现了熟悉的Scikit-learn学习界面。
Vowpal Wabbit系统使用诸如哈希,Allreduce,learning2search以及主动和交互式学习之类的方法扩展了机器学习的范围。 Vowpal Wabbit旨在快速建模海量数据集并支持并行学习。 要特别注意使用几种上下文“黑帮算法”进行强化学习。
NuPIC实现了分层时间记忆(HTM)机器学习算法。 通常,HTM是尝试模拟人脑新皮质的计算操作,并着重于空间和时间模式的保存和调用。 HTM是一个内存系统,没有编程,没有学会执行各种任务的算法,而是学会解决问题。 NuPIC适用于所有类型的任务,尤其是用于检测模式异常。
气溶胶
4,522,
570
aerosolve试图通过关注于用户友好的调试工具,用于培训的Scala代码,用于轻松排名,灵活性和功能控制的图像内容分析机制,来与其他库区分开。 该库旨在与罕见的可解释功能一起使用,这些功能通常可以在搜索(搜索关键字,过滤器)或定价(酒店房间的数量,位置,价格)中找到。
该库是
对《 Machine Learning for Hackers》一书的
补充,该库中的所有代码均以R语言呈现,旨在用于统计数据处理(实际上是统计程序的标准)和图形。 您将在此处找到许多R软件包,涵盖的主题包括常规分类,排名和回归任务,以及用于组件分析和多维缩放的统计过程。
Github数据集
另一个令人印象深刻的存储库,其规模庞大,分为30个主题:生物学,体育,博物馆,自然语言等。 该存储库包含数百个数据集,其中大多数是免费的。 这是其他大数据集合的链接。
开放地址
1644
745
官方OpenAddresses.io存储库是街道地址的免费开放的全球集合。 该项目包括街道名称,门牌号,邮政编码和地理坐标。
太阳系外所有已知行星的目录。 以前,数据库是在发现新行星后的24小时内更新的,但现在不幸的是,该项目实际上并未开发。
市SDK
510,
149
美国人口普查局数据库适合与其他开放数据集集成,并具有方便的功能,可使用人口普查API来工作和创建自己的自定义数据集:统计数据,制图GeoJSON,纬度/经度等。
openFDA是美国食品药品监督管理局(FDA)的项目,旨在通过API为研究人员和开发人员提供公共数据集,以及有关如何使用此数据和文档的示例。 有关于药物副作用,药物标签,关于从市场撤出药物的报告以及处方配方变更的信息。
CERN核研究组织开放数据门户的源代码,被描述为“从CERN研究获取越来越多数据的访问点”。
IPython(Jupyter)笔记本
由IPython(Jupyter)笔记本组成的有用的Github存储库列表,重点是数据处理和机器学习。
带有Python的
机器学习第一版的随附存储库(
此处为第二版的存储库),该存储库处理缺失值,将分类变量转换为适合机器学习的格式,选择信息性,压缩数据并转移到子空间少测量次数。
用于各种数据分析和机器学习项目的培训材料,代码和数据的存储库。 Notebook包含使用
Iris数据集作为示例进行数据分析的所有基本原理,并说明了数据科学中工作流程的构造。 从“
数据分析风格的要素 ”(Jeff Leek,2015年)一书中可以了解回购工作的基本要点。
笔记本和数据集的集合,涵盖四个算法主题:线性回归,逻辑回归,随机森林和K-Means聚类算法。 学习数据科学基于为
开放数据科学培训项目创建的材料。
该存储库包含各种IPython笔记本-从IPython语言和功能的概述到在数据分析中使用各种流行库的示例。 在这里,您将找到Andrew Ng(Coursera)的机器学习课程,TensorFlow深度学习入门(Udacity)和Spark(edX)的机器学习,深度学习和大数据处理材料的全面集合。
用于学习
Scikit学习库的存储库,该库实现了大量的机器学习算法。 该库提供了多种算法的实现,可在有或没有老师的情况下进行学习。 Scikit-learn建立在
SciPy (科学Python)之上。
机器学习
543,
336
基于Andrew Nga机器学习
课程 (斯坦福大学),Tom Mitchell
课程 (卡内基梅隆大学)和Christopher M. Bishor的《模式识别与机器学习》中的数据,一系列非常详细的IPython Notebook教程。
所提供的列表并不完整,因此我们欢迎您提供自己喜欢的(或自己的)存储库列表的评论。