2018年AI和ML解决方案概述以及2019年预测:第2部分-工具和库,AutoML,RL,人工智能伦理

大家好! 我向您介绍了Analytics Vidhya文章的译文,并概述了2018和2019年趋势中的AI / ML事件。 材料很大,因此分为两部分。 我希望本文不仅会引起专业人士的兴趣,也会引起对AI主题感兴趣的人的兴趣。 祝您阅读愉快!


首先阅读:第1部分-NLP,计算机视觉


工具和库


本部分将吸引所有数据科学专业人员。 工具和库-科学家的面包和黄油。 我参加了关于哪个工具更好,哪个框架替代另一个工具,哪个库是“经济”计算的体现以及所有这些的辩论。 我相信你们中的许多人也受到影响。

但是我们不能不同意的一件事是,我们必须紧跟该领域的最新工具,否则就有被抛在后面的风险。 Python超越竞争对手并成为行业领导者的步伐很好地说明了这一点。 当然,很大程度上取决于主观选择(您的组织使用哪种工具,与现有基础架构的兼容性等),但是如果您不了解最新信息,那么现在就该开始吧。

因此,今年[[2018年-大约 人]? 让我们去解决吧!

PyTorch 1.0


我在本文中多次提到的有关PyTorch的炒作是什么?

鉴于TensorFlow的速度有多慢,他为PyTorch进入深度学习市场铺平了道路。 我在GitHub上看到的大多数开源代码都是PyTorch的实现。 这绝非偶然-PyTorch非常灵活,最新版本(v1.0)已支持许多Facebook产品和扩展功能,包括每天处理60亿文本翻译。

PyTorch才刚刚起步,其增长将在2019年继续,因此现在是加入该社区的时候了。

AutoML-自动化机器学习


在过去的几年中,自动机器学习(AutoML)越来越流行。 RapidMinerKNIMEDataRobotH2O.ai等公司已经发布了出色的产品,这些产品证明了这项服务的巨大潜力。

您能想象在仅需使用拖放界面而不进行编码的ML项目中工作吗? 这种情况在不久的将来可能会变成现实。 此外,ML / DL中已经发生了重大事件-Auto Keras发布

Auto Keras是一个用于执行AutoML任务的开源库。 这个想法是使可能没有ML经验的领域专家可以进行深度学习。 您可以在这里熟悉产品。 在未来的几年中,他将取得巨大的突破。

TensorFlow.js-浏览器中的深度学习


自从开始这项工作以来,我们一直在我们最喜欢的IDE和笔记本电脑中构建和设计机器学习和深度学习模型。 迈出一步然后尝试其他事情如何? 是的,我正在谈论在您的Web浏览器中进行深度学习!

由于TensorFlow.js的出现,现在它已成为现实 该项目的网站上有几个示例,展示了这个开源概念的酷炫程度。 首先,TensorFlow.js具有三个优点/功能:

  • 您可以使用JavaScript开发和部署ML模型;
  • 在浏览器中运行现有的TensorFlow模型;
  • 重新训练现成的模型。

2019年AutoML趋势


在本文中,我想重点介绍AutoML。 怎么了 我认为,在未来几年中,数据科学领域的情况将会改变,但是请不要相信我! 来自Kaggle的大师H2O.ai的Mario Mihailidis将谈论2019年对AutoML的期望:
机器学习继续朝着成为世界前进方向的未来最重要趋势之一发展。 这种扩展增加了对该领域应用的需求。 鉴于这种增长,当务之急是自动化是在数据科学领域最大限度地利用资源的关键。 实际上,应用领域是无止境的:贷款,保险,反欺诈,计算机视觉,声学,传感器,推荐,预测,NLP。 在这一领域工作是我的荣幸。 仍然相关的趋势列表如下:

  1. 提供可视化和见解,以帮助描述和理解数据;
  2. 搜索/构建/提取给定数据集的最佳功能;
  3. 建立更强大/更智能的预测模型;
  4. 弥合黑匣子建模与使用这种模型之间的差距;
  5. 促进这些模型的生产

强化学习


强化学习是机器学习的方法之一,在此过程中,测试系统(代理)通过与特定环境进行交互来学习。 从控制论的角度来看,这是一种控制论实验。 环境(而不是特殊的强化管理系统,如与老师一起进行的教学)对做出的决定的反应是强化的信号,因此这种培训是与老师一起进行培训的一种特殊情况,但老师是环境或其模型。 您还需要记住,一些强化规则是基于隐式教师的,例如在人工神经环境中,基于形式神经元的同时活动,因此,它们可以归因于没有教师的学习。

-维基百科来源

如果问我想在哪个领域取得更快的发展,答案将是强化学习。 尽管偶尔出现头条新闻,但在该领域还没有突破,最重要的是,似乎社区的强化学习任务在数学上过于复杂,并且没有实际应用此类应用的领域。

从某种程度上说是正确的,明年我想看看使用RL的更多实际例子。 每个月,我都会在GitHub和Reddit上维护至少一个RL存储库或讨论,以帮助讨论此主题。 这可能是所有这些研究中的下一个重要问题。

OpenAI已为那些刚刚熟悉RL的人发布了一个非常有用的工具包。 您可以在此处阅读RL简介 (事实证明对我来说非常有用)。

如果我错过了什么,我会为您的补充感到高兴。

深度强化学习中的OpenAI开发


尽管RL的发展缓慢,但有关此主题的培训材料仍然很少(稍微说了一点)。 尽管如此,OpenAI在此主题上分享了一些出色的材料。 他们将他们的项目称为“ Deep RL中的Spinning Up”,可在此处获得

简而言之,这是RL上资源的详尽列表。 作者试图使代码和说明尽可能简单。 足够的材料包括RL术语,用于RL研究的开发技巧,重要材料列表,文档齐全的代码和存储库,以及帮助您入门的任务示例。

您不再需要推迟到以后,如果您打算开始使用RL,您的时机已经到了!

Google多巴胺


为了促进发展并使社区参与强化学习,Google AI团队向所有想要使项目更加灵活和可复制的人引入了Densamine TensorFlow框架。

在此GitHub存储库中,您可以找到必要的培训信息以及TensorFlow代码。 这也许是在受控且灵活的环境中启动简单实验的理想平台。 对于任何专家来说,这听起来都是一个醒着的梦想。


2019年强化学习趋势


Xander Steenbrugge是2018年DataHack峰会的发言人兼ArxivInsights Channel的创始人,是强化学习方面的专家。 以下是他对RL的现状以及我们在2019年应该期待的看法:
目前,我看到了RL领域的三个主要问题:

  1. 模型的复杂性(代理必须查看/收集大量经验才能学习)
  2. 培训的概括和转移(关于任务A的培训,有关任务B的测试)
  3. 分层RL(子目标的自动分解)

我确信可以使用与无监督表示学习相关的类似方法来解决前两个问题。

现在,在RL中,我们训练了深度神经网络,该网络使用罕见的奖励信号(例如,某个游戏中的帐户)从原始输入空间(例如,以像素为单位)提取端到端动作(例如,向后传播) Atari或机器人捕获成功)。 这里的问题是:

第一个 。 “增长”有用的功能检测器需要花费大量时间,因为信噪比非常低。 RL基本上是从随机动作开始的,直到您足够幸运地偶然发现奖励,然后您仍然需要确切地找出实际上是什么具体奖励。 进一步的研究要么是硬编码的(ε贪婪的研究),要么是诸如好奇心驱动的探索之类的方法所鼓励的。 这效率低下,这使我们回到问题1。


其次 ,这种深层神经网络架构以“记忆”的趋势而闻名,在RL中,我们通常在数据集上测试代理以进行训练,因此,在这种范例中鼓励“记忆”。

我满怀热情地看待一个可能的开发路径,就是使用无监督表示学习将脏的多维输入空间(例如,像素)转换为具有某些必需属性(例如线性,拆散,稳定性)的较低维度的“概念”空间。噪音等等。

一旦您将像素连接到一种“潜在空间”中,学习就会突然变得越来越简单和迅速(问题1),并且您希望从该空间中提取的规则由于上述属性而具有更强的概括性(问题2)。

我不是层次结构问题的专家,但是以上所有内容也适用于此:在“隐藏空间”中解决复杂的层次结构问题要比在未处理的输入空间中容易。

一对来自翻译的剧透


什么是表征学习?
在机器学习中,特征学习或表示学习是允许系统根据原始数据自动检查确定功能或分类所必需的因素的一组技术。 这取代了手动特征工程,并允许机器学习功能并使用它们执行特定任务。

特征学习可以“监视”和“不观察”:

  • 在监督特征学习下的特征学习中,使用标记的输入来学习功能。
  • 在没有观察的特征学习(无监督特征学习)中,将基于未分配的数据来学习功能。

- 维基百科来源

什么是潜在空间?
“潜在”一词在此表示“隐藏”。 在这种情况下,它最常用于机器学习中-您正在观察可观察空间中的某些数据,并且希望将其转换为相似数据点彼此更靠近的隐藏空间。

例如,考虑4个图像:



在观察到的像素空间中,任何两个图像之间都没有直接相似性。 但是,如果要将其显示在隐藏的空间中,则希望左侧的图像在隐藏的空间中比在右侧的任何图像都更靠近彼此。 因此,您的隐藏空间传达了与任务相关的数据结构的本质。 在LDA中,您可以对任务进行建模,以使与相似主题相关的文档在主题的隐藏空间中更近。 嵌入单词时,您希望将单词显示在隐藏的向量空间中,以使具有相似含义的单词在该空间中更近。

奖励:观看Xander视频,了解如何克服Deep RL中的稀有奖励(上面突出显示的第一个任务)。


随着越来越多的辅助训练任务增加稀疏性,非典型奖励信号(研究之类的东西,以自动编码器为基础的基于好奇心的初步训练,解开环境中的因果关系等等),该模型的复杂性将继续提高。 这在奖励条件非常罕见的情况下尤其有效。

因此,直接在物理世界中的训练系统将变得越来越可行(而不是主要在模拟环境中训练然后使用域随机化转移到现实世界中的现代应用程序)。 我认为2019年将带来机器人技术方面的第一批真正令人印象深刻的演示,只有在使用深度学习方法时才有可能实现,并且不能由人类进行硬编码/设计(不同于到目前为止我们看到的大多数示例)。

我相信,随着Deep RL在AlphaGo历史上的成功(特别是考虑到AlphaFold的最新成果),RL将逐渐开始在实际的商业应用中使用,这将带来超出学术领域的实用价值,但是首先,范围将限于具有对这些代理进行大规模虚拟培训的精确模拟(例如,药物发现,电子芯片架构的优化,车辆和数据包的路由选择等)。

RL开发的总体转变是一个过程,当在训练数据上对代理进行测试时,将不再被视为“授权”。 总结指标将是关键,有监督的教学方法也是如此

优秀男孩的AI-向道德AI迈进


想象一个由定义每个人类动作的算法驱动的世界。 这不是令人愉快的情况吗? AI伦理是我们一直在Analytics Vidhya中讨论的一个话题,但是在所有技术讨论的背景下它都被遗忘了,而应该与其他主题相提并论。

今年,在剑桥分析公司(Cambridge Analytica)丑闻(Facebook)和Google关于武器开发的内部争议居于丑闻之首之后,许多组织发现自己处于愚蠢的状况。

在所有情况下,都没有简单而合适的方法来解决AI的道德问题。 这个问题需要结合结构化计划的详细方法,并应由某人执行。 让我们看一些今年年初震撼该地区的重大事件。

Google和Microsoft广告活动


看到大型公司强调AI的道德方面是令人欣慰的(尽管导致他们到达这一点的道路并不十分优雅)。 注意一些公司发布的准则和原则:


从本质上讲,这些文档讨论了AI中的正义以及何时何地划清界限。 当您开始一个新的基于AI的项目时,向他们推荐总是一个好主意。

GDPR如何改变游戏规则


GDPR(通用数据保护法规)绝对影响了构建AI应用程序的数据收集方式。 GDPR出现在此游戏中是为了向用户提供对其数据的更多控制(收集和散布有关其的信息)。

那么这将如何影响AI? 如果数据领域的研究人员没有收到数据,或者数据不够用,那就不会开始构建任何模型。 当然,这为社交平台和其他站点的工作方式奠定了基础。 GDPR创造了一个很好的例子,“全力以赴”,但限制了AI在许多平台上的实用性。

2019年AI的道德趋势


该地区有很多灰色斑点。 我们必须团结一致,将道德规范融入AI项目。 我们该怎么做? Vidhya Analytics创始人兼首席执行官Kunal Jane在2018年DataHack峰会上的演讲中强调,我们将需要发展一个其他人可以遵循的概念。

我希望在从事AI道德操守的组织中看到新的角色。 随着AI成为公司愿景的核心要素,最佳公司实践将需要重组,管理方法也需要进行审查。 我还希望政府在这方面发挥更大的作用,从根本上改变政治路线。 确实,2019年将非常有趣。

结论


富有影响力是唯一简短描述2018年令人震惊事件的词。 我今年已成为ULMFiT的活跃用户,我期待尽快探索BERT。 真是太棒了。

我很高兴知道您的意见! 您发现哪些发展最有用? 您是否正在使用本文介绍的工具和方法来从事项目? 您对来年的预测是什么? 我期待您在下面的评论中回答。

Source: https://habr.com/ru/post/zh-CN439724/


All Articles