如今,数据分析和数据科学这一主题正以惊人的速度发展。 为了了解他们的方法和方法的相关性,有必要了解同事的工作,并且在会议上有可能获得有关现代趋势的信息。 不幸的是,并非所有活动都可以访问,因此,过去会议上的文章对于尚未找到个人出席时间和机会的专家很感兴趣。 我们很高兴向您介绍
Chip Huyen在
ICLR 2019大会上有关数据科学领域的最新趋势和方法的
文章的
译文 。
学习制图表达是一组方法,技术和方法,可自动检测从原始数据中识别特征所需的制图表达。 学习提交可替代功能的手动发明,使您既可以根据对象的属性研究对象的关键属性,又可以使用它们来解决特定的问题。
本文从主观角度探讨了许多行业问题。 但是,人们希望,即使是主观的评论也能为感兴趣的专家提供足够的思想食物。 此外,我们将讨论以下内容:
- 纠正会议的社会人口结构的人为方法引起了整个社区的各种感觉:从激进的愤慨到ly弱的无知。 对于这种博弈论专家来说,在这种环境下选择最佳行为将是一项有趣的任务。
- 代表性学习和迁移学习领域的作品正在日益普及,并引起了社区的积极兴趣。
- 递归神经网络继续在研究人员中不再流行,但是实际上它们不会很快被丢弃。
- 尽管并非所有研究人员都喜欢这个事实,但GAN的领域仍在继续快速发展。 GAN的潜力只是被揭示出来,在不久的将来可以预期在这一方向上将进行许多有趣的工作。
- 强化学习继续激发研究人员的思想,仍然是会议上最受欢迎的话题。 专家们越来越接近将RL方法应用于实际任务的可能性,这对于该领域的信徒来说是非常缺乏的。
- 令人惊讶的是,最近对机器学习的生物学和遗传学用途几乎没有兴趣。 对于寻找进一步发展话题的研究人员来说,这是一个很好的机会。
- 公认的文章和有关复古方法的文章仍然可以参加会议,但是它们之间的竞争更高,研究人员必须做出更多的努力才能获得有趣的结果,而不是朝着更流行和更流行的方向发展。 当时,请考虑以下事实:用于经典机器学习的材料已经用尽。
Chip Hyun对会议的详细评论可以在下面找到。
1.包含
[
2019年
国际学习代表大会 -编辑]的组织者强调了包容性在人工智能领域的重要性。 前两个主题演讲-亚历山大·拉什(Alexander Rush)和
特邀演讲者辛西娅·德沃克 (
Cynthia Dvork)致开幕词 –致力于正义与平等。
ICLR 2019的一些令人不安的统计数据:
- 女性只有8.6%的发言人和15%的参与者,
- 所有LGBTQ +研究人员中有2/3没有透露自己的工作方向,
- 所有8位受邀演讲者均为白种人竞赛的代表。
不幸的是(对于女性作者而言),大多数人工智能研究人员对平等问题根本不感兴趣。 如果关于其他主题的研讨会很拥挤,那么
直到Yoshua Benjio出现之前,用于社会公益的AI研讨会就很空了 。 在我与ICLR进行的多次交谈中,没有人提到“多样性”。 一个案例是一个例外:我被邀请参加一场不合适的技术活动,令我大吃一惊,我的好朋友回答:“有点侮辱性的回答:因为你是女人而被邀请参加。”
观察到的事务状态的原因是,多样性主题不是“技术性的”,因此无助于促进科学事业。 另一个原因是社会和公共宣传遭到拒绝。 我的一个朋友曾经劝我不要关注在群聊中诱骗我的那个家伙,因为“他喜欢取笑那些谈论平等和多样性的人。” 我有一些不愿意在Internet上讨论多样性的朋友,因为他们不想与该主题相关联。
2.表征学习与转移学习
无监督表示学习的主要目的是检测未分配数据中可用于后续任务的特征。 在自然语言处理领域,通常通过语言建模来进行性能训练。 然后将得到的表示形式用于诸如情感分析,名称识别和机器翻译之类的任务。
去年一些最有趣的非教师演讲是从
ELMo(彼得斯等人) ,
ULMFiT(霍华德等人) ,
GPT OpenAI(Radford等人) ,
BERT开始的。 (Devlin等人) ,当然还有高度危险的
GPT-2(Radford等人) 。
完整的GPT-2在ICLR上进行了展示,真是太神奇了。 您可以输入文本开头的任意草图,然后模型将撰写本文的其余部分。 模型可以撰写新闻文章,粉丝小说,科学文章,甚至是虚构词的定义。 到目前为止,结果仍然看起来并不逼人,但是该团队正在努力开发GPT-3。 我期待着看到新模型的功能。
转移学习方法主要由计算机视觉专家社区采用。 但是,ImageNet图像分类模型训练仍在教师训练模式下进行。 两个社区的代表经常听到的问题是:“在处理图像时,我们将如何使用非教师演讲培训?”
尽管大多数知名的研究实验室已经在完成这项任务,但在ICLR上仅发表了一篇文章
“更新元学习规则以教授非教师的论文”
(Metz等)。 该算法不更新权重,而是更新学习规则。 然后,在图像分类模式下,将从学习规则中获得的视图显示在少量标记数据样本上。 研究人员能够找到使他们在MNIST和Fashion MNIST上达到70%以上的准确性的学习规则。
作者发现了
部分代码 ,但不是全部,因为“它与计算有关”。 外部循环需要256万个处理器上约10万个培训步骤和200小时。
我有一种感觉,在不久的将来,我们还会看到更多此类作品。 可以在没有老师的情况下进行教学,例如
自动编码,图像旋转预测(
文档Gidaris等人在ICLR 2018上大获成功),预测视频中的下一帧等。
3.复古ML
机器学习中的思想就像时尚:它们是周期性的。 现在观看海报会议就像在历史博物馆中散步。 甚至在ICLR期待已久的辩论中,辩论也以“先决条件还是结构”问题结束,这使去年
的Yann LeKun和Christopher Manning的讨论重新回到
了讨论中 ,类似于贝叶斯理论倡导者与Freventy(频率)方法论者之间有着数百年历史的辩论。
麻省理工学院媒体实验室的“基础语言学习与理解”项目于2001年终止,但今年基础语言学习提出了两本以“强化学习”为封面的作品。
- DOM-Q-NET:基于结构化语言的RL (Jia等人) -RL算法,用于通过单击链接和填写字段来导航网页,而导航的目的则以自然语言表示。
- BabyAI:研究基础语言学习样本效率的平台(Chevalier-Boisvert等人)是OpenAI Gym兼容平台,具有人工机器人代理,该机器人代理模仿人类老师帮助代理学习合成语言。
AnonReviewer4完美总结了我对这两篇文章的看法:
“ ...这里提出的方法与语义解析文献中长期以来所考虑的方法非常相似。 只有这项工作引用了有关深度RL的文章。 我认为对作者熟悉这些文献将非常有用。 我认为语义分析社区也将从中受益。但是,尽管这两个社区在某些非常相似的问题上开展工作,但显然这两个社区之间的联系很少。
确定性有限自动机(DFA)在今年的深度学习领域也有两篇文章:
- 代表形式语言:有限自动机与递归神经网络之间的比较(Mikhalenko等),
- 学习循环策略网络的有限状态表示(Koul等人) 。
两项工作的主要动机如下:与RNN中隐藏状态的巨大空间有关,是否有可能将状态数减少到最后一个? 我对DFA是否能够在语言问题中有效地代表RNN表示怀疑,但是我喜欢在训练过程中教授RNN,然后将其转换为DFA以得出逻辑结论的想法,如Koul等人所述。 最终的最终表示仅需要三个离散的记忆状态和10个观察值即可打乒乓球。 DFA还有助于解释RNN。
4. RNN在研究人员中越来越不受欢迎
当考虑相对于2018年有关2019年各个主题的文章的增长时间表时,很明显RNN的特点是降幅最大。 这不足为奇,因为尽管RNN的使用对于串行数据类型很直观,但它们仍存在严重缺陷:它们无法并行化。 因此,不可能利用自2012年以来刺激研究进展的最重要因素:计算能力。 RNN从未在CV或RL中流行,对于NLP,它们已被基于Attention的体系结构取代。
这是否意味着RNN已死? 其实没有 文章“有序神经元:将树结构整合到递归神经网络中”
(Shen等人)。 获得了今年最高奖项之一。 除了上述内容和上述两篇有关自动机的文章之外,今年还对9篇RNN论文进行了回顾,其中大多数论文更深入地探讨了数学基础,而不是开拓了新的可能性。
RNN充满生机,是行业的推动力,尤其是对于处理时间序列的公司(例如贸易公司)而言。 不幸的是,贸易公司通常不公开其工作细节。 即使RNN目前对研究人员的吸引力不大,他们也可以在将来重新获得欢迎。
5. GAN仍然居于首位
尽管GAN主题在相对规模上与前一年相比呈负增长,但绝对数量上的作品数量从〜70增加到〜100。
伊恩·古德费洛(Ian Goodfellow)发表了有关GAN的演讲 ,并一直被歌迷包围。 在最后一天,他必须交出他的徽章,以使人们看不到他的名字。
整个第一场海报会议都是针对GAN的。 有新的GAN架构,对旧GAN架构的改进,GAN分析,从图像生成到文本生成和音频合成的GAN应用程序。 有PATE-GAN,GANSynth,ProbGAN,InstaGAN,RelGAN,MisGAN,SPIGAN,LayoutGAN,KnockoffGAN等,我不知道这是什么意思。 不幸的是,
安德鲁·布罗克(Andrew Brock)将他的巨型模型称为BigGAN,而不是巨大的 :)
张贴者会议显示了社区对GAN的偏见。 我从GAN的反对者那里听到的一些评论是这样的:“我等不及GAN的所有炒作消退了,”“当有人提到“对抗性”一词时,我的大脑就闭嘴了。” 我认为它们简直令人羡慕。
6.缺乏深入研究的生物学主题
考虑到公众通过确定DNA中基因的序列引起的极大兴奋,以及使用CRISPR技术的改良儿童的出现,[令我感到惊讶的是,在ICLR上进行生物学深度学习的工作没有增加。 关于该主题有六篇文章。
从生物学借来的关于建筑的两个问题:
- 生物上可行的学习算法可以扩展到大数据集(Xiao等人),
- 通过解剖学约束的深CNN从视网膜到皮层的早期视觉表征的统一理论(Lindsey等人)。
RNA设计培训的一项工作
(Runge等) 。
三种蛋白质处理工作:
- 利用卷积神经网络进行人级蛋白质定位(Rumetshofer等人),
- 使用可区分的模拟器学习蛋白质结构(Ingraham等人),
- 使用来自结构的信息学习蛋白质序列嵌入(Bepler等人)。
没有关于基因组的文章,也没有举办研讨会。 但是,不管这看起来有多可悲,生物学的深度教育研究人员和深度教育的生物学家都面临着巨大的机遇。
一个事实:
以上有关指纹的文章的第一作者杰克·林赛(Jack Lindsay)尚未从斯坦福大学毕业。
7.强化学习仍然是最受欢迎的话题。
在会议上发表的论文表明,RL社区正在从无模型方法转向具有有效采样和基于元学习的算法的基于模型的算法。 这种转变可能是由于
TD3(Fujimoto等人,2018)和
SAC(Haarnoja等人,2018)建立的Mujoco基准测试结果极高,以及
R2D2在Atari中设置的离散操作空间
(Kapturowski等人。 ,ICLR 2019) 。
在训练过程中,基于模型的算法会使用可用数据来获取环境模型,并将其用于在此环境中计划特工的策略或生成新数据。 基于模型的算法最终使用10-100倍以下的数据
(MB-MPO(Rothfuss等) )实现了无模型对应算法的渐近精度。 新的优势使基于模型的方法适用于真正复杂程度的任务。 如果经过培训,环境模拟器将很可能存在缺陷,那么可以通过使用更复杂的模型(例如模拟器的集合)来弥补其缺点
(Rajeswaran等) 。 解决实际复杂度问题的另一种使用RL的方法是允许模拟器支持复杂的随机方案。 在各种环境模拟器上获得的策略可以将现实世界视为“另一种随机化”,并且可以成功地完成复杂程度
(OpenAI)的任务 。
元学习算法可以使您快速学习新任务,从而在性能和样本效率方面都得到了改进(
ProMP(Rothfuss等人) ,
PEARL(Rakelly等人) )。 这些改进使我们更接近“ ImageNet for RL时刻”,在其中我们可以使用从其他任务中学到的决策策略,而不必从头开始训练它们(对于复杂任务则不可能)。
接受的工作中令人印象深刻的部分,以及关于RL中的结构和先验概率的研讨会,致力于将环境知识整合到学习算法中。 如果早期深度RL算法的主要优势之一是泛化(例如,DQN在所有Atari游戏中都使用相同的体系结构,而对任何特定游戏一无所知),那么现在新算法使用先验知识的集成来解决更复杂的问题任务。 例如,在
运输者网络中(Jakab等人),代理人使用先验知识来进行更多有益的勘探工作。
综上所述,可以说在过去的5年中,RL社区开发了许多有效的工具来解决无模型模式下的强化训练问题。 现在是时候提出一种更具可移植性和采样效率的算法,以将RL应用于实际任务。
事实之一:谢尔盖·莱文(Sergey Levin)可能是今年ICLR工作最多的人,尤其是他的15篇文章已被接受发表。
8.普通文章迅速淡出背景
当我问这位著名研究员对他今年被接受的工作有何看法时,他笑了:“一旦会议结束,大多数人将被遗忘。” 在诸如机器学习之类的快节奏领域中,结果要在数周(甚至不是几天)内被证明。 , . , Borealis AI ICLR 2018, "
adversarial ICLR . , - , ."
, / . , . , , .
, , . , , - , . , ?
结论
, , .
- : SGD . , . , — , .
- : , - . , , . , , GAN , .
, . ,
(55 ) . ICLR 2019 , , .
ICLR. , , , . . NeurIPS , : « , , ».
, , — , . , , . , . 10 10, [ICLR — .].
- , , , , . « » (Oleksii Hrinchuk)
原始文章到此结束。就我们的CleverDATA员工而言,我想与笔者同意,机器学习会议确实为进一步工作提供了动力,使您可以比较结果并获得同事的专业反馈。参加这样的活动对于专业发展是必要的。数据科学的发展速度越来越快,甚至在会议上发表之时就已经过时了,而大多数工作在会议结束后被遗忘了。您需要以保持原位的速度运行,但是要到达某个地方,您必须运行至少两倍的速度!