KDD 2018,第五天总结



因此,KDD的第五天,即最后一天结束了。 我设法听到了来自Facebook和Google AI的一些有趣的报道,记住了足球战术并产生了一些化学物质。 关于这个,不仅-在削减。 一年后在阿拉斯加首都安克雷奇见!

关于小数据问题的大数据学习


这名中国教授的早晨报告很难。 演讲者在准备过程中显然很轻松,经常误入歧途,开始跳过幻灯片,而不是终生讲话,而是试图给困倦的大脑装满数学。

故事的总体轮廓围绕着这样的想法,即总是存在大量数据。 例如,有一条长长的尾巴,其中有许多不同的示例。 存在具有大量类的数据集,尽管它们本身很大,但每个类只有很少的记录。 作为此类数据集的示例,他列举了Omniglot-平均50个字母,1623个类别和每个类别20张图片的手写字符。 但是实际上,从这个角度来看,当我们有很多用户并且每个人的评分都不高时,您还可以考虑推荐任务的数据集。

在这种情况下,如何使ML的生活更轻松? 首先。 尝试将学科领域的知识带入其中。 这可以以多种形式完成:这是功能设计,特定的规范化以及网络体系结构的完善。 另一个常见的解决方案是转移学习,我认为几乎所有从事图片工作的人都始于从其数据中升级一些ImageNet。 在Omniglot的情况下,转移的自然捐助者将是MNIST

转移的一种形式可以是多任务学习 ,关于KDD的讨论已经有好几次了。 MTL的发展可以被认为是元学习方法-通过在各种任务的样本上​​训练算法,我们不仅可以学习参数,还可以学习超参数(当然,只有在我们的过程可区分的情况下)。

继续执行多任务主题,我们可以得出终身持续学习的概念,机器人技术的例子可以最清楚地说明这一概念。 机器人必须能够解决不同的问题,并且在学习新任务时要利用以前的经验。 但是您可以在Omniglot的示例中考虑这种方法:在学习了其中一个角色之后,您可以利用积累的经验继续学习下一个角色。 的确,当算法开始忘记以前学到的东西时,就会遇到一条危险的灾难性遗忘问题。

此外,发言人谈到了他在这个方向上的几项工作。
神经过程 (类似于神经网络的高斯过程)和分布式学习与转移学习 (针对当我们不以先前训练的模型为基础,而是以多任务模式训练我们的情况下的转移学习的优化)。



图片和文字


今天,我决定在早上阅读有关文本,图像和视频的应用报告。

语料库转换服务


出版物的发布速度非常快,因此很难使用,尤其是考虑到几乎所有搜索都在文本中进行的事实。 IBM 提供其标记科学知识3.0机箱的服务。 主要工作流程如下所示:

  • Parsim PDF,识别图片中的文本。
  • 我们检查是否存在这种形式的文本的模型,如果存在,则使用它进行语义提取。
  • 如果没有模型,我们将发送注释并进行训练。



为了训练模型,我们从按结构聚类开始。 在使用众包的集群中,我们布置了多个页面。 事实证明,对200-300个文档进行标记培训时,其准确度> 98%。 标记中存在严重的类不平衡(几乎所有内容都标记为文本),因此您需要查看所有类和混淆矩阵的准确性。

模型具有层次结构。 例如,一个模型识别一个表,另一个模型切成行/列/标题(是的,一个表可以嵌套在一个表中)。 作为模型,使用卷积网络。

为此,他们在Docker上使用Kubernetes组装了一条传送带,并准备以合理的费用下载您的文本语料库。 它们不仅可以使用文本PDF,还可以使用扫描;它们支持东方语言。 除了仅提取文本外,他们还致力于提取知识图,并承诺在下一个KDD上讲详细信息。

搜索广告中通过生成对抗网络进行的罕见查询扩展


搜索引擎从广告中获利最多,根据用户的需求显示广告。 但是这种比较并不总是很明显。 例如,应机票要求,显示廉价巴士票广告不是很正确,但是expedia效果很好,但是您无法通过关键字来理解。 机器学习模型可能会有所帮助,但不适用于罕见查询。

为了解决这个问题,为了扩展搜索查询, 我们将根据序列到序列模型训练条件GAN。 我们使用循环网络(2层GRU)作为体系结构。 我们正在从GAN修改min-max,以使其针对添加点击广告的关键字为目标。



用于训练1400万个查询和400万个广告关键字的数据集。 提出的模型可以很好地解决请求的长尾问题。 但是在头脑中,性能并不高。

深度视频协作深度学习


这项工作是由来自Google AI的家伙介绍的。 他们希望建立良好的视频嵌入,然后在类似的视频,推荐,自动注释等中使用它们。 其工作方式如下:

  • 从视频中,我们对帧进行采样-图片和一段音轨。
  • 我们从Inception先前学到的图片中提取特征。
  • 我们对音频片段执行相同的操作(未显示特定的网络体系结构)。 在获得的标志上,我们将完全连接的网格悬挂在框架的牵引下。 我们通过L2进行归一化。
  • 接下来,有趣的一点是-我们正在努力确保类似视频在协作相似性方面很接近。 为此,我们在训练中使用三元组损失(我们提取了一个对象,对其进行了相似和相异的采样,确保相异的嵌入物比相似物的嵌入物离原始物更远)。 不要忘记,您需要使用否定挖掘。



它们用于类似视频的冷启动,但是存在两个问题:通过视觉相似性,他们可以找到另一种语言的视频或其他主题的视频(特别是与“董事会和讲师”视频格式有关)。 建议您使用有关视频的其他元信息。

这些建议存在问题:您需要匹配浏览历史记录和YouTube上的50亿个视频。 为了加快工作速度,我们为用户计算了观看视频的平均嵌入向量。 检查了movielens ,从YouTube抽出预告片进行分析。 他们表明,对于评分较少的用户,效果更好。

在视频注释问题中,使用了专家混合方法:他们在logreg上进行训练,以嵌入每种可能的注释。 检查了Youtube-8并显示了很好的结果。

AMiner中的名称歧义消除:集群,维护和人为循环


AMiner-学院的图表,提供各种文学作品服务。 问题之一:作者和实体的名称冲突。 提供了一种具有某种形式的主动学习的自动算法作为解决方案。

该过程包括三个阶段:使用文本搜索,我们收集候选项(与作者姓名相似的文档),聚类(自动确定聚类数量)和构建配置文件。



要考虑聚类中的相似性,您需要某种表示形式(嵌入)。 可以使用全局模型(在整个图形中)或局部模型(对于那些采样的候选人)获得。 全局捕获模式可以转移到新文档中,而本地捕获则可以考虑到各个特征-我们将结合起来。 为了获得全局嵌入,他们还使用了经过三重损失训练的暹罗网络,而对于本地网络则使用了图自动编码器(为节省空间,我在本文中保留了图片)。

最痛苦的问题是我有多少个集群? X均值方法无法扩展到大量聚类; RNN用于预测其数量:从标记集采样K个聚类,然后从这些聚类中抽取N个示例。 他们训练网络以揭示群集的初始数量。



数据足够迅速地到达,每月50万个,但是运行整个模型需要数周的时间。 为了进行快速初始化,他们使用候选文本的选择进行文本搜索,并使用IPN进行全局嵌入。 重要的一点:在学习过程中包括标记出应该和不应该在集群中什么的人。 根据此数据,可以对模型进行重新训练。

Rosetta:用于图像中文本检测和识别的大型系统


FB的家伙们将展示他们从图片中提取文本的解决方案。 该模型分两个阶段工作:第一个网络确定文本,第二个网络识别文本。 Faster-RCNN用作检测器,用SuffleNet代替ResNet以加快工作。 为了获得认可,他们使用了ResNet18并使用CTC损失进行了培训。



为了提高收敛性,我们使用了一些技巧:

  • 在训练过程中,检测器的结果会引入很小的噪音。
  • 文本水平拉伸了20%。
  • 二手课程学习-逐步复杂的示例(按字符数)。

自然科学


会议的最后一个内容部分专门讨论“自然科学”。 一点化学,足球等等。

在线控制实验的错误发现率控制的异构处理效果检测


关于A / B测试的分析非常有趣的工作 。 大多数分析系统的问题在于,它们只能查看平均效果,而实际上,大多数用户通常会对更改做出积极和消极的反应,如果您了解该功能的开发者和用户,则可以实现更多效果不行


您可以预先将用户划分为同类群组并评估他们的效果,但是随着同类群组数量的增加,误报的数量也会增加(您可以尝试使用Bonferoni方法来减少它们,但这太保守了)。 此外,您需要提前了解同类群组。 伙计们建议使用几种方法的组合:将异类效应检测机制(HTE)与假阳性过滤方法结合起来。

为了检测异类效应,将x=0/1 0/1的矩阵(无论是否在组中)并将该效应转换为矩阵(x — p)/p(1-p)而不是0/1 ,其中p是包含在其中的概率测试。 接下来,教导了用于预测x的影响的模型(线性或套索回归)。 结果与预测有显着差异的那些用户是可以分离为“异构”效应的候选者。

接下来,我们尝试了两种用于误报过滤器的方法: Benjamini-HochbergKnockoffs 。 第一个更容易实现,但是第二个更灵活并且显示了更多有趣的结果。

优胜者的诅咒:在线控制实验中功能总效果的偏差估计


AirBnB的家伙们谈到了他们如何改进实验分析系统。 主要的问题是,当使用大量偏差进行实验时,这项工作会考虑选择偏差-我们选择观察结果最佳的实验 ,但这意味着我们将更多地选择观察结果相对于真实结果过高的实验。

结果,当组合实验时,最终效果小于实验效果的总和。 但是,知道了这种偏差后,您可以尝试使用统计仪器进行评估和减去(假设实际效果和观察到的效果之间的差异呈正态分布)。 简而言之,是这样的:



而且,如果添加bootstrap ,甚至可以建立置信区间以对效果进行无偏估计。

时空足球比赛数据中策略的自动发现


关于公开足球队战术的有趣工作 。 比赛数据以动作序列的形式提供(通过/触摸/命中等),每场比赛约有2000个动作。 组合连续(坐标/时间)和离散(玩家)属性。 使用主题区域的知识来扩展数据很重要(例如,增加玩家的角色和传球的类型),但并非总能奏效。 另外,不同类型的用户对不同类型的模式也很感兴趣:教练-成功,前锋-防守,记者-独特。

提出的方法如下:

  • 将流程分为不同阶段,以实现团队之间球的过渡。
  • 使用动态时间扭曲作为距离的聚类阶段。 如何确定簇的数量,不告诉。
  • 我们按目的对集群进行排序(我们正在为他们寻找策略)。
  • 最小化集群内部的模式(顺序模式挖掘CM-SPADE ),我们根据字段分段(左/右后翼,中点,罚点)抛弃坐标。
  • 再次排列模式。

使用基于规则的标签进行弱监督学习:可转移化学性质P的ChemNet


适用于没有大数据但有层次规则的理论模型的情况。 利用理论,我们建立了一个“专家”神经网络。 适用于开发具有所需特性的化合物的任务。

我想通过类比图片来获得一个网络,其中的层将对应于不同的抽象级别:原子/功能团/片段/分子。 过去,有一些方法可以处理大型的标记数据集,例如SMILE2Vect:使用SMILE将公式转换为文本,然后应用构建文本嵌入的技术。

但是,如果没有大的标记数据集怎么办? 我们使用RDKitChemNet以实现其可以预测的目标,然后我们进行转移学习来解决问题。 我们证明了我们可以与基于标签数据训练的模型竞争。 您可以分层次学习,这意味着要实现目标-按抽象级别分解层次。



PrePeP-一种鉴定和鉴定泛分析干扰化合物的工具


我们开发药物 ,使用数据科学来选择候选人。 有些分子会与许多物质发生反应。 它们不能用作药物,但通常会在测试的初始阶段弹出。 这些是我们将要过滤的疼痛分子。

困难在于:数据出尽而傲慢(10.7万),类别不平衡(正数为0.5%),化学家想得到一个解释模型。 将来自分子的图结构( gSpan )和化学指纹的数据结合起来。 他们通过袋装负面的欠采样,教导树木,以多数表决汇总的预测来平衡自己。

Source: https://habr.com/ru/post/zh-CN421041/


All Articles