🕢 👩🏼‍🎤 🧑🏽 KDD 2018，第四天，诺贝尔奖获得者 🈯️ 🤽🏽 🤹🏼

主要KDD计划的第二天。再次削减，有很多有趣的事情：从Pinterest上的机器学习到挖掘水管的各种方法。包括诺贝尔经济学奖得主的演讲-有关NASA如何与遥测一起工作的故事，以及许多图形嵌入：)

市场设计和计算机化市场

与Shapley在市场上合作过的诺贝尔奖获得者表现出色。市场是人为构想的虚假事物。在所谓的商品市场中，当您购买某种产品而又不在乎谁的时候，这仅取决于什么价格（例如，股票市场）。当价格不是唯一因素（有时甚至根本不是价格因素）时，就会有匹配的市场。

例如，孩子在学校的分布。以前，在美国，该计划的工作方式是：家长按优先级（1、2、3等）写下学校列表，学校首先考虑将其列为第一的学校，并根据学校的标准对其进行排序，并尽可能多地接受。对于那些没有被击中的人，我们上了第二所学校并重复该过程。从博弈论的角度来看，该计划非常糟糕：父母必须“有策略地表现”，要诚实地说出自己的偏好是不切实际的-如果您没有进入学校1，到第二轮，学校2可能已经满了，您将不会进入学校，即使您的特征高于在第一轮中被接受的特征。实际上，对博弈论的不尊重会转化为腐败和父母与学校之间的内部协议。数学家提出了另一种算法-“延期接受”。主要思想是学校不会立即给予同意，而只是将候选人的排名列表“记在记忆中”，如果某人超出了尾巴，那么他会立即遭到拒绝。在这种情况下，父母有一个占主导地位的策略：首先我们去上学1，如果在某个时候我们拒绝了，然后我们去上学2，并且不怕失去任何东西-上学2的机会就好像我们去上学一样马上。但是，该计划是在“生产中”实施的。没有报告A / B测试的结果。

另一个例子是肾脏移植。与许多其他器官不同，您可以使用一个肾脏生活，因此经常会出现这样的情况：有人准备将肾脏交给另一个人，但不是抽象的而是特定的（由于个人关系）。但是，供体和受体相容的可能性很小，您必须等待另一个器官。还有一种选择-肾脏交换。如果两对是供体和接受者，并且内部不兼容，但两对之间兼容，则可以交换：4个同时进行的提取/植入操作。系统已经为此工作。而且，如果有一个“自由”器官没有与特定的一对绑定，那么它可以引起整个交换链（实际上有多达30个移植链）。

现在有许多类似的匹配市场：从Uber到在线广告市场，由于计算机化，一切都很快改变。除其他事项外，“隐私权”正在发生很大变化：例如，一位发言者引用了一名学生的一项研究，该研究表明，选举后在美国，感恩节的访问次数由于政治观点不同的州之间的访问而减少了。这项研究是在匿名的电话座标资料集上进行的，但作者很容易找出电话拥有者的“住所” 去匿名数据集。

发言人分别谈到技术失业问题。是的，无人驾驶汽车将剥夺其中的许多汽车（美国6％的工作处于危险之中），但它们会创造新的工作（对于汽车修理工）。当然，年长的驾驶员将不再能够进行再培训，对他而言将是沉重的打击。在这样的时刻，您不需要集中精力于如何防止更改（该更改将不起作用），而应专注于如何帮助人们尽可能轻松地通过更改。在上世纪中叶，在农业机械化期间，许多人失业了，但是我们很高兴现在有一半的人口不必在田间工作？不幸的是，这仅是针对那些面临技术失业的人实施的缓解措施，发言人没有建议...

是的，再次关于公平。不可能使所有组中的预测模型的分布相同，该模型将失去其意义。理论上可以做些什么，以使第一类和第二类错误的分布对于所有组都相同？看起来已经更加明智了，但是在实践中如何实现这一目标尚不清楚。他提供了一篇有关法律实践的有趣文章的链接-在美国，法官根据ML预测决定是否保释。

消费互联网应用

在报告之间的间隔中，我转到我最初想要的演示文稿：来自LinkedIn，Pinterest和Amazon的演讲嘉宾在这里讲话。 DS部门的所有女孩和所有负责人。

Neraline针对活跃社区的上下文建议

底线是刺激LinkedIn上社区的发展和激活。我错过了一半的开发，最后一个建议：利用本地模式。例如，在印度，毕业后的学生通常会尝试联系具有既定职业的过去课程的同一所大学的毕业生。建立和提出建议时，LinkedIn会考虑到这一点。

但是仅创建社区是不够的，必须有活动：用户发布内容，接收并提供反馈。显示收到的反馈与将来出版物数量的相关性。显示信息如何在整个图中级联。但是，如果节点不参与级联该怎么办？发送通知！

然后，与昨天有关使用通知和磁带的故事进行了很多对话。在这里，他们还使用了一种多功能的优化方法，即“最大化一个指标，同时将其他指标保持在一定范围内”。为了控制负载，我们引入了空中交通管制系统，该系统限制了每位用户的通知负载（他们能够将退订和投诉减少20％，而不会失去参与度）。 ATC决定是否可以将推送发送给用户，而该推送是由另一个称为Concourse的系统准备的，该系统以流模式工作（例如我们的Samza ！）。昨天，关于她的事情很多。 Concourse也有一个名为Beehive的离线合作伙伴，但是逐渐地，它正在不断地流式传输。

注意了几点：

鉴于存在许多渠道和内容，重复数据删除非常重要，而且质量很高。
有一个平台很重要。他们有一个专门的平台团队，程序员在那里工作。

Pinterest机器学习方法

Pinterest 发言人现在就使用ML的两个重要任务进行演讲和讨论-提要（家庭提要）和搜索。演讲者立即说，最终产品不仅是数据科学家的工作，而且是机器学习工程师和程序员的工作的结果-人们被分配给所有这些人。

磁带（无用户意图的情况）是根据以下模型构建的：

我们了解用户-我们使用配置文件，图形，与销的交互作用（我看到自己踢过）中的信息，并根据行为和属性构建嵌入。
我们了解内容-我们在各个方面进行研究：视觉，文字，作者是谁，哪些委员会参与其中，谁做出反应。重要的是要记住，一张图片中的人经常会看到不同的事物：某人的设计带有蓝色的口音，某人的壁炉和某人的厨房。
将所有内容放在一起-分三步进行：我们生成候选人（推荐+订阅），个性化（使用排名模型）并根据政策和业务规则进行融合。

为了获得建议，他们在用户面板固定图下使用了随机游走，并介绍了PinSage，他们昨天对此发表了讲话。个性化已从时间排序到线性模型和GBDT演变为神经网络（自2017年以来）。收集最终列表时，重要的是不要忘记业务规则：新鲜度，种类，附加过滤器。我们从启发式技术开始，现在我们正朝着总体上针对目标的上下文优化模型发展。

在搜索情况下（有意图时），他们的动作略有不同：他们试图更好地理解意图。为此，请使用查询理解和查询扩展技术，并且扩展不仅通过自动完成，而且还通过美观的视觉导航进行。他们使用不同的技术来处理图片和文字。我们从2014年开始没有进行深度学习，就在2015年启动了具有深度学习功能的Visual Search，在2016年我们添加了带有语义分析和搜索功能的对象检测，最近又推出了Lens服务-您将智能手机的相机对准拍摄对象并获取图钉。在深度学习中，他们积极地使用多任务：存在构建图像嵌入的通用块。和其他网络来解决不同的问题。

除了这些任务，机器学习还广泛用于：通知/广告/垃圾邮件/预测等。

关于汲取的教训：

我们必须记住偏见，这是最危险的“致富致富”之一（机器学习将流量转移到已经流行的对象的趋势）。
测试和监视是强制性的：首先，网格的实现使所有指标严重崩溃，然后事实证明，由于功能的错误分布已长期存在，并且在线上出现了空白。
基础设施和平台非常重要，特别强调实验的便利性和并行性，但是您必须能够离线进行实验。
指标和理解：离线并不能保证在线，但是对于模型的解释我们可以使用工具。
构建可持续发展的生态系统：关于垃圾过滤器和点击诱饵，请确保向UI和模型添加负面反馈。
记住要有一个嵌入业务规则的层。

亚马逊的广泛知识图

现在，一个来自亚马逊的女孩正在玩。

有知识图-实体节点，属性边等-它们是自动生成的，例如在Wikipedia上。它们有助于解决许多问题。我们希望为产品提供类似的东西，但是这样做有很多问题：没有结构化的输入数据，产品是动态的，有各种各样的方面都不适合知识图模型（在我看来，有争议的是，“如果没有结构的严重复杂性，这是有争议的。 ”，很多垂直行业和“未命名实体”。当将该概念“出售”给管理层并获得批准时，开发人员表示这是一个“一百年的项目”，因此，他们在15个工作月内完成了管理。

我们首先从Amazon目录中提取实体：这里有某种结构，尽管它是众包和肮脏的。接下来，他们连接了OpenTag（在昨天进行了详细介绍）进行文字处理。第三个组件是Ceres-一种用于从Web进行解析的工具，同时考虑了DOM树。这个想法是，通过注释站点的页面之一，您可以轻松地解析其余页面-毕竟，所有页面都是由模板生成的（但是有很多细微差别）。为此，我们使用了Vertex标记系统（由Amazon在2011年购买）-他们在其中进行标记，基于该系统，创建了一组xpath来隔离属性，逻辑回归确定哪些参数适用于特定页面。要合并来自不同站点的信息，请使用随机森林。他们还使用主动培训，发送复杂的页面以进行手动重新标记。最后，他们在监督下进行知识清洗-一个简单的分类器，例如品牌/非品牌。

接下来，一点点的生活。他们区分两种目标。 Roofshots是我们通过移动产品实现的短期目标，Moonshots是我们突破界限和全球领导地位的目标。

嵌入和代表

午餐后，我去了如何建立嵌入的部分，主要用于图形。

使用统一的语义表示查找相似的练习

这些家伙解决了在某些中文在线学习系统中寻找相似任务的问题。作业由文本，图像和一组相关的kontsetov描述。开发人员的贡献是将来自这些来源的信息汇集在一起。卷积用于图片，嵌入针对概念进行训练，单词也针对训练。单词嵌入与有关概念和图片的信息一起传递到基于Attention的LSTM。获得工作的一些代表。

上面描述的块变成了一个暹罗网络，其中还增加了注意力，并在输出时提供了相似度分数。

他们在10万个练习和40万对（总共150万个练习）的标记数据集上授课。通过对具有相同概念的练习进行抽样来添加硬性否定。然后可以使用注意矩阵来解释相似性。

任意阶邻近保留网络嵌入

伙计们正在为图形建立一个非常有趣的嵌入形式。首先，批评了基于步行和基于邻居的方法，因为它们专注于某个级别（与步行的长度相对应）的“接近度”。他们提供了一种方法，该方法考虑了所需订单的接近程度并控制了权重。

这个想法很简单。让我们采用一个多项式函数并将其应用于图的邻接矩阵，然后通过SVD分解结果。在这种情况下，多项式特定成员的次数是接近程度，而该成员的权重是该程度对结果的影响。自然，这个疯狂的想法是不可行的：将邻接矩阵提升为幂后，它变得更密集，不适合内存，因此您可以分解这样一个无花果。

如果没有数学，那是垃圾，因为如果在扩展后将多项式函数应用于结果，那么与将扩展应用于大型矩阵一样，我们得到的结果完全相同。其实不是。我们近似地考虑SVD并仅保留最高的特征值，但是在应用多项式之后，特征值的阶数可能会发生变化，因此您需要带一个空白的数字。

该算法以其简单性着迷，并在链接预测任务中显示出惊人的结果。

NetWalk：动态网络中异常检测的灵活深度嵌入方法

顾名思义，我们将基于行走构建图形嵌入。但是，不仅如此，而是以流模式，因为我们解决了在动态网络中搜索异常的问题（昨天有关于此主题的工作）。为了快速读取和更新嵌入，他们使用“ 容器 ”的概念，其中包含图形的样本，并在收到更改时进行随机更新。

为了进行训练，他们制定了一个具有多个目标的相当复杂的任务，主要目标是在一条路径中节点的嵌入的接近性以及在使用自动编码器恢复网络时的最小错误。

分层分类法感知网络嵌入

这次，根据概率生成模型，为图形构造嵌入的另一种方法。通过使用来自分层分类法的信息（例如，用于引文网络的知识域或用于e-tail的产品的产品类别），可以提高嵌入质量。生成过程建立在一些“主题”上，其中一些与分类法中的节点相关，而另一些与特定节点相关。

我们将具有零均值的先验正态分布与分类法的参数，分类法中特定顶点的参数相关联-均值等于分类法参数的正态分布，将顶点的自由分布与具有零均值和无限分散的均值分布相关联。我们使用伯努利分布生成顶点的环境，其中成功的概率与节点参数的接近程度成正比。我们使用EM算法优化了整个巨像。

规则等效的深度递归网络嵌入

通用的嵌入技术并不适用于所有任务。例如，考虑节点任务的角色。要确定角色，重要的不是特定的邻居（通常要关注它们），而是顶点附近的图形结构及其中的某些样式。同时，直接在算法上搜索这些模式（规则等价）非常困难，但是对于大型图形来说，这是不现实的。

因此，我们将另辟way径。对于每个节点，我们计算与其图相关的参数：度，密度，不同中心度等。嵌入不能单独建立在它们上，而可以使用递归，因为存在相同的模式意味着具有相同角色的两个节点的邻居的属性应该相似。这意味着您可以堆叠更多层。

验证显示，它们在许多任务上绕过了DeepWalk和node2wek的标准基准线。

通过邻域形成嵌入时间网络

今天的最新图形嵌入工作。这次，我们将研究动态：我们将评估连接的时刻以及及时进行交互的所有事实。以引用网络为例，其中交互是联合出版物。

我们使用霍克斯过程来建模过去的顶点交互如何影响它们未来的交互。强度函数和历史事件对HP的影响是通过嵌入之间的欧式距离确定的。要改善结果，请添加注意力矩阵以调整故事的影响力。使用梯度下降来优化对数似然。结果看起来不错。

安全性

在晚上的会议上，很难选择。去哪里，但最后我很高兴。在分析有关ML如何帮助保护实际项目中的生命的问题时，几乎没有复杂的ML，但实际案例非常有趣。

使用机器学习来评估和预防供水中断的风险

: , , — . , . , ( - , ), 1-2 % . , .

data miner- Data Science for Social Good . , , :

, . : , GBDT. -1 % .

base line-: « » , , « , » . ML, , .

27 32- , , , ( , — ). , $1,2 .

, , , 1940-, , ( ) .

Detecting Spacecraft Anomalies Using LSTMs and Nonparametric Dynamic Thresholding

NASA ( ). — . , . , .

ML . LSTM , . ( , ). , , . , . , .

: soil moisture active passive Curiosity c Mars Science Laboratory. 122 , 80 %. , , . , , .

Explaining Aviation Safety Incidents Using Deep Temporal Multiple Instance Learning

, , . Safety Incidents, , . , . .

, - , . «», .. , . , , . , , .

GRU , Multiple Instances Learning . , «» — , . « , , — » ( = ). max pooling .

cross entropy loss . base line MI-SVM ADOPT.

ActiveRemediation: The Search for Lead Pipes in Flint, Michigan

, , .

. 120 . , 2013 , : . , 2014-. 2015- — . , . , …

— , . , . .

. «», . : , , , . , , — , …

6 . , 20 %. data scientist-.

, 19 , , , . , « ». , , XGBoost - . ( 7 % , ).

当局不敢根据预测去挖掘模型，但他们给了家伙一个污物泵，可以用比较少的损坏进入管道，以检查是否有铜或铅。有了这台机器，这些家伙开始练习“主动学习”，并确信该模型的有效性。

回顾分析数据后，我们认为以主动学习格式使用该模型可以将成本超支从16％减少到3％。此外，他们指出，在与科学家互动的过程中，当局显着改善了对数据的态度-在Excel中出现了一个正常的门户网站来监视更换供水系统的过程，而不是散发传单和散落的药片。

时空火灾风险预测的动态管道

总之，另一个痛点是火灾检查。关于如果不执行该怎么办，我们在2018年3月获悉。在美国，这种情况也不罕见。同时，检查消防员的资源是有限的；必须将其定向到风险最大的地方。

有评估火灾风险的开放模型，但它们是针对森林火灾而设计的，不适合城市使用。纽约有某种系统，但它是封闭的。因此，您需要尝试制作自己的。

这些男孩与匹兹堡消防员合作，收集了数年的火灾数据，添加了有关人口统计，收入，业务形式等的信息，以及与消防无关的其他消防部门电话。他们试图根据这些数据评估火灾风险。

教授了两种不同的XGBoost模型：用于家庭和商业房地产。 Kappa认为，鉴于班级之间的严重失衡，首先对工作质量进行了评估。

在模型中添加动态因素（致电消防部门，触发探测器/警报器）可以显着提高质量，但是为了使用它们，必须每周重新计算模型。根据预测，这些模型为消防检查人员制作了一个令人愉悦的网络枪口，以显示风险最大的对象位于何处。

分析了症状的重要性。商业上的重要功能之一包括虚假警报（显然，关闭更进一步）。但是对于家庭来说，税额是多少（嗨，公平，在贫困地区进行火灾检查的频率会更高）。

KDD 2018，第四天，诺贝尔奖获得者