⭕️ 🧓🏻 💏 标题“为您阅读文章”。十月-十二月2019 🤷 ➰ 🙇🏾

哈Ha！我们将继续从#article_essense频道发布来自开放数据科学社区成员的科学文章的评论。如果您想在其他所有人之前得到他们-加入社区！

今天的文章：

链接到该系列的过去收藏：

1.多编码器：用于快速准确的多句子评分的变压器体系结构和预训练策略

作者：Samuel Humeau，Kurt Shuster，Marie-Anne Lachaux，Jason Weston（Facebook，2019年）
→原创文章
评论作者：Alexey（处于松弛状态）

TLDR

本文提出了一种对句子（语句）对评分的新方法。此过程与预测响应与条件上下文的对应关系的任务以及下一个感官预测之类的任务有关。将所提出的Poly-Encoder方法与Bi-Encoder和Cross-Encoder策略进行了比较。该方法结合了Bi-Encoder（缓存响应表示的能力）和Cross-Encoder（不是对上下文和答案编码器进行无条件训练）的优势。

多句评分

（有关Bi和Cross编码器方法的小提醒。对于熟悉的人，可以跳过）

确定上下文（用户请求或语句）与现有答案集的对应关系的任务与对话和信息检索系统最相关。它可以通过在上下文和响应的编码表示之间找到某个速度（点积）来解决，或者通过将上下文和响应联合编码为单个矢量，然后线性转换为标量来解决。

第一种方法称为Bi-Encoder，此方法的明显优势是能够对所有可用答案的表示进行脱机计数。这些视图被缓存，并且在推理过程中，您仅需要查找查询向量，将点向量与响应向量相乘并排列结果即可。此外，这种方法可以在训练阶段更有效地进行负采样。即，在每个批次中，考虑阳性样本的表示，而阴性样本可以直接从同一批次中获取。本质上，对于正例和负例，重用正向传递。 Bi-Encoder方法的缺点是上下文和响应表示几乎独立地学习。在请求和响应视图之间可能至少存在某种信息流的唯一点是最终点产品形式的僵尸网络。在任何文字功能的层面上，信息都不会模糊。

第二种方法是交叉编码器。它涉及学习过程和推理中上下文和响应的更强大的交互。在这里，请求和响应令牌序列被串联为一个。在它们之间放置一个特殊的分隔符标记，并向每个部分（请求，响应）添加特殊的嵌入。实际上，该嵌入将响应令牌的输入表示形式移动了一定的常量，因此该模型可以更轻松地将它们与请求令牌区分开。结果，该模型学习找到请求和响应的联合表示，以使最终的线性层（向量->标量）为相互匹配的成对句子返回较大的logits值，否则返回较小的值。这种方法的缺点是无法对答案的表示进行脱机计数：必须在推理阶段对它们与条件令牌集合进行评估。同样，在培训阶段重用消极和积极榜样的想法的技巧将不再适用。您必须在批次形成之前收集阴性样品。

动机
以下是一个解决方案，可让您减轻缺点，并结合使用Bi和Cross Encoder方法的优点。我们的想法是，我们要训练一种编码器，一方面要考虑到响应令牌对请求令牌的条件依赖性，另一方面，这种依赖的利用应该发生在响应和请求的预先评估的表示形式上。从几何上讲，我个人认为是这样的：将僵尸网络（两个提交的最终点产品）移到网络下方。在请求和响应视图之间创建一些交互。同时，实现这种交互距离最终层不太远，因此请求编码器的主要部分保持独立于响应编码器。

实作
这种想法的实现非常简单：候选编码器的工作方式与Bi-Encoder的情况相同：我们使用基于变换器的模型（BERT）以矢量形式（[CLS]令牌）获得序列表示。我们在训练模型后缓存这些表示。

反过来，上下文编码器不会将输入序列的表示压缩到单个向量中。在这里，我们保留由模型编码的所有序列向量。

为了获得对上下文（向量集）和候选对象（一个向量）的符合性的评估，使用了关注机制。在这种情况下，候选向量是一个请求，上下文向量是密钥。根据结果值，它被认为是点积，进而被认为是softmax。上下文向量由结果分布加权并相加。结果，我们获得了单个矢量形式的上下文表示。而且，与通常的Bi-Encoder一样，我们考虑上下文和候选点的乘积。

此外，本文提出了多种方法来加速上下文向量的加权。最有效的选择是这样一种计算注意力的过程，其中仅采用上下文序列的前m个向量。

结果
结果，事实证明交叉编码器仍然运行最佳。但是，Poly-Encoder在质量指标方面并不落后于它，并且在推理速度方面，它的运行速度快数百倍。

2.变分自动编码器中的隐式鉴别器

作者：Prateek Munjal，Akanksha Paul，Naraayanan C.Krishnan（印度罗珀技术学院，2019年）
→原创文章
评论作者：Alex Chiron（在sliron shiron8bit中）

在本文中，作者提出了一种体系结构，该体系结构试图结合VAE和GAN方法生成图像的优点，从而绕过每种方法固有的缺点：自动编码器的模糊性，对抗训练的模式崩溃/模式丢失。由于编码器与鉴别器和公共生成器/解码器之间的总权重，它们实现了这一目标，首先，它减少了网络权重的数量；其次，如果生成器/解码器不落差，则允许我们通过梯度从鉴别器获得有用的信息。进入实际数据分配。

引言
在生成问题中，重要的作用是生成的数据Q的分布与实际数据P的分布的重合，后者通过Kullback-Leibler散度测量。这种衡量分布偏远性的独特之处在于它是不对称的。因此，根据我们是考虑Div_KL（P || Q）还是Div_KL（Q || P），我们将获得不同的图片。如果我们考虑比较分布的两个选项（如下图所示），则对于Div_KL（P || Q）（又名正向KL，又避免零），第二个选项将给出一个较低的值，而对于Div_KL（Q || P）（第一个选项的后向KL，也为零强迫）分布将被视为更紧密的分布。实际上，VAE和GAN的结果有很大不同：重建（L2）损失有助于最小化前向KL散度（因此，我们保留了所有模式，但得到的图像模糊），而使用鉴别器进行训练有助于最小化后向KL散度（获得的图像更多）清除，但有跳过mod的风险）

建筑，损失和培训
如前所述，作者建议考虑两种模式的缺点，并结合由于网络架构（如下图所示）的两种最小化，其中大多数编码器和鉴别器权重是通用的（只有完全连接的磁头才能预测图像和参数的“真实性”），VAE潜在层的sigma），以及归因于训练模式。编码器和发生器是相同的，大多数损耗是相当标准的：在L_enc编码器los中，使用L2恢复误差和Kullback-Leibler发散到N（0,1）（L_prior），其余为对抗训练（我们在训练鉴别器时将鉴别器输出最小化，将其最大化）在学习解码器/生成器时），但有2个独特的功能：

在与对抗训练有关的损失中，两种不同类型的生成数据被馈送到鉴别器：通过编码器/解码器恢复，并由生成器/解码器从N（0,1）个样本中生成
在“ L_dec丢失”解码器中，存在一个成员，其中将鉴别器倒数第二层（同样是鉴别器和编码器之间的最后一个公共层）的特征进行比较，以获取真实图像和还原后的图像。

结果
作者将结果与VAE和其他作品进行了比较，以一种或另一种方式尝试在celeba和cifar10数据集上组合VAE和GAN（VAV-GAN，Dmitry Ulyanov和Victor Lempitsky的AGE和AGE）（感谢您不要使用mnist），收到了关于重建误差和Frechet起始距离度量标准的最佳指标（比较了真实图像和生成图像的预训练网格的激活统计）。单独指出的是，按FID进行的排名在很大程度上取决于所选的体系结构，因此，最好检查“专家”（不同的体系结构）的集成结果。

3.对有噪声的学生进行自我训练可以改善ImageNet的分类

作者：谢启哲，爱德华·霍维，Minh-Thang Luong，Quoc V.Le（卡内基梅隆大学Google研究，2019年）
→原创文章
评论作者：Alexander Belsky（in slack belskikh）

Google在图片上获得的top1准确度绝对令人印象深刻，分别为87.4％和top5的98.2％。 Zayuzali掩盖了伪调光和非常大胆的网络。该方法称为“嘈杂学生”。

该算法是这样的：

我们采用教师模型，我们传授正常形象。
我们在来自JFT数据集的图像上生成软伪标签。
我们在软伪标签上教授学生模型，并尽我们所能进行干预：强大的预兆，辍学率和随机深度
以学生模型为例，在步骤2中将其用作老师，然后重复该过程，然后按照以下类别对数据集进行平衡。首先，我们使用经过图像训练的EfficientNet-B0，在JFT数据集上进行了预测。然后，他们以最大置信度高于0.3的示例为例。对于每个类别，均拍摄了130K图像（如果经过0.3个垃圾箱过滤后，则它们的数量较少-重复，如果更多，则根据最高谓词范围进行拍摄）。收到1.3亿张图片，重复发射，还剩8100万张

架构：
此外，EfficeintNet的学生模型采用的是胖得多的老师模型。他们还将EfficientNet本身扫描到EfficientNet-L0 / L1 / L2，从而生成具有480M参数的L2模型（Resnet50具有26M参数，以进行比较）

学习过程：
Butchesize2048。Sota模型L2教授了350个时代。在具有2048核的Cloud TPU v3 Pod上，以这种模式研究的最大的L2模型持续了3.5天。

迭代学习程序：
最初，他们既作为学生又作为老师教B7。然后，他们以B7为老师，以学生的身份教胖L0。然后，像这样改变他们的位置，我们得到了L2模型，最后我们将其用作相同L2模型的老师。结果：： sota：模型参数比前一个单元少2倍（FixRes ResNeXt-101 WSL 829M参数）

在ImageNet-A / C / P上也获得了很好的结果

4.无监督视觉表示学习的动量对比

文章作者：何开明，范浩琪，吴玉欣，谢赛宁，罗斯·吉尔希克（Facebook，2019）
→原创文章
评论作者：Arseny Kravchenko（处于松弛状态的arsenyinfo）

SotA是针对几种计算机视觉任务（从分类到密集姿势估计）的无监督预训练，已在不同的数据集（imagenet，instagram）和主要任务（imagenet，COCO，城市景观，LVIS等）上进行了测试。

无人监管的预培训如何做？我们提出了不需要标签的某种任务，我们学习编码器，将其冻结，然后通过添加缺失的层（用于分类的线性层，用于分割的解码器层等等）来解决主要问题。在这个利基市场中最流行的任务之一是基于对比损失的实例歧视，即我们希望同一张图片的不同增强特征彼此接近（例如，在余弦距离方面），而不同特征的特征则相距遥远。

您可以尝试端对端地讲授此任务，但是很大程度上取决于批处理的大小：质量在很大程度上取决于批处理中的示例种类。实验表明，随着批量大小的增加，最终质量会提高。但是这批产品与莫斯科有些相似：它不是橡胶，将长时间无法增加额头。

以前的花花公子近单元花花公子搞砸了一个存储库：以前批次的特征分别存储在内存中，还用于生成负数，即不同的样本。这部分有所帮助，但也有缺陷：在训练过程中，编码器权重发生变化，旧功能变坏。

最后，文章的想法：

让我们将一个简单的存储库替换为一个队列，其中将包含相当新鲜的功能。
我们将保留两种版本的编码器：一种用于当前批次并经过培训，另一种更为稳定，其权重是从第一种版本更新而来的，但是动量很大。
批处理的要素被视为第一个编码器，队列中的要素由第二个编码器计算。

这种方法可以更接近端到端培训的质量，但是由于排队时间长，它可以实现不切实际的大批量生产的潜在结果。这样，您就可以针对不同任务获得出色的指标，包括在某些地方，它甚至比想象中的传统监督图像还要好一点。

5.将神经网络的鲁棒性基准化为常见的腐败和扰动

作者：丹·亨德里克斯（Dan Hendrycks），托马斯·迪特里奇（Thomas Dietterich）（加利福尼亚大学，俄勒冈州立大学，2019年）
→原创文章
评论作者：弗拉基米尔·伊格洛维科夫（Ternaus Slack）

它已在ICLR 2019上接受，据我了解，这是未经任何网络培训的DL作品之一。

任务是这样的-但让我们尝试增强ImageNet验证，但我们将继续进行培训。此外，与adevrsarial不同的是，我们没有将转换做得很小且肉眼看不到的任务。

已经做了什么：

选择了一组扩充。作者说这是最常见的，但是我认为他们是在说谎。
他们使用了：高斯噪声，ISO噪声，降级，离焦，MotionBlur，ZoomBlur，FrostedGlassBlur，JpegCompression，Snow，Fog，Rain，Elastic transoform等。
所有这些转换已应用于ImageNet验证。所得数据集名为ImageNet-C
还提出了一个称为ImageNet-P的变体，其中将不同强度的变换集应用于每张图片。
提出了一种度量来评估模型的稳定性。
在此度量标准的上下文中评估了几种模型：AlexNet，VGG-11，VGG-19，Resnet-50，Resnet-18，VGG-19 + BN等

结论：

增强越强，模型的准确性就越差。：capitan_obvious：
模型越复杂，越稳定。
在推断之前在图片中应用CLAHE会有所帮助。
DenseNet或Resnext帮助之类的功能聚合块。
具有多尺度的网络更加稳定。这样的网络的一个例子是MSDNet，Multigrid（我还没有听说过这样的网络）

代号

6. DistilBERT，BERT的简化版本：更小，更快，更便宜，更轻便

作者：维克多·桑（Victor Sanh），里桑德（Lysandre）出道，朱利安·乔蒙德（Julien Chaumond），托马斯·沃尔夫（Thomas Wolf）（《拥抱的脸》，2019年）
→原创文章
评论作者：尤里·卡什尼茨基（Yorko Slack）

这篇文章简短，很容易阅读。刚开始时，有关NLP中的军备竞赛和环境足迹的一些一般性说法。此外，还有提炼的想法（Hinton在这里也是这样做的）在语言建模的任务中，我们通常根据上下文预测下一个单词。通常，交叉熵损失会将预测概率的向量（整个字典的长度）与二进制向量进行比较，其中在训练集中的给定位置只有一个单位表示真实单词。也就是说，第二，第三等。模型认为适当的单词会被损失忽略。文章中给出了一个示例：“我认为这是美丽的[MASK]的开始”，而不是[MASK] BERT希望一整天或生活中都替换掉，但是用未来概率Future，Story和World预测的单词也很好。我们可以以某种方式考虑模型产生良好概率分布这一事实吗？粗略地说，授予模型的原因是顶部没有默多克，宽容，生育和其他一些合适的词语。

蒸馏的想法
具体的师生计划的思想是，我们有一个大型的教师模型（教师，BERT）和一个较小的模型（学生，DistilBERT），这将传递教师模型中的“知识”。学生模型将优化蒸馏损失，即交叉熵损失，为老师和学生的概率分布定义：L =Σt_i * log（s_i）。也就是说，对于由[MASK]符号删除的特定单词，并且必须根据上下文进行预测，我们比较字典中每个单词出现的两种概率分布：{t_i}和{s_i}-分别由教师模型和模型预测学生。因此，获得了丰富的训练信号-每个单词上的学生模型都接收到一个信号，该信号不仅通过将其预测向量与训练样本中的真实单词进行比较，而且还通过与教师模型的投影向量进行比较而得出。

DistilBERT模型
, — , . DistilBERT — BERT, . token-type embeddings pooler, , . , DistilBERT 40% — 66 . 110 BERT

DistilBERT
DistilBERT distillation loss — masked language modeling loss, BERT cosine embedding loss — ( , , "" - , "" ). : ablation studies, , masked language modeling loss, , .. distillation loss cosine embedding loss. , RoBERTa next sentence prediction dynamic masking.

, BERT (eng. wiki + Toronto Book Corpus) 90 8 V100 (16 GB). RoBERTa 1024 V100 (32 GB).

BERT — "it performed surprisingly well", DistilBERT — GLUE surprisingly well — 5 9 , BERT , SQuAD IMDb — . , DistilBERT 60% — .

DistilBERT iPhone 7 Plus. 70% , BERT-base ( ), 200 . ablation studies: , — distillation loss cosine embedding loss.

3 , DistilBERT — BERT, 40% , 60% "97% " BERT ( ML).

-, BERT, .

:
Jay Alammar
, DistilBERT + Catalyst:

7. Plug and Play Language Models: A Simple Approach To Controlled Text Generation

: Sumanth Dathathri, Andrea Madotto, Janice Lan, Jane Hung, Eric Frank, Piero Molino, Jason Yosinski, and Rosanne Liu (Uber AI, Caltech, HKUST, 2019)
→
: ( Egor Timofeev)

. , / / (, . https://arxiv.org/pdf/1909.05858.pdf ). , , , , .

( x_prev ), p(x), conditional LM (, — CTRL) p(x|a).

: p(x|a) ∝ p(x)p(a|x), p(x) , (, GPT2), p(a|x) — . — , /. , , .

, log(p(a|x)) ( ). hidden state .
, hidden state log(p(a|x)). H_new.
: p(x). , : -, KL(H, H_new), -, .. post-norm fusion ( https://arxiv.org/pdf/1809.00125.pdf ), p(x) non conditional LM , .
.

, p(a|x).

, - topic relevance. : (GPT2) < + << < + .

8. Deep Salience Representation for F0 Estimation in Polyphonic Music

: Rachel M. Bittner, Brian McFee, Justin Salamon, Peter Li, Juan Pablo Bello ( New York University, USA, 2017)
→
: ( nglaz)

. , . , – . , - . constant-Q , ( ) .

. constant-Q - f_min - F. f_min f_min * h, , , . h {0.5, 1, 2, 3, 4, 5}, . , 3- , 2- 3- (, , ). , , , , (0.5f, f, 2f, 3f, 4f, 5f), . ( 55) . , , dilated-.

, , constant-Q F, .

F0 estimation, , . 2017 , , state-of-the-art. , .

9. Analyzing and Improving the Image Quality of StyleGAN

: Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten, Jaakko Lehtinen, Timo Aila (NVIDIA, 2019)
→
: ( shiron8bit)

GAN- , , . , , , , ( FID) :

droplet-like ( / ), AdaIN.
, ProGAN- / end-to-end MSG-GAN. , /, .
添加了路径长度正则化。
他们提出了一种检测生成图像的方法：我们在潜空间W中找到图像的投影，如果重建的图像接近原始图像，则很有可能是通过stylegan2生成的。

液滴工件和AdaIN
本文的作者提出以下反对使用AdaIN层的论点：adain对每个特征图进行归一化，从而破坏了相对于彼此的幅度值的信息，并且生成器尝试以液滴的方式以不同的方式推送此信息。作为削弱AdaIN的一种选择，提出了以下建议：我们将基于来自块A的样式和输出信号的偏移量（而不是AdaIN中的mu（y）/ y_ {b，i}）直接在卷积中直接进行所有缩放（调制/解调）。让块B转换噪声。同时，这项创新可以加速在相同条件下的培训。

ProGAN失败
在有关MSG-GAN的文章中，建议使用跳过连接，连接匹配的生成器块和鉴别器块。 Stylegan的作者通过对所有分辨率的生成器块的输出求和（带有上采样），并将图像的相应下采样版本馈送到每个鉴别器块的输入，来发展这种想法。建议使用残差块作为第二个选项，而生成器中的跳过连接和鉴别器中的残差块显示出最好的结果（鉴别器类似于LAPGAN，但是对于每种分辨率都没有鉴别器，特征图会进一步转发）。与ProGAN的情况一样，在最初的迭代中，负责较低分辨率和整体图片的网格部分会做出更大的贡献，然后将重点转移到较小的细节上。

路径长度正则化
作者注意到低的FID值并不总是能提供高质量的图像，并且还注意到图像质量与PPL度量之间的相关性（感知路径长度-最初在Z处具有小步长的图像的vgg特征之间的差异，但该差异已被LPIPS取代）。长度正则化，这是为了最大程度地减少功能

J_{w}^{T} y = n a b l a_{w} （ g （ w ） y ）

$J ^ T_w y = \ nabla_w（g（w）y）$

其中g是生成器本身，J_w是潜在空间变量中的雅可比行列式。同时，可以通过反向传播来进行雅可比计算，并且据说为了方便计算，仅每16批就可以对正则化器进行计数。将数字a计算为雅可比范数的指数移动平均值。使用路径长度正则化可以更隐蔽地隐藏空间W的插值，这不仅可以改善图像质量，还可以改善可逆性（也就是说，找到w在通过生成器运行后给出给定图像），以及还打开了关键帧之间的动画和插值方面的视角（在新体系结构中，相似图像的投影之间应该有点负责闭合图像）我）。这种正则化的引入在简化由该体系结构生成的图像的检测方面也发挥了作用。

在不同配置下，分辨率为1024 * 1024的8个GPU的训练时间为2到9天。

标题“为您阅读文章”。 十月-十二月2019