可视化基于图像的分类器解决方案的边界

引言


了解分类器如何将属性的初始多维空间分解为许多目标类是分析任何分类问题和评估使用机器学习获得的解决方案的重要步骤。


现代的分类器决策可视化方法主要是使用散点图,这些散点图只能显示原始训练样本的投影,而不能明确显示决策的实际边界,或者使用分类器的内部结构(例如kNN,SVM,逻辑回归),因此很容易构造几何图形解释。 该方法不适用于例如神经网络分类器的可视化。


文章``基于图像的分类器决策边界可视化''(Rodrigues等人,2018)提出了一种有效,美观且相当简单的替代方法来可视化分类器解决方案,该方法没有上述缺点。 即,该方法适合于任何种类的分类器,并且使用具有任意采样率的图像来建立决策的边界。


这篇文章简要概述了原始文章的主要思想和结果。


方法说明


该方法的基础是从像平面进行反向采样(英语升采样) \ mathbb {R} ^ 2 它由特征空间中的一组像素表示 \ mathbb {R} ^ n


该方法需要两个映射 P:\ mathbb {R} ^ n \到\ mathbb {R} ^ 2 -从特征空间直接投影到像平面和反面 P ^ {-1}:\ mathbb {R} ^ 2 \到\ mathbb {R} ^ n 。 作为此类映射,分别使用了LAMP(Joia等人,2011)iLAMP(Amorim等人,2012)


建筑


要生成图像,您需要为每个像素分配一种颜色。 为此,对于每个像素 ÿ 会发现 N \ geq 1 来自源超空间的点 ñ -用户指定的参数。 让像素 ÿ 已经有 n(y)\ geq 0 训练集中的真实原型。 然后均匀选择 \ max(N-n(y),0) 来自像素表面的其余点,并通过反向投影找到它们的原型 x_i = P ^ {-1}(y_i) 。 因此,每个像素的颜色将至少由 ñ 点空间,整个图像将被绘制。


方法差异
[图1]不同方法的示意图


颜色定义


色泽 d 每个像素 ÿ 由多数投票决定相应原像的类别标签。


d(y)= \文字{argmax} _ {k \ in C} \ sum_ {y_i \ in y} [f(P ^ {-1}(y_i))= k]

在哪里 ç -许多班级 f:\ mathbb {R} ^ n \到C -分类器。


每个班级都会被分配一个音调(英语:Hue) H_T(k) -如果投影中包含真实样本中的点,并且色调略有变化 H _ {\文字{合成}}(k) 对于只有合成点的像素。


混乱


定义像素混合(源自英语混淆) c(y) -作为主要类别的标签数与像素反向图像总数的比值 ÿ


c(y)= \ frac {\ max_ {k \ in C} \ sum_ {y_i \ in y} [f(P ^ {-1}(y_i))= k]} {| y |}

高价值 c(y) 表示分类器的一致性,而低值表示接近划分边界。 混合以像素饱和度编码的信息 S(y) -一致性越高,饱和度越高。


密实度


尽管已产生最小值 ñ 每个像素的原像点,可能有一些像素来自训练集,它们的真实点要多得多。 渲染时应考虑此类像素。 为此,请输入像素密度 \ rho(y) 作为其逆像点的数量 \ mathbb {R} ^ n 。 可以直接使用这种密度来确定像素的亮度 V(y)= \ frac {\ rho(y)} {\ rho_ {max}} ,但是该文章的作者指出,这无法产生预期的结果,因为 有些色调显然比其他色调暗。 因此,可以通过归一化的密度参数在饱和度和亮度的同时使用更复杂的设置。


\ hat {\ rho} = max(\ frac {1} {20} \ frac {\ rho} {\ rho_ {avg}},1)

那如果 \ hat {\ rho} \ in [0,0.5] -亮度线性地取决于内部的参数 [V_ {min} = 0.1,V_ {max} = 1] 。 在 \ hat {\ rho} \ in [0.5,1] 从开始线性饱和 S_ {min} = 0.2 之前 S_ {max} = 1


颜色编码
[图2]颜色编码


实验与结果


为了进行实验,解决了MNIST数字图像集上的二进制分类和图像分割数据集上的多类分类问题,该图像分类数据集包含2310张图像,分为7类。 每个图像有19个属性。


使用各种分辨率设置成像结果 [R 和最少数量的原型 ñ MNIST上的二元分类器LogisticRegression的情况如图3所示。 通过高精度的直线分隔各类,并且可视化算法做得很好。 随着分辨率的提高,源点的云几乎完全溶解在许多生成的点中。


颜色编码
[图。 3] LogisticRegression分类器的各种分辨率参数和最小样本数N的可视化结果


可视化时间 R = 500 \文字{x} 500,N = 5 图[4]中针对三个不同分类器的多重分类。 起点的投影强烈混合,并且不可能在累积测试用例的投影的地方构造明确的划分边界。 但是,除了主类之外,还获得了明确的类边界,有关类的信息不会显示在普通投影上,而只能在合成点的帮助下获得。


颜色编码
[图。 4]三种不同分类器的可视化结果,其中k = 7,R = 500x500,N = 5


结论


类边界的可视化可用于决定性算法的构建和调试,超参数的选择,与再训练的斗争中,以呈现和分析结果。


原始文章作者描述的方法可以用于任何分类问题,其中数据可以表示为一组固定尺寸的符号。 与其他可视化算法不同,此方法可用于任何任意复杂的分类器以及具有任意数量示例(甚至很小的示例)的数据集,因为 即使很小 ñ 该算法稳定运行,而不会损失很多质量。

Source: https://habr.com/ru/post/zh-CN483608/


All Articles