▶️ 🙄 👩🏾‍🏫 可视化基于图像的分类器解决方案的边界 👨‍👧‍👦 💆🏻 📽️

引言

了解分类器如何将属性的初始多维空间分解为许多目标类是分析任何分类问题和评估使用机器学习获得的解决方案的重要步骤。

现代的分类器决策可视化方法主要是使用散点图，这些散点图只能显示原始训练样本的投影，而不能明确显示决策的实际边界，或者使用分类器的内部结构（例如kNN，SVM，逻辑回归），因此很容易构造几何图形解释。该方法不适用于例如神经网络分类器的可视化。

文章``基于图像的分类器决策边界可视化''（Rodrigues等人，2018）提出了一种有效，美观且相当简单的替代方法来可视化分类器解决方案，该方法没有上述缺点。即，该方法适合于任何种类的分类器，并且使用具有任意采样率的图像来建立决策的边界。

这篇文章简要概述了原始文章的主要思想和结果。

方法说明

该方法的基础是从像平面进行反向采样（英语升采样） $\ mathbb {R} ^ 2$ 它由特征空间中的一组像素表示 $\ mathbb {R} ^ n$ 。

该方法需要两个映射 $P：\ mathbb {R} ^ n \到\ mathbb {R} ^ 2$ -从特征空间直接投影到像平面和反面 $P ^ {-1}：\ mathbb {R} ^ 2 \到\ mathbb {R} ^ n$ 。作为此类映射，分别使用了LAMP（Joia等人，2011）和iLAMP（Amorim等人，2012） 。

建筑

要生成图像，您需要为每个像素分配一种颜色。为此，对于每个像素会发现 $N \ geq 1$ 来自源超空间的点 -用户指定的参数。让像素已经有 $n（y）\ geq 0$ 训练集中的真实原型。然后均匀选择 $\ max（N-n（y），0）$ 来自像素表面的其余点，并通过反向投影找到它们的原型 $x_i = P ^ {-1}（y_i）$ 。因此，每个像素的颜色将至少由点空间，整个图像将被绘制。

方法差异
[图1]不同方法的示意图

颜色定义

色泽每个像素由多数投票决定相应原像的类别标签。

$d（y）= \文字{argmax} _ {k \ in C} \ sum_ {y_i \ in y} [f（P ^ {-1}（y_i））= k]$

在哪里 -许多班级 $f：\ mathbb {R} ^ n \到C$ -分类器。

每个班级都会被分配一个音调（英语：Hue） H_T（k） -如果投影中包含真实样本中的点，并且色调略有变化 $H _ {\文字{合成}}（k）$ 对于只有合成点的像素。

混乱

定义像素混合（源自英语混淆） c（y） -作为主要类别的标签数与像素反向图像总数的比值：

$c（y）= \ frac {\ max_ {k \ in C} \ sum_ {y_i \ in y} [f（P ^ {-1}（y_i））= k]} {| y |}$

高价值 c（y）表示分类器的一致性，而低值表示接近划分边界。混合以像素饱和度编码的信息 S（y） -一致性越高，饱和度越高。

密实度

尽管已产生最小值每个像素的原像点，可能有一些像素来自训练集，它们的真实点要多得多。渲染时应考虑此类像素。为此，请输入像素密度 $\ rho（y）$ 作为其逆像点的数量 $\ mathbb {R} ^ n$ 。可以直接使用这种密度来确定像素的亮度 $V（y）= \ frac {\ rho（y）} {\ rho_ {max}}$ ，但是该文章的作者指出，这无法产生预期的结果，因为有些色调显然比其他色调暗。因此，可以通过归一化的密度参数在饱和度和亮度的同时使用更复杂的设置。

$\ hat {\ rho} = max（\ frac {1} {20} \ frac {\ rho} {\ rho_ {avg}}，1）$

那如果 $\ hat {\ rho} \ in [0，0.5]$ -亮度线性地取决于内部的参数 $[V_ {min} = 0.1，V_ {max} = 1]$ 。在 $\ hat {\ rho} \ in [0.5，1]$ 从开始线性饱和 $S_ {min} = 0.2$ 之前 $S_ {max} = 1$ 。