🐑 👀 💣 .NET / C＃中的SIMD概述 😮 💬 🧝🏻

邀请您注意.NET Framework和.NETCORE中算法矢量化功能的概述。本文的目的是向完全不了解这些技术的人介绍这些技术，并表明.NET与本机的“真正的，已编译的”语言相差无几
发展。

我才刚刚开始学习向量化技术，因此，如果社区中有人将我指出一个明显的偏见，或提出以下所述算法的改进版本，我将非常高兴。

一点历史

在.NET中，SIMD首次出现是在2015年发布的.NET Framework 4.6中。然后添加了Matrix3x2，Matrix4x4，Plane，Quaternion，Vector2，Vector3和Vector4类型，从而可以构造矢量化计算。后来，添加了Vector <T>类型，这为矢量化算法提供了更多机会。但是许多程序员仍然不满意，因为上述类型限制了程序员的思想流程，并且不允许使用现代处理器的SIMD指令的全部功能。如今，在.NET Core 3.0预览版中，已经出现了System.Runtime.Intrinsics命名空间，该命名空间为选择指令提供了更大的自由度。为了获得最快的速度，您需要使用RyuJit，并且需要在x64下构建或禁用Prefer 32位并在AnyCPU下进行构建。我在配备3.40 GHz Intel Core i7-6700处理器（Skylake）的计算机上运行的所有基准测试。

总结数组的元素

我决定从经典问题开始，当涉及矢量化时，通常首先写这个问题。这是查找数组元素之和的任务。我们将编写此任务的四个实现，我们将总结Array数组的元素：

最明显的

public int Naive() { int result = 0; foreach (int i in Array) { result += i; } return result; }

使用LINQ

 public long LINQ() => Array.Aggregate<int, long>(0, (current, i) => current + i);

使用System.Numerics中的向量：

 public int Vectors() { int vectorSize = Vector<int>.Count; var accVector = Vector<int>.Zero; int i; var array = Array; for (i = 0; i < array.Length - vectorSize; i += vectorSize) { var v = new Vector<int>(array, i); accVector = Vector.Add(accVector, v); } int result = Vector.Dot(accVector, Vector<int>.One); for (; i < array.Length; i++) { result += array[i]; } return result; }

使用System.Runtime.Intrinsics空间中的代码：

 public unsafe int Intrinsics() { int vectorSize = 256 / 8 / 4; var accVector = Vector256<int>.Zero; int i; var array = Array; fixed (int* ptr = array) { for (i = 0; i < array.Length - vectorSize; i += vectorSize) { var v = Avx2.LoadVector256(ptr + i); accVector = Avx2.Add(accVector, v); } } int result = 0; var temp = stackalloc int[vectorSize]; Avx2.Store(temp, accVector); for (int j = 0; j < vectorSize; j++) { result += temp[j]; } for (; i < array.Length; i++) { result += array[i]; } return result; }

我在计算机上针对这4种方法启动了基准测试，并得到以下结果：

方法	ItemsCount	中位数
天真	10	75.12 ns
LINQ	10	1 186.85 ns
向量	10	60.09 ns
本征	10	255.40 ns

天真	100	360.56 ns
LINQ	100	2 719.24 ns
向量	100	60.09 ns
本征	100	345.54 ns

天真	1000	1 847.88 ns
LINQ	1000	12 033.78 ns
向量	1000	240.38 ns
本征	1000	630.98 ns

天真	10,000	18 403.72 ns
LINQ	10,000	102 489.96 ns
向量	10,000	7 316.42 ns
本征	10,000	3 365.25 ns

天真	100,000	176630.67 ns
LINQ	100,000	975 998.24 ns
向量	100,000	78 828.03 ns
本征	100,000	41 269.41 ns

可以看出，向量和内在函数的解决方案比明显的解决方案和LINQ的解决方案快得多。现在我们需要弄清楚这两种方法会发生什么。

更详细地考虑Vectors方法：

向量

 public int Vectors() { int vectorSize = Vector<int>.Count; var accVector = Vector<int>.Zero; int i; var array = Array; for (i = 0; i < array.Length - vectorSize; i += vectorSize) { var v = new Vector<int>(array, i); accVector = Vector.Add(accVector, v); } int result = Vector.Dot(accVector, Vector<int>.One); for (; i < array.Length; i++) { result += array[i]; } return result; }

int vectorSize =向量<int> .Count; -这是我们可以在向量中放入的4个字节数。如果使用硬件加速，则此值显示可以在一个SIMD寄存器中放置多少个4字节数字。实际上，它显示了您可以并行执行多少个此类元素；
accVector-函数结果将在其中累积的向量；
var v = new Vector <int>（array，i）; -从索引i开始，将数据从数组加载到新的向量v中。确实将加载vectorSize数据。
accVector = Vector.Add（accVector，v）; -添加两个向量。
例如，将8个数字存储在数组{{0，1，2，3，4，5，6，6，7}和vectorSize == 4中，然后：
在循环的第一次迭代中，accVector = {0，0，0，0}，v = {0，1，2，3}，在将accVector相加后，它将为：{0，0，0，0} + {0，1，2 ，3} = {0，1，2，3}。
在第二次迭代中，v = {4，5，6，7}，加法后，accVector = {0，1，2，3} + {4，5，6，7} = {4，6，8，10}。
剩下的只是要以某种方式获得向量所有元素的总和，为此，我们可以通过填充有单位的向量应用标量乘法：int result = Vector.Dot（accVector，Vector <int> .One）;
然后得出：{4，6，8，10} {1，1，1，1} = 4 1 + 6 1 + 8 1 + 10 * 1 = 28。
最后，如果需要，则将不适合最后一个向量的数字相加。

如果您查看Intrinsics方法代码：

本征

 public unsafe int Intrinsics() { int vectorSize = 256 / 8 / 4; var accVector = Vector256<int>.Zero; int i; var array = Array; fixed (int* ptr = array) { for (i = 0; i < array.Length - vectorSize; i += vectorSize) { var v = Avx2.LoadVector256(ptr + i); accVector = Avx2.Add(accVector, v); } } int result = 0; var temp = stackalloc int[vectorSize]; Avx2.Store(temp, accVector); for (int j = 0; j < vectorSize; j++) { result += temp[j]; } for (; i < array.Length; i++) { result += array[i]; } return result; }

您可以看到它与Vectors非常相似，但有一些例外：

vectorSize由常量给定。这是因为在此方法中显式使用了在256位寄存器上运行的Avx2指令。在实际的应用程序中，应该检查当前的Avx2处理器是否支持指令，如果不支持，则调用另一个代码。看起来像这样：
```
 if (Avx2.IsSupported) { DoThingsForAvx2(); } else if (Avx.IsSupported) { DoThingsForAvx(); } ... else if (Sse2.IsSupported) { DoThingsForSse2(); } ... 
```
var accVector = Vector256 <int> .Zero; accVector声明为填充有零的256位向量。
固定的（int * ptr = Array）-在ptr中输入了指向数组的指针。
然后执行与向量中相同的操作：将数据加载到向量中并添加两个向量。
为了总结向量的元素，使用了以下方法：
- 在堆栈上创建一个数组：var temp = stackalloc int [vectorSize];
- 向量被加载到该数组中：Avx2.Store（temp，accVector）;
- 在一个循环中，将数组的元素相加。
然后将未放在最后一个向量中的数组元素相加

比较两个数组

有必要比较两个字节数组。实际上，这就是问题所在，因此我开始在.NET中学习SIMD。同样，我们将为基准测试编写几种方法，我们将比较两个数组：ArrayA和ArrayB：

最明显的解决方案：

 public bool Naive() { for (int i = 0; i < ArrayA.Length; i++) { if (ArrayA[i] != ArrayB[i]) return false; } return true; }

通过LINQ解决方案：

 public bool LINQ() => ArrayA.SequenceEqual(ArrayB);

通过MemCmp函数的解决方案：

 [DllImport("msvcrt.dll", CallingConvention = CallingConvention.Cdecl)] static extern int memcmp(byte[] b1, byte[] b2, long count); public bool MemCmp() => memcmp(ArrayA, ArrayB, ArrayA.Length) == 0;

使用System.Numerics中的向量：

 public bool Vectors() { int vectorSize = Vector<byte>.Count; int i = 0; for (; i < ArrayA.Length - vectorSize; i += vectorSize) { var va = new Vector<byte>(ArrayA, i); var vb = new Vector<byte>(ArrayB, i); if (!Vector.EqualsAll(va, vb)) { return false; } } for (; i < ArrayA.Length; i++) { if (ArrayA[i] != ArrayB[i]) return false; } return true; }

使用内在函数：

 public unsafe bool Intrinsics() { int vectorSize = 256 / 8; int i = 0; const int equalsMask = unchecked((int) (0b1111_1111_1111_1111_1111_1111_1111_1111)); fixed (byte* ptrA = ArrayA) fixed (byte* ptrB = ArrayB) { for (; i < ArrayA.Length - vectorSize; i += vectorSize) { var va = Avx2.LoadVector256(ptrA + i); var vb = Avx2.LoadVector256(ptrB + i); var areEqual = Avx2.CompareEqual(va, vb); if (Avx2.MoveMask(areEqual) != equalsMask) { return false; } } for (; i < ArrayA.Length; i++) { if (ArrayA[i] != ArrayB[i]) return false; } return true; } }

我计算机上基准测试的结果：

方法	ItemsCount	中位数
天真	10,000	66 719.1 ns
LINQ	10,000	71 211.1 ns
向量	10,000	3 695.8 ns
Memcmp	10,000	600.9 ns
本征	10,000	1 607.5 ns

天真	100,000	588 633.7 ns
LINQ	100,000	651 191.3 ns
向量	100,000	34 659.1 ns
Memcmp	100,000	5 513.6 ns
本征	100,000	12,078.9 ns

天真	1,000,000	5637 293.1 ns
LINQ	1,000,000	6622 666.0 ns
向量	1,000,000	777 974.2 ns
Memcmp	1,000,000	361 704.5 ns
本征	1,000,000	434 252.7 ns

我认为这些方法的所有代码都是可以理解的，除了Intrinsics中的两行：

 var areEqual = Avx2.CompareEqual(va, vb); if (Avx2.MoveMask(areEqual) != equalsMask) { return false; }

首先，比较两个向量的相等性，并将结果存储在areEqual向量中，如果va和vb中的对应元素相等，则在特定位置的元素中所有位都设置为1。事实证明，如果字节va和vb中的向量完全相等，则在areEquals中，所有元素都应等于255（11111111b）。因为 Avx2.CompareEqual是_mm256_cmpeq_epi8的包装，然后在Intel网站上可以看到此操作的伪代码：
向量中的MoveMask方法产生一个32位数字。这些位值是向量的32个单字节元素中每个元素的高位。伪代码可以在这里找到。

因此，如果va和vb中的某些字节不匹配，则在areEqual中对应的字节将为0，因此这些字节的最高有效位也将为0，这意味着Avx2.MoveMask响应中的对应位也将为0并进行比较与equalsMask一起使用将不起作用。

让我们分析一个小例子，假设向量的长度为8个字节（写得更少）：

令va = {100，10，20，30，100，40，50，100}，vb = {100，20，10，30，100，40，80，90};
然后areEqual将等于{255，0，0，255，255，255，0，0};
MoveMask方法将返回10011100b，这需要与掩码11111111b进行比较，因为由于这些掩码不相等，因此，向量va和vb不相等。

计算元素在集合中出现的次数

有时有必要计算在集合中找到特定元素的次数（例如int），此算法也可以加速。让我们写一些比较的方法，我们将在Array数组中查找Item元素。

最明显的：

 public int Naive() { int result = 0; foreach (int i in Array) { if (i == Item) { result++; } } return result; }

使用LINQ：

 public int LINQ() => Array.Count(i => i == Item);

使用System.Numerics.Vectors中的向量：

 public int Vectors() { var mask = new Vector<int>(Item); int vectorSize = Vector<int>.Count; var accResult = new Vector<int>(); int i; var array = Array; for (i = 0; i < array.Length - vectorSize; i += vectorSize) { var v = new Vector<int>(array, i); var areEqual = Vector.Equals(v, mask); accResult = Vector.Subtract(accResult, areEqual); } int result = 0; for (; i < array.Length; i++) { if (array[i] == Item) { result++; } } result += Vector.Dot(accResult, Vector<int>.One); return result; }

使用内在函数：

 public unsafe int Intrinsics() { int vectorSize = 256 / 8 / 4; //var mask = Avx2.SetAllVector256(Item); //var mask = Avx2.SetVector256(Item, Item, Item, Item, Item, Item, Item, Item); var temp = stackalloc int[vectorSize]; for (int j = 0; j < vectorSize; j++) { temp[j] = Item; } var mask = Avx2.LoadVector256(temp); var accVector = Vector256<int>.Zero; int i; var array = Array; fixed (int* ptr = array) { for (i = 0; i < array.Length - vectorSize; i += vectorSize) { var v = Avx2.LoadVector256(ptr + i); var areEqual = Avx2.CompareEqual(v, mask); accVector = Avx2.Subtract(accVector, areEqual); } } int result = 0; Avx2.Store(temp, accVector); for(int j = 0; j < vectorSize; j++) { result += temp[j]; } for(; i < array.Length; i++) { if (array[i] == Item) { result++; } } return result; }

我计算机上基准测试的结果：

方法	ItemsCount	中位数
天真	1000	2 824.41 ns
LINQ	1000	12 138.95 ns
向量	1000	961.50 ns
本征	1000	691.08 ns

天真	10,000	27 072.25 ns
LINQ	10,000	113967.87 ns
向量	10,000	7 571.82 ns
本征	10,000	4,296.71 ns

天真	100,000	361 028.46 ns
LINQ	100,000	1,091,994.28 ns
向量	100,000	82 839.29 ns
本征	100,000	40 307.91 ns

天真	1,000,000	1634 175.46 ns
LINQ	1,000,000	6194257.38 ns
向量	1,000,000	583 901.29 ns
本征	1,000,000	413 520.38 ns

向量和内部方法的逻辑完全相同，不同之处仅在于特定操作的实现。总体而言，该想法是：

创建一个掩码向量，其中将所需数量存储在每个元素中；
将数组的一部分加载到向量v中并与掩码进行比较，然后将所有位设置为areEqual中的相等元素，因为 areEqual是来自int的向量，如果您设置一个元素的所有位，则在该元素中我们将获得-1（（int）（1111_1111_1111_1111_1111_1111_1111_1111b）== -1）;
从accVector中减去向量areEqual，然后accVector将是每个位置上所有向量v中item元素出现的次数的总和（负min表示正数）。

文章中的所有代码都可以在GitHub上找到

结论

我只检查了.NET为矢量化计算提供的可能性中的很小一部分。有关x86下.NETCORE中可用内在函数的完整和最新列表，请参考源代码。方便的是，在每个内在函数摘要的C＃文件中，都有一个自己的名字来自C语言世界，这简化了对该内在函数目的的理解以及将现有C ++ / C算法转换为.NET的过程。 msdn上提供了System.Numerics.Vector文档。

我认为，.NET比C ++具有很大的优势，因为 JIT编译已经在客户端计算机上进行，然后编译器可以针对特定客户端处理器优化代码，从而提供最佳性能。同时，用于编写快速代码的程序员可以保留在一种语言和技术的框架内。

UPD（09/15/2019）：

基准测试有门槛

在基准测试中，我使用了IterationSetup，事实证明，它会大大影响不到100ms的基准测试性能。如果在GlobalSetup上重做，则结果将是这样。

数组元素的总和：

方法	ItemsCount	均值	失误	标准差	比例
天真	10	3.531 ns	0.0336 ns	0.0314纳秒	1.00
LINQ	10	76.925 ns	0.4166纳秒	0.3897 ns	21.79
向量	10	2.750纳秒	0.0210纳秒	0.0196 ns	0.78
本征	10	6.513 ns	0.0623 ns	0.0582 ns	1.84

天真	100	47.982 ns	0.3975纳秒	0.3524 ns	1.00
LINQ	100	590.414 ns	3.8808 ns	3.4402纳秒	12.31
向量	100	10.122 ns	0.0747 ns	0.0699 ns	0.21
本征	100	14.277 ns	0.0566 ns	0.0529 ns	0.30

天真	1000	569.910 ns	2.8297 ns	2.6469 ns	1.00
LINQ	1000	5,658.570 ns	31.7465 ns	29.6957 ns	9.93
向量	1000	79.598 ns	0.3498 ns	0.3272纳秒	0.14
本征	1000	66.970 ns	0.3937纳秒	0.3682纳秒	0.12

天真	10,000	5,637.571 ns	37.5050 ns	29.2814 ns	1.00
LINQ	10,000	56,498.987 ns	294.8776 ns	275.8287 ns	10.02
向量	10,000	772.900 ns	2.6802纳秒	2.5070 ns	0.14
本征	10,000	579.152 ns	2.8371 ns	2.6538 ns	0.10

天真	100,000	56,352.865 ns	230.7916 ns	215.8826 ns	1.00
LINQ	100,000	562,610.571 ns	3,775.7631 ns	3,152.9332 ns	9.98
向量	100,000	8,389.647 ns	165.9590 ns	227.1666 ns	0.15
本征	100,000	7,261.334 ns	89.6468 ns	69.9903 ns	0.13

比较两个数组：

方法	ItemsCount	均值	失误	标准差	比例
天真	10,000	7,033.8 ns	50.636 ns	47.365 ns	1.00
LINQ	10,000	64,841.4 ns	289.157 ns	270.478 ns	9.22
向量	10,000	504.0 ns	2.406纳秒	2.251纳秒	0.07
Memcmp	10,000	368.1 ns	2.637 ns	2.466纳秒	0.05
本征	10,000	283.6 ns	1.135纳秒	1.061纳秒	0.04

天真	100,000	85,214.4 ns	903.868 ns	845.478 ns	1.00
LINQ	100,000	702,279.4 ns	2,846.609 ns	2,662.720 ns	8.24
向量	100,000	5,179.2 ns	45.337 ns	42.409 ns	0.06
Memcmp	100,000	4,510.5 ns	24.292 ns	22.723 ns	0.05
本征	100,000	2,957.0 ns	11.452 ns	10.712 ns	0.03

天真	1,000,000	844,006.1 ns	3,552.478 ns	3,322.990 ns	1.00
LINQ	1,000,000	6,483,079.3 ns	42,641.040 ns	39,886.455 ns	7.68
向量	1,000,000	54,180.1 ns	357.258 ns	334.180 ns	0.06
Memcmp	1,000,000	49,480.1 ns	515.675 ns	457.133 ns	0.06
本征	1,000,000	36,633.9 ns	680.525 ns	636.564 ns	0.04

数组中元素出现的次数：

方法	ItemsCount	均值	失误	标准差	比例
天真	10	8.844纳秒	0.0772纳秒	0.0603 ns	1.00
LINQ	10	87.456 ns	0.9496纳秒	0.8883纳秒	9.89
向量	10	3.140纳秒	0.0406纳秒	0.0380纳秒	0.36
本征	10	13.813 ns	0.0825 ns	0.0772纳秒	1.56

天真	100	107.310 ns	0.6975纳秒	0.6183 ns	1.00
LINQ	100	626.285 ns	5.7677 ns	5.3951 ns	5.83
向量	100	11.844 ns	0.2113纳秒	0.1873纳秒	0.11
本征	100	19.616纳秒	0.1018 ns	0.0903 ns	0.18

天真	1000	1,032.466 ns	6.3799 ns	5.6556 ns	1.00
LINQ	1000	6,266.605 ns	42.6585 ns	39.9028 ns	6.07
向量	1000	83.417 ns	0.5393纳秒	0.4780纳秒	0.08
本征	1000	88.358 ns	0.4921纳秒	0.4603纳秒	0.09

天真	10,000	9,942.503 ns	47.9732 ns	40.0598 ns	1.00
LINQ	10,000	62,305.598 ns	643.8775 ns	502.6972 ns	6.27
向量	10,000	914.967 ns	7.2959 ns	6.8246 ns	0.09
本征	10,000	931.698 ns	6.3444 ns	5.9346 ns	0.09

天真	100,000	94,834.804 ns	793.8585 ns	703.7349 ns	1.00
LINQ	100,000	626,620.968 ns	4,696.9221 ns	4,393.5038 ns	6.61
向量	100,000	9,000.827 ns	179.5351 ns	192.1005 ns	0.09
本征	100,000	8,690.771 ns	101.7078 ns	95.1376 ns	0.09

天真	1,000,000	959,302.249 ns	4,268.2488 ns	3,783.6914 ns	1.00
LINQ	1,000,000	6,218,681.888 ns	31,321.9277 ns	29,298.5506 ns	6.48
向量	1,000,000	99,778.488 ns	1,975.6001 ns	4,252.6877 ns	0.10
本征	1,000,000	96,449.350 ns	1,171.8067 ns	978.5116 ns	0.10

.NET / C＃中的SIMD概述

一点历史

总结数组的元素

比较两个数组

计算元素在集合中出现的次数

结论

More articles: