🌂 ⚗️ 👼🏿 Una pequeña descripción de SIMD en .NET / C # ⏏️ 🙆🏻 ⚾️

Su atención es invitada a una pequeña descripción de las capacidades de vectorización de algoritmos en .NET Framework y .NETCORE. El propósito del artículo es presentar estas técnicas a aquellos que no las conocían en absoluto y mostrar que .NET no va muy por detrás de los lenguajes "reales, compilados" para los nativos.
desarrollo

Estoy empezando a aprender técnicas de vectorización, por lo que si alguien de la comunidad me señala un canto explícito o sugiere versiones mejoradas de los algoritmos que se describen a continuación, estaré muy feliz.

Un poco de historia

En .NET, SIMD apareció por primera vez en 2015 con el lanzamiento de .NET Framework 4.6. Luego se agregaron los tipos Matrix3x2, Matrix4x4, Plane, Quaternion, Vector2, Vector3 y Vector4, lo que permitió la construcción de cálculos vectorizados. Más tarde, se agregó el tipo Vector <T>, que proporcionó más oportunidades para vectorizar algoritmos. Pero muchos programadores todavía estaban descontentos porque los tipos anteriores limitaron el flujo de pensamientos del programador y no permitieron el uso completo de las instrucciones SIMD de los procesadores modernos. Ya en nuestro tiempo, en .NET Core 3.0 Preview, ha aparecido el espacio de nombres System.Runtime.Intrinsics, que proporciona mucha más libertad para elegir instrucciones. Para obtener los mejores resultados en velocidad, debe usar RyuJit y construir en x64 o desactivar Prefer 32-bit y construir en AnyCPU. Todos los puntos de referencia que ejecuté en una computadora con un procesador Intel Core i7-6700 3.40GHz (Skylake).

Resumir los elementos de la matriz.

Decidí comenzar con el problema clásico, que a menudo se escribe primero cuando se trata de vectorización. Esta es la tarea de encontrar la suma de los elementos de la matriz. Escribiremos cuatro implementaciones de esta tarea, resumiremos los elementos de la matriz Array:

Más obvio

public int Naive() { int result = 0; foreach (int i in Array) { result += i; } return result; }

Usando LINQ

 public long LINQ() => Array.Aggregate<int, long>(0, (current, i) => current + i);

Usando vectores de System.Numerics:

 public int Vectors() { int vectorSize = Vector<int>.Count; var accVector = Vector<int>.Zero; int i; var array = Array; for (i = 0; i < array.Length - vectorSize; i += vectorSize) { var v = new Vector<int>(array, i); accVector = Vector.Add(accVector, v); } int result = Vector.Dot(accVector, Vector<int>.One); for (; i < array.Length; i++) { result += array[i]; } return result; }

Usando código del espacio System.Runtime.Intrinsics:

 public unsafe int Intrinsics() { int vectorSize = 256 / 8 / 4; var accVector = Vector256<int>.Zero; int i; var array = Array; fixed (int* ptr = array) { for (i = 0; i < array.Length - vectorSize; i += vectorSize) { var v = Avx2.LoadVector256(ptr + i); accVector = Avx2.Add(accVector, v); } } int result = 0; var temp = stackalloc int[vectorSize]; Avx2.Store(temp, accVector); for (int j = 0; j < vectorSize; j++) { result += temp[j]; } for (; i < array.Length; i++) { result += array[i]; } return result; }

Lancé un punto de referencia sobre estos 4 métodos en mi computadora y obtuve este resultado:

Método	ItemsCount	Mediana
Ingenuo	10	75,12 ns
LINQ	10	1 186.85 ns
Vectores	10	60.09 ns
Intrínseca	10	255,40 ns

Ingenuo	100	360.56 ns
LINQ	100	2 719,24 ns
Vectores	100	60.09 ns
Intrínseca	100	345,54 ns

Ingenuo	1000	1 847,88 ns
LINQ	1000	12 033,78 ns
Vectores	1000	240,38 ns
Intrínseca	1000	630.98 ns

Ingenuo	10,000	18 403,72 ns
LINQ	10,000	102 489,96 ns
Vectores	10,000	7 316,42 ns
Intrínseca	10,000	3 365.25 ns

Ingenuo	100,000	176 630,67 ns
LINQ	100,000	975 998,24 ns
Vectores	100,000	78 828,03 ns
Intrínseca	100,000	41 269,41 ns

Se puede ver que las soluciones con vectores e intrínsecos son mucho más rápidas que la solución obvia y con LINQ. Ahora tenemos que descubrir qué sucede en estos dos métodos.

Considere el método de Vectores con más detalle:

Vectores

 public int Vectors() { int vectorSize = Vector<int>.Count; var accVector = Vector<int>.Zero; int i; var array = Array; for (i = 0; i < array.Length - vectorSize; i += vectorSize) { var v = new Vector<int>(array, i); accVector = Vector.Add(accVector, v); } int result = Vector.Dot(accVector, Vector<int>.One); for (; i < array.Length; i++) { result += array[i]; } return result; }

int vectorSize = Vector <int> .Count; - esta es la cantidad de números de 4 bytes que podemos poner en un vector. Si se usa la aceleración de hardware, este valor muestra cuántos números de 4 bytes se pueden colocar en un registro SIMD. De hecho, muestra cuántos elementos de este tipo puede realizar operaciones en paralelo;
accVector: un vector en el que se acumulará el resultado de la función;
var v = nuevo Vector <int> (matriz, i); - los datos se cargan en un nuevo vector v, desde la matriz, comenzando desde el índice i. Se cargarán exactamente los datos de vectorSize.
accVector = Vector.Add (accVector, v); - Se añaden dos vectores.
Por ejemplo, en la matriz se almacenan 8 números: {0, 1, 2, 3, 4, 5, 6, 7} y vectorSize == 4, luego:
En la primera iteración del bucle accVector = {0, 0, 0, 0}, v = {0, 1, 2, 3}, después de la adición en accVector será: {0, 0, 0, 0} + {0, 1, 2 , 3} = {0, 1, 2, 3}.
En la segunda iteración, v = {4, 5, 6, 7} y después de la suma accVector = {0, 1, 2, 3} + {4, 5, 6, 7} = {4, 6, 8, 10}.
Solo queda obtener de alguna manera la suma de todos los elementos del vector, para esto podemos aplicar la multiplicación escalar por un vector lleno de unidades: int result = Vector.Dot (accVector, Vector <int> .One);
Entonces resulta: {4, 6, 8, 10} {1, 1, 1, 1} = 4 1 + 6 1 + 8 1 + 10 * 1 = 28.
Al final, si es necesario, se suman los números que no caben en el último vector.

Si nos fijamos en el código del método intrínseco:

Intrínseca

 public unsafe int Intrinsics() { int vectorSize = 256 / 8 / 4; var accVector = Vector256<int>.Zero; int i; var array = Array; fixed (int* ptr = array) { for (i = 0; i < array.Length - vectorSize; i += vectorSize) { var v = Avx2.LoadVector256(ptr + i); accVector = Avx2.Add(accVector, v); } } int result = 0; var temp = stackalloc int[vectorSize]; Avx2.Store(temp, accVector); for (int j = 0; j < vectorSize; j++) { result += temp[j]; } for (; i < array.Length; i++) { result += array[i]; } return result; }

Puede ver que es muy similar a Vectores con algunas excepciones:

vectorSize está dado por constante. Esto se debe a que las instrucciones Avx2 que operan en registros de 256 bits se usan explícitamente en este método. En una aplicación real, debería verificarse si el procesador Avx2 actual admite instrucciones y, si no, llamar a otro código. Se parece a esto:
```
 if (Avx2.IsSupported) { DoThingsForAvx2(); } else if (Avx.IsSupported) { DoThingsForAvx(); } ... else if (Sse2.IsSupported) { DoThingsForSse2(); } ... 
```
var accVector = Vector256 <int> .Zero; accVector se declara como un vector de 256 bits lleno de ceros.
fixed (int * ptr = Array): se ingresa un puntero a una matriz en ptr.
Luego, las mismas operaciones que en Vectores: cargar datos en un vector y agregar dos vectores.
Para resumir los elementos del vector se aplicó el siguiente método:
- se crea una matriz en la pila: var temp = stackalloc int [vectorSize];
- el vector se carga en esta matriz: Avx2.Store (temp, accVector);
- en un bucle se suman los elementos de la matriz.
entonces se suman los elementos de la matriz que no se colocan en el último vector

Compara dos matrices

Es necesario comparar dos matrices de bytes. En realidad, este es el problema por el cual comencé a aprender SIMD en .NET. Nuevamente, escribiremos varios métodos para el punto de referencia, compararemos dos matrices: ArrayA y ArrayB:

La solución más obvia:

 public bool Naive() { for (int i = 0; i < ArrayA.Length; i++) { if (ArrayA[i] != ArrayB[i]) return false; } return true; }

Solución a través de LINQ:

 public bool LINQ() => ArrayA.SequenceEqual(ArrayB);

Solución a través de la función MemCmp:

 [DllImport("msvcrt.dll", CallingConvention = CallingConvention.Cdecl)] static extern int memcmp(byte[] b1, byte[] b2, long count); public bool MemCmp() => memcmp(ArrayA, ArrayB, ArrayA.Length) == 0;

Usando vectores de System.Numerics:

 public bool Vectors() { int vectorSize = Vector<byte>.Count; int i = 0; for (; i < ArrayA.Length - vectorSize; i += vectorSize) { var va = new Vector<byte>(ArrayA, i); var vb = new Vector<byte>(ArrayB, i); if (!Vector.EqualsAll(va, vb)) { return false; } } for (; i < ArrayA.Length; i++) { if (ArrayA[i] != ArrayB[i]) return false; } return true; }

Usando intrínsecos:

 public unsafe bool Intrinsics() { int vectorSize = 256 / 8; int i = 0; const int equalsMask = unchecked((int) (0b1111_1111_1111_1111_1111_1111_1111_1111)); fixed (byte* ptrA = ArrayA) fixed (byte* ptrB = ArrayB) { for (; i < ArrayA.Length - vectorSize; i += vectorSize) { var va = Avx2.LoadVector256(ptrA + i); var vb = Avx2.LoadVector256(ptrB + i); var areEqual = Avx2.CompareEqual(va, vb); if (Avx2.MoveMask(areEqual) != equalsMask) { return false; } } for (; i < ArrayA.Length; i++) { if (ArrayA[i] != ArrayB[i]) return false; } return true; } }

El resultado del benchmark en mi computadora:

Método	ItemsCount	Mediana
Ingenuo	10,000	66 719,1 ns
LINQ	10,000	71 211,1 ns
Vectores	10,000	3 695.8 ns
Memcmp	10,000	600,9 ns
Intrínseca	10,000	1 607,5 ns

Ingenuo	100,000	588 633,7 ns
LINQ	100,000	651 191.3 ns
Vectores	100,000	34 659,1 ns
Memcmp	100,000	5 513,6 ns
Intrínseca	100,000	12,078.9 ns

Ingenuo	1,000,000	5 637 293,1 ns
LINQ	1,000,000	6 622 666,0 ns
Vectores	1,000,000	777 974,2 ns
Memcmp	1,000,000	361 704,5 ns
Intrínseca	1,000,000	434 252,7 ns

Creo que todo el código para estos métodos es comprensible, con la excepción de dos líneas en intrínsecos:

 var areEqual = Avx2.CompareEqual(va, vb); if (Avx2.MoveMask(areEqual) != equalsMask) { return false; }

En el primero, se comparan dos vectores para igualdad y el resultado se almacena en el vector areEqual, en el que todos los bits se establecen en 1 en un elemento en una posición específica si los elementos correspondientes en va y vb son iguales. Resulta que si los vectores de los bytes va y vb son completamente iguales, entonces en areEquals todos los elementos deberían ser iguales a 255 (11111111b). Porque Avx2.CompareEqual es un contenedor sobre _mm256_cmpeq_epi8, luego en el sitio de Intel puede ver el pseudocódigo de esta operación:
El método MoveMask de un vector crea un número de 32 bits. Los valores de bits son los bits altos de cada uno de los 32 elementos de un solo byte del vector. El pseudocódigo se puede encontrar aquí .

Por lo tanto, si algunos bytes en va y vb no coinciden, en areEqual los bytes correspondientes serán 0, por lo tanto, los bits más significativos de estos bytes también serán 0, lo que significa que los bits correspondientes en la respuesta Avx2.MoveMask también serán 0 y la comparación con equalsMask no funcionará.

Analicemos un pequeño ejemplo, suponiendo que la longitud del vector es de 8 bytes (para escribirlo fue menor):

Sea va = {100, 10, 20, 30, 100, 40, 50, 100}, y vb = {100, 20, 10, 30, 100, 40, 80, 90};
Entonces areEqual será igual a {255, 0, 0, 255, 255, 255, 0, 0};
El método MoveMask devolverá 10011100b, que deberá compararse con la máscara 11111111b, porque Como estas máscaras son desiguales, resulta que los vectores va y vb no son iguales.

Cuente cuántas veces ocurre un elemento en la colección

A veces es necesario calcular cuántas veces se encuentra un elemento en particular en una colección, por ejemplo, ints, este algoritmo también se puede acelerar. Escribamos algunos métodos para comparar, buscaremos el elemento Item en la matriz de Array.

Lo más obvio:

 public int Naive() { int result = 0; foreach (int i in Array) { if (i == Item) { result++; } } return result; }

usando LINQ:

 public int LINQ() => Array.Count(i => i == Item);

utilizando vectores de System.Numerics.Vectors:

 public int Vectors() { var mask = new Vector<int>(Item); int vectorSize = Vector<int>.Count; var accResult = new Vector<int>(); int i; var array = Array; for (i = 0; i < array.Length - vectorSize; i += vectorSize) { var v = new Vector<int>(array, i); var areEqual = Vector.Equals(v, mask); accResult = Vector.Subtract(accResult, areEqual); } int result = 0; for (; i < array.Length; i++) { if (array[i] == Item) { result++; } } result += Vector.Dot(accResult, Vector<int>.One); return result; }

Usando intrínsecos:

 public unsafe int Intrinsics() { int vectorSize = 256 / 8 / 4; //var mask = Avx2.SetAllVector256(Item); //var mask = Avx2.SetVector256(Item, Item, Item, Item, Item, Item, Item, Item); var temp = stackalloc int[vectorSize]; for (int j = 0; j < vectorSize; j++) { temp[j] = Item; } var mask = Avx2.LoadVector256(temp); var accVector = Vector256<int>.Zero; int i; var array = Array; fixed (int* ptr = array) { for (i = 0; i < array.Length - vectorSize; i += vectorSize) { var v = Avx2.LoadVector256(ptr + i); var areEqual = Avx2.CompareEqual(v, mask); accVector = Avx2.Subtract(accVector, areEqual); } } int result = 0; Avx2.Store(temp, accVector); for(int j = 0; j < vectorSize; j++) { result += temp[j]; } for(; i < array.Length; i++) { if (array[i] == Item) { result++; } } return result; }

El resultado del benchmark en mi computadora:

Método	ItemsCount	Mediana
Ingenuo	1000	2 824,41 ns
LINQ	1000	12 138.95 ns
Vectores	1000	961.50 ns
Intrínseca	1000	691.08 ns

Ingenuo	10,000	27 072.25 ns
LINQ	10,000	113 967,87 ns
Vectores	10,000	7 571,82 ns
Intrínseca	10,000	4.296,71 ns

Ingenuo	100,000	361 028,46 ns
LINQ	100,000	1.091.994,28 ns
Vectores	100,000	82 839,29 ns
Intrínseca	100,000	40 307,91 ns

Ingenuo	1,000,000	1 634 175,46 ns
LINQ	1,000,000	6 194 257,38 ns
Vectores	1,000,000	583 901,29 ns
Intrínseca	1,000,000	413 520,38 ns

Los métodos de Vectores e Intrínsecos son completamente idénticos en lógica, las diferencias están solo en la implementación de operaciones específicas. La idea en su conjunto es:

se crea un vector de máscara en el que se almacena el número requerido en cada elemento;
La parte de la matriz se carga en el vector v y se compara con la máscara, luego todos los bits se establecerán en elementos iguales en areEqual, porque areEqual es un vector de ints, entonces si configura todos los bits de un elemento, obtenemos -1 en este elemento ((int) (1111_1111_1111_1111_1111_1111_1111_1111b) == -1);
el vector areEqual se resta de accVector y luego accVector será la suma de cuántas veces se produjo el elemento elemento en todos los vectores v para cada posición (menos min da un plus).

Todo el código del artículo se puede encontrar en GitHub

Conclusión

Examiné solo una parte muy pequeña de las posibilidades que ofrece .NET para los cálculos de vectorización. Para obtener una lista completa y actualizada de intrínsecos disponibles en .NETCORE bajo x86, puede consultar el código fuente . Es conveniente que en los archivos C # en el resumen de cada intrínseco haya su propio nombre del mundo de C, lo que simplifica la comprensión del propósito de este intrínseco y la traducción de los algoritmos C ++ / C existentes a .NET. La documentación de System.Numerics.Vector está disponible en msdn .

En mi opinión, .NET tiene una gran ventaja sobre C ++, porque La compilación JIT ya tiene lugar en la máquina del cliente, el compilador puede optimizar el código para un procesador de cliente específico, proporcionando el máximo rendimiento. Al mismo tiempo, un programador para escribir código rápido puede permanecer dentro del marco de un lenguaje y tecnología.

UPD (15/09/2019):

Había una jamba en los puntos de referencia

En los puntos de referencia, usé IterationSetup, que, como resultó, puede afectar en gran medida el rendimiento de los puntos de referencia que funcionan en menos de 100 ms. Si lo rehace en GlobalSetup, los resultados serán así.

Suma de elementos de matriz:

Método	ItemsCount	Media	Error	Stddev	Ratio
Ingenuo	10	3.531 ns	0.0336 ns	0.0314 ns	1.00
LINQ	10	76,925 ns	0.4166 ns	0.3897 ns	21,79
Vectores	10	2.750 ns	0.0210 ns	0,0196 ns	0,78
Intrínseca	10	6.513 ns	0.0623 ns	0,0582 ns	1,84

Ingenuo	100	47,982 ns	0.3975 ns	0.3524 ns	1.00
LINQ	100	590.414 ns	3.8808 ns	3.4402 ns	12,31
Vectores	100	10.122 ns	0.0747 ns	0.0699 ns	0,21
Intrínseca	100	14,277 ns	0.0566 ns	0.0529 ns	0,30

Ingenuo	1000	569.910 ns	2.8297 ns	2.6469 ns	1.00
LINQ	1000	5,658.570 ns	31.7465 ns	29.6957 ns	9,93
Vectores	1000	79.598 ns	0.3498 ns	0.3272 ns	0,14
Intrínseca	1000	66,970 ns	0.3937 ns	0.3682 ns	0,12

Ingenuo	10,000	5.637.571 ns	37.5050 ns	29.2814 ns	1.00
LINQ	10,000	56.498.987 ns	294.8776 ns	275.8287 ns	10.02
Vectores	10,000	772.900 ns	2.6802 ns	2.5070 ns	0,14
Intrínseca	10,000	579.152 ns	2.8371 ns	2.6538 ns	0,10

Ingenuo	100,000	56,352.865 ns	230.7916 ns	215.8826 ns	1.00
LINQ	100,000	562,610.571 ns	3.775,7631 ns	3.152,9332 ns	9,98
Vectores	100,000	8.389.647 ns	165.9590 ns	227.1666 ns	0,15
Intrínseca	100,000	7.261.334 ns	89.6468 ns	69.9903 ns	0,13

Comparando dos matrices:

Método	ItemsCount	Media	Error	Stddev	Ratio
Ingenuo	10,000	7.033,8 ns	50.636 ns	47.365 ns	1.00
LINQ	10,000	64.841,4 ns	289.157 ns	270.478 ns	9.22
Vectores	10,000	504.0 ns	2.406 ns	2.251 ns	0,07
Memcmp	10,000	368,1 ns	2.637 ns	2.466 ns	0,05
Intrínseca	10,000	283,6 ns	1.135 ns	1.061 ns	0,04

Ingenuo	100,000	85,214.4 ns	903.868 ns	845.478 ns	1.00
LINQ	100,000	702,279.4 ns	2,846.609 ns	2,662.720 ns	8.24
Vectores	100,000	5.179,2 ns	45,337 ns	42,409 ns	0,06
Memcmp	100,000	4,510.5 ns	24.292 ns	22.723 ns	0,05
Intrínseca	100,000	2,957.0 ns	11.452 ns	10.712 ns	0,03

Ingenuo	1,000,000	844,006.1 ns	3,552.478 ns	3.322,990 ns	1.00
LINQ	1,000,000	6.483.079,3 ns	42,641.040 ns	39,886.455 ns	7.68
Vectores	1,000,000	54,180.1 ns	357.258 ns	334,180 ns	0,06
Memcmp	1,000,000	49,480.1 ns	515.675 ns	457.133 ns	0,06
Intrínseca	1,000,000	36,633.9 ns	680.525 ns	636.564 ns	0,04

El número de ocurrencias de un elemento en una matriz:

Método	ItemsCount	Media	Error	Stddev	Ratio
Ingenuo	10	8.844 ns	0,0772 ns	0.0603 ns	1.00
LINQ	10	87.456 ns	0.9496 ns	0.8883 ns	9,89
Vectores	10	3.140 ns	0,0406 ns	0.0380 ns	0,36
Intrínseca	10	13.813 ns	0.0825 ns	0,0772 ns	1,56

Ingenuo	100	107,310 ns	0,6975 ns	0.6183 ns	1.00
LINQ	100	626.285 ns	5.7677 ns	5.3951 ns	5.83
Vectores	100	11.844 ns	0.2113 ns	0.1873 ns	0,11
Intrínseca	100	19,616 ns	0.1018 ns	0,0903 ns	0,18

Ingenuo	1000	1,032.466 ns	6.3799 ns	5.6556 ns	1.00
LINQ	1000	6.266,605 ns	42.6585 ns	39.9028 ns	6.07
Vectores	1000	83,417 ns	0.5393 ns	0.4780 ns	0,08
Intrínseca	1000	88.358 ns	0.4921 ns	0.4603 ns	0,09

Ingenuo	10,000	9,942.503 ns	47,9732 ns	40.0598 ns	1.00
LINQ	10,000	62,305.598 ns	643.8775 ns	502.6972 ns	6.27
Vectores	10,000	914.967 ns	7.2959 ns	6.8246 ns	0,09
Intrínseca	10,000	931.698 ns	6.3444 ns	5.9346 ns	0,09

Ingenuo	100,000	94,834.804 ns	793.8585 ns	703.7349 ns	1.00
LINQ	100,000	626,620.968 ns	4,696.9221 ns	4,393.5038 ns	6.61
Vectores	100,000	9,000.827 ns	179.5351 ns	192.1005 ns	0,09
Intrínseca	100,000	8.690.771 ns	101.7078 ns	95.1376 ns	0,09

Ingenuo	1,000,000	959,302.249 ns	4.268.2488 ns	3.783,6914 ns	1.00
LINQ	1,000,000	6.218.681.888 ns	31,321.9277 ns	29,298.5506 ns	6.48
Vectores	1,000,000	99,778.488 ns	1,975.6001 ns	4,252.6877 ns	0,10
Intrínseca	1,000,000	96,449.350 ns	1,171.8067 ns	978.5116 ns	0,10

Una pequeña descripción de SIMD en .NET / C #

Un poco de historia

Resumir los elementos de la matriz.

Compara dos matrices

Cuente cuántas veces ocurre un elemento en la colección

Conclusión

More articles: