🤹🏻 🙅🏼 🧒🏿 Un petit aperçu de SIMD en .NET / C # 👸🏻 🧖🏻 👨🏻‍🔧

Nous vous proposons un petit aperçu des capacités de vectorisation d'algorithmes dans le .NET Framework et .NETCORE. Le but de l'article est de présenter ces techniques à ceux qui ne les connaissaient pas du tout et de montrer que .NET n'est pas loin derrière les "vrais, compilés" langages pour le natif
développement.

Je commence tout juste à apprendre les techniques de vectorisation, donc si quelqu'un de la communauté me pointe vers un dévers explicite ou suggère des versions améliorées des algorithmes décrits ci-dessous, je serai extrêmement heureux.

Un peu d'histoire

Dans .NET, SIMD est apparu pour la première fois en 2015 avec la sortie du .NET Framework 4.6. Ensuite, les types Matrix3x2, Matrix4x4, Plane, Quaternion, Vector2, Vector3 et Vector4 ont été ajoutés, ce qui a permis la construction de calculs vectorisés. Plus tard, le type Vector <T> a été ajouté, ce qui a fourni plus d'opportunités pour la vectorisation d'algorithmes. Mais de nombreux programmeurs étaient toujours mécontents car les types ci-dessus limitaient le flux de pensées du programmeur et ne permettaient pas d'utiliser toute la puissance des instructions SIMD des processeurs modernes. Déjà à notre époque, dans l'aperçu .NET Core 3.0, l'espace de noms System.Runtime.Intrinsics est apparu, ce qui offre une plus grande liberté dans le choix des instructions. Pour obtenir les meilleurs résultats de vitesse, vous devez utiliser RyuJit et soit construire sur x64, soit désactiver Prefer 32 bits et construire sur AnyCPU. Toutes les références que j'ai exécutées sur un ordinateur avec un processeur Intel Core i7-6700 à 3,40 GHz (Skylake).

Résumer les éléments du tableau

J'ai décidé de commencer par le problème classique, qui est souvent écrit en premier quand il s'agit de vectorisation. C'est la tâche de trouver la somme des éléments du tableau. Nous écrirons quatre implémentations de cette tâche, nous résumerons les éléments du tableau Array:

Le plus évident

public int Naive() { int result = 0; foreach (int i in Array) { result += i; } return result; }

Utilisation de LINQ

 public long LINQ() => Array.Aggregate<int, long>(0, (current, i) => current + i);

Utilisation de vecteurs de System.Numerics:

 public int Vectors() { int vectorSize = Vector<int>.Count; var accVector = Vector<int>.Zero; int i; var array = Array; for (i = 0; i < array.Length - vectorSize; i += vectorSize) { var v = new Vector<int>(array, i); accVector = Vector.Add(accVector, v); } int result = Vector.Dot(accVector, Vector<int>.One); for (; i < array.Length; i++) { result += array[i]; } return result; }

À l'aide du code de l'espace System.Runtime.Intrinsics:

 public unsafe int Intrinsics() { int vectorSize = 256 / 8 / 4; var accVector = Vector256<int>.Zero; int i; var array = Array; fixed (int* ptr = array) { for (i = 0; i < array.Length - vectorSize; i += vectorSize) { var v = Avx2.LoadVector256(ptr + i); accVector = Avx2.Add(accVector, v); } } int result = 0; var temp = stackalloc int[vectorSize]; Avx2.Store(temp, accVector); for (int j = 0; j < vectorSize; j++) { result += temp[j]; } for (; i < array.Length; i++) { result += array[i]; } return result; }

J'ai lancé un benchmark sur ces 4 méthodes sur mon ordinateur et j'ai obtenu ce résultat:

La méthode	ItemsCount	Médiane
Naïf	10	75,12 ns
LINQ	10	1 186,85 ns
Vecteurs	10	60,09 ns
Intrinsèque	10	255,40 ns

Naïf	100	360,56 ns
LINQ	100	2 719,24 ns
Vecteurs	100	60,09 ns
Intrinsèque	100	345,54 ns

Naïf	1000	1 847,88 ns
LINQ	1000	12 033,78 ns
Vecteurs	1000	240,38 ns
Intrinsèque	1000	630,98 ns

Naïf	10 000	18 403,72 ns
LINQ	10 000	102 489,96 ns
Vecteurs	10 000	7 316,42 ns
Intrinsèque	10 000	3 365,25 ns

Naïf	100 000	176 630,67 ns
LINQ	100 000	975 998,24 ns
Vecteurs	100 000	78 828,03 ns
Intrinsèque	100 000	41 269,41 ns

On peut voir que les solutions avec vecteurs et intrinsèque sont beaucoup plus rapides que la solution évidente et avec LINQ. Maintenant, nous devons comprendre ce qui se passe dans ces deux méthodes.

Considérez la méthode Vectors plus en détail:

Vecteurs

 public int Vectors() { int vectorSize = Vector<int>.Count; var accVector = Vector<int>.Zero; int i; var array = Array; for (i = 0; i < array.Length - vectorSize; i += vectorSize) { var v = new Vector<int>(array, i); accVector = Vector.Add(accVector, v); } int result = Vector.Dot(accVector, Vector<int>.One); for (; i < array.Length; i++) { result += array[i]; } return result; }

int vectorSize = Vector <int> .Count; - c'est le nombre de 4 octets que nous pouvons mettre dans un vecteur. Si l'accélération matérielle est utilisée, cette valeur indique le nombre de nombres à 4 octets pouvant être placés dans un registre SIMD. En fait, il montre combien d'éléments de ce type vous pouvez effectuer des opérations en parallèle;
accVector - un vecteur dans lequel le résultat de la fonction s'accumulera;
var v = nouveau vecteur <int> (tableau, i); - les données sont chargées dans un nouveau vecteur v, à partir du tableau, à partir de l'index i. Les données vectorSize seront chargées exactement.
accVector = Vector.Add (accVector, v); - deux vecteurs sont ajoutés.
Par exemple, dans le tableau 8, les nombres sont stockés: {0, 1, 2, 3, 4, 5, 6, 7} et vectorSize == 4, puis:
Dans la première itération de la boucle accVector = {0, 0, 0, 0}, v = {0, 1, 2, 3}, après addition dans accVector ce sera: {0, 0, 0, 0} + {0, 1, 2 , 3} = {0, 1, 2, 3}.
Dans la deuxième itération, v = {4, 5, 6, 7} et après addition, accVector = {0, 1, 2, 3} + {4, 5, 6, 7} = {4, 6, 8, 10}.
Il ne reste plus qu'à obtenir en quelque sorte la somme de tous les éléments du vecteur, pour cela nous pouvons appliquer la multiplication scalaire par un vecteur rempli d'unités: int result = Vector.Dot (accVector, Vector <int> .One);
Il s'avère alors: {4, 6, 8, 10} {1, 1, 1, 1} = 4 1 + 6 1 + 8 1 + 10 * 1 = 28.
En fin de compte, si nécessaire, des nombres sont ajoutés qui ne correspondent pas au dernier vecteur.

Si vous regardez le code de la méthode intrinsèque:

Intrinsèque

 public unsafe int Intrinsics() { int vectorSize = 256 / 8 / 4; var accVector = Vector256<int>.Zero; int i; var array = Array; fixed (int* ptr = array) { for (i = 0; i < array.Length - vectorSize; i += vectorSize) { var v = Avx2.LoadVector256(ptr + i); accVector = Avx2.Add(accVector, v); } } int result = 0; var temp = stackalloc int[vectorSize]; Avx2.Store(temp, accVector); for (int j = 0; j < vectorSize; j++) { result += temp[j]; } for (; i < array.Length; i++) { result += array[i]; } return result; }

Vous pouvez voir qu'il est très similaire aux vecteurs à quelques exceptions près:

vectorSize est donné par constante. En effet, les instructions Avx2 qui fonctionnent sur des registres 256 bits sont explicitement utilisées dans cette méthode. Dans une application réelle, il devrait y avoir une vérification pour voir si le processeur Avx2 actuel prend en charge les instructions et, sinon, appeler un autre code. Cela ressemble à ceci:
```
 if (Avx2.IsSupported) { DoThingsForAvx2(); } else if (Avx.IsSupported) { DoThingsForAvx(); } ... else if (Sse2.IsSupported) { DoThingsForSse2(); } ... 
```
var accVector = Vector256 <int> .Zero; accVector est déclaré comme un vecteur 256 bits rempli de zéros.
fixed (int * ptr = Array) - un pointeur vers un tableau est entré dans ptr.
Puis les mêmes opérations que dans Vectors: charger des données dans un vecteur et ajouter deux vecteurs.
Pour résumer les éléments du vecteur, la méthode suivante a été appliquée:
- un tableau est créé sur la pile: var temp = stackalloc int [vectorSize];
- le vecteur est chargé dans ce tableau: Avx2.Store (temp, accVector);
- dans une boucle, les éléments du tableau sont additionnés.
puis les éléments du tableau qui ne sont pas placés dans le dernier vecteur sont additionnés

Comparez deux tableaux

Il est nécessaire de comparer deux tableaux d'octets. En fait, c'est le problème à cause duquel j'ai commencé à apprendre SIMD dans .NET. Encore une fois, nous écrirons plusieurs méthodes pour le benchmark, nous comparerons deux tableaux: ArrayA et ArrayB:

La solution la plus évidente:

 public bool Naive() { for (int i = 0; i < ArrayA.Length; i++) { if (ArrayA[i] != ArrayB[i]) return false; } return true; }

Solution via LINQ:

 public bool LINQ() => ArrayA.SequenceEqual(ArrayB);

Solution via la fonction MemCmp:

 [DllImport("msvcrt.dll", CallingConvention = CallingConvention.Cdecl)] static extern int memcmp(byte[] b1, byte[] b2, long count); public bool MemCmp() => memcmp(ArrayA, ArrayB, ArrayA.Length) == 0;

Utilisation de vecteurs de System.Numerics:

 public bool Vectors() { int vectorSize = Vector<byte>.Count; int i = 0; for (; i < ArrayA.Length - vectorSize; i += vectorSize) { var va = new Vector<byte>(ArrayA, i); var vb = new Vector<byte>(ArrayB, i); if (!Vector.EqualsAll(va, vb)) { return false; } } for (; i < ArrayA.Length; i++) { if (ArrayA[i] != ArrayB[i]) return false; } return true; }

Utilisation de l'intrinsèque:

 public unsafe bool Intrinsics() { int vectorSize = 256 / 8; int i = 0; const int equalsMask = unchecked((int) (0b1111_1111_1111_1111_1111_1111_1111_1111)); fixed (byte* ptrA = ArrayA) fixed (byte* ptrB = ArrayB) { for (; i < ArrayA.Length - vectorSize; i += vectorSize) { var va = Avx2.LoadVector256(ptrA + i); var vb = Avx2.LoadVector256(ptrB + i); var areEqual = Avx2.CompareEqual(va, vb); if (Avx2.MoveMask(areEqual) != equalsMask) { return false; } } for (; i < ArrayA.Length; i++) { if (ArrayA[i] != ArrayB[i]) return false; } return true; } }

Le résultat du benchmark sur mon ordinateur:

La méthode	ItemsCount	Médiane
Naïf	10 000	66 719,1 ns
LINQ	10 000	71 211,1 ns
Vecteurs	10 000	3 695,8 ns
Memcmp	10 000	600,9 ns
Intrinsèque	10 000	1 607,5 ns

Naïf	100 000	588 633,7 ns
LINQ	100 000	651 191,3 ns
Vecteurs	100 000	34 659,1 ns
Memcmp	100 000	5 513,6 ns
Intrinsèque	100 000	12078,9 ns

Naïf	1 000 000	5 637 293,1 ns
LINQ	1 000 000	6 622 666,0 ns
Vecteurs	1 000 000	777 974,2 ns
Memcmp	1 000 000	361 704,5 ns
Intrinsèque	1 000 000	434 252,7 ns

Tout le code de ces méthodes, je pense, est compréhensible, à l'exception de deux lignes en Intrinsics:

 var areEqual = Avx2.CompareEqual(va, vb); if (Avx2.MoveMask(areEqual) != equalsMask) { return false; }

Dans le premier, deux vecteurs sont comparés pour l'égalité et le résultat est stocké dans le vecteur areEqual, dans lequel tous les bits sont mis à 1 dans un élément à une position spécifique si les éléments correspondants dans va et vb sont égaux. Il s'avère que si les vecteurs des octets va et vb sont complètement égaux, alors dans areEquals tous les éléments doivent être égaux à 255 (11111111b). Parce que Avx2.CompareEqual est un wrapper sur _mm256_cmpeq_epi8, puis sur le site Intel vous pouvez voir le pseudo-code de cette opération:
La méthode MoveMask à partir d'un vecteur fait un nombre 32 bits. Les valeurs binaires sont les bits hauts de chacun des 32 éléments à un octet du vecteur. Le pseudocode peut être trouvé ici .

Ainsi, si certains octets dans va et vb ne correspondent pas, alors dans areEqual les octets correspondants seront 0, donc les bits les plus significatifs de ces octets seront également 0, ce qui signifie que les bits correspondants dans la réponse Avx2.MoveMask seront également 0 et la comparaison avec equalsMask ne fonctionnera pas.

Analysons un petit exemple, en supposant que la longueur du vecteur est de 8 octets (pour l'écrire, c'était moins):

Soit va = {100, 10, 20, 30, 100, 40, 50, 100} et vb = {100, 20, 10, 30, 100, 40, 80, 90};
Alors areEqual sera égal à {255, 0, 0, 255, 255, 255, 0, 0};
La méthode MoveMask renverra 10011100b, qui devra être comparée avec le masque 11111111b, car Ces masques étant inégaux, il s'avère que les vecteurs va et vb ne sont pas égaux.

Compter le nombre de fois qu'un élément apparaît dans la collection

Parfois, il est nécessaire de calculer le nombre de fois qu'un élément particulier est trouvé dans une collection, par exemple, des entiers, cet algorithme peut également être accéléré. Écrivons quelques méthodes de comparaison, nous chercherons l'élément Item dans le tableau Array.

Le plus évident:

 public int Naive() { int result = 0; foreach (int i in Array) { if (i == Item) { result++; } } return result; }

en utilisant LINQ:

 public int LINQ() => Array.Count(i => i == Item);

en utilisant des vecteurs de System.Numerics.Vectors:

 public int Vectors() { var mask = new Vector<int>(Item); int vectorSize = Vector<int>.Count; var accResult = new Vector<int>(); int i; var array = Array; for (i = 0; i < array.Length - vectorSize; i += vectorSize) { var v = new Vector<int>(array, i); var areEqual = Vector.Equals(v, mask); accResult = Vector.Subtract(accResult, areEqual); } int result = 0; for (; i < array.Length; i++) { if (array[i] == Item) { result++; } } result += Vector.Dot(accResult, Vector<int>.One); return result; }

Utilisation de l'intrinsèque:

 public unsafe int Intrinsics() { int vectorSize = 256 / 8 / 4; //var mask = Avx2.SetAllVector256(Item); //var mask = Avx2.SetVector256(Item, Item, Item, Item, Item, Item, Item, Item); var temp = stackalloc int[vectorSize]; for (int j = 0; j < vectorSize; j++) { temp[j] = Item; } var mask = Avx2.LoadVector256(temp); var accVector = Vector256<int>.Zero; int i; var array = Array; fixed (int* ptr = array) { for (i = 0; i < array.Length - vectorSize; i += vectorSize) { var v = Avx2.LoadVector256(ptr + i); var areEqual = Avx2.CompareEqual(v, mask); accVector = Avx2.Subtract(accVector, areEqual); } } int result = 0; Avx2.Store(temp, accVector); for(int j = 0; j < vectorSize; j++) { result += temp[j]; } for(; i < array.Length; i++) { if (array[i] == Item) { result++; } } return result; }

Le résultat du benchmark sur mon ordinateur:

La méthode	ItemsCount	Médiane
Naïf	1000	2 824,41 ns
LINQ	1000	12 138,95 ns
Vecteurs	1000	961,50 ns
Intrinsèque	1000	691,08 ns

Naïf	10 000	27 072,25 ns
LINQ	10 000	113 967,87 ns
Vecteurs	10 000	7 571,82 ns
Intrinsèque	10 000	4 296,71 ns

Naïf	100 000	361 028,46 ns
LINQ	100 000	1.091.994,28 ns
Vecteurs	100 000	82 839,29 ns
Intrinsèque	100 000	40 307,91 ns

Naïf	1 000 000	1 634 175,46 ns
LINQ	1 000 000	6 194 257,38 ns
Vecteurs	1 000 000	583 901,29 ns
Intrinsèque	1 000 000	413 520,38 ns

Les méthodes Vectors et Intrinsics sont complètement identiques en logique, les différences ne concernent que la mise en œuvre d'opérations spécifiques. L'idée dans son ensemble est:

un vecteur de masque est créé dans lequel le nombre requis est stocké dans chaque élément;
La partie du tableau est chargée dans le vecteur v et comparée au masque, alors tous les bits seront définis en éléments égaux dans areEqual, car areEqual est un vecteur d'entiers, alors si vous définissez tous les bits d'un élément, nous obtenons -1 dans cet élément ((int) (1111_1111_1111_1111_1111_1111_1111_1111b) == -1);
le vecteur areEqual est soustrait de accVector, puis accVector sera la somme du nombre de fois que l'élément item s'est produit dans tous les vecteurs v pour chaque position (moins min donne un plus).

Tout le code de l'article peut être trouvé sur GitHub

Conclusion

Je n'ai examiné qu'une très petite partie des possibilités offertes par .NET pour la vectorisation des calculs. Pour une liste complète et à jour des éléments intrinsèques disponibles dans .NETCORE sous x86, vous pouvez vous référer au code source . Il est pratique que dans les fichiers C # du résumé de chaque intrinsèque, il y ait son propre nom du monde de C, ce qui simplifie la compréhension de l'objectif de cet intrinsèque et la traduction des algorithmes C ++ / C existants en .NET. La documentation System.Numerics.Vector est disponible sur msdn .

À mon avis, .NET a un gros avantage sur C ++, car La compilation JIT a déjà lieu sur la machine client, puis le compilateur peut optimiser le code pour un processeur client spécifique, offrant des performances maximales. Dans le même temps, un programmeur pour écrire du code rapide peut rester dans le cadre d'un langage et d'une technologie.

UPD (15/09/2019):

Il y avait un montant dans les repères

Dans les benchmarks, j'ai utilisé IterationSetup, qui, en fin de compte, peut affecter considérablement les performances des benchmarks qui fonctionnent en moins de 100 ms. Si vous le refaitez sur GlobalSetup, les résultats seront comme ceci.

Somme des éléments du tableau:

La méthode	ItemsCount	Moyenne	Erreur	Stddev	Ratio
Naïf	10	3,531 ns	0,0336 ns	0,0314 ns	1,00
LINQ	10	76,925 ns	0,4166 ns	0,3889 ns	21,79
Vecteurs	10	2,750 ns	0,0210 ns	0,0196 ns	0,78
Intrinsèque	10	6,513 ns	0,0623 ns	0,0582 ns	1,84

Naïf	100	47,982 ns	0,3975 ns	0,3524 ns	1,00
LINQ	100	590.414 ns	3,8808 ns	3,4402 ns	12,31
Vecteurs	100	10.122 ns	0,0747 ns	0,0699 ns	0,21
Intrinsèque	100	14,277 ns	0,0566 ns	0,0529 ns	0,30

Naïf	1000	569,910 ns	2,8297 ns	2,6469 ns	1,00
LINQ	1000	5,658.570 ns	31,7465 ns	29,6957 ns	9,93
Vecteurs	1000	79,598 ns	0,3498 ns	0,3272 ns	0,14
Intrinsèque	1000	66,970 ns	0,3937 ns	0,3668 ns	0,12

Naïf	10 000	5,637.571 ns	37.5050 ns	29.2814 ns	1,00
LINQ	10 000	56 498,987 ns	294.8776 ns	275,8287 ns	10.02
Vecteurs	10 000	772.900 ns	2,6802 ns	2,5070 ns	0,14
Intrinsèque	10 000	579,152 ns	2,8371 ns	2,6538 ns	0,10

Naïf	100 000	56 352,865 ns	230,7916 ns	215,8826 ns	1,00
LINQ	100 000	562 610,571 ns	3,775.7631 ns	3,152.9332 ns	9,98
Vecteurs	100 000	8.389,647 ns	165,9590 ns	227.1666 ns	0,15
Intrinsèque	100 000	7,261,334 ns	89,6468 ns	69,9903 ns	0,13

Comparaison de deux tableaux:

La méthode	ItemsCount	Moyenne	Erreur	Stddev	Ratio
Naïf	10 000	7 033,8 ns	50,636 ns	47,365 ns	1,00
LINQ	10 000	64 841,4 ns	289,157 ns	270,478 ns	9.22
Vecteurs	10 000	504,0 ns	2,406 ns	2,251 ns	0,07
Memcmp	10 000	368,1 ns	2,637 ns	2,466 ns	0,05
Intrinsèque	10 000	283,6 ns	1.135 ns	1,061 ns	0,04

Naïf	100 000	85,214.4 ns	903,868 ns	845,478 ns	1,00
LINQ	100 000	702 279,4 ns	2,846.609 ns	2 662,720 ns	8.24
Vecteurs	100 000	5 179,2 ns	45,337 ns	42.409 ns	0,06
Memcmp	100 000	4,510,5 ns	24,292 ns	22,723 ns	0,05
Intrinsèque	100 000	2 957,0 ns	11,452 ns	10,712 ns	0,03

Naïf	1 000 000	844 006,1 ns	3,552.478 ns	3.322.990 ns	1,00
LINQ	1 000 000	6 483 079,3 ns	42,641.040 ns	39 886,455 ns	7,68
Vecteurs	1 000 000	54,180.1 ns	357,258 ns	334.180 ns	0,06
Memcmp	1 000 000	49,480.1 ns	515,675 ns	457,133 ns	0,06
Intrinsèque	1 000 000	36 633,9 ns	680,525 ns	636,564 ns	0,04

Le nombre d'occurrences d'un élément dans un tableau:

La méthode	ItemsCount	Moyenne	Erreur	Stddev	Ratio
Naïf	10	8,844 ns	0,0772 ns	0,0603 ns	1,00
LINQ	10	87,456 ns	0,9496 ns	0,8888 ns	9,89
Vecteurs	10	3.140 ns	0,0406 ns	0,0380 ns	0,36
Intrinsèque	10	13,813 ns	0,0825 ns	0,0772 ns	1,56

Naïf	100	107,310 ns	0,6975 ns	0,6183 ns	1,00
LINQ	100	626,285 ns	5.7677 ns	5.3951 ns	5.83
Vecteurs	100	11,844 ns	0,2113 ns	0,1873 ns	0,11
Intrinsèque	100	19,616 ns	0,1018 ns	0,0903 ns	0,18

Naïf	1000	1.032.466 ns	6.3799 ns	5.6556 ns	1,00
LINQ	1000	6,266.605 ns	42,6585 ns	39.9028 ns	6.07
Vecteurs	1000	83,417 ns	0,5393 ns	0,4780 ns	0,08
Intrinsèque	1000	88,358 ns	0,4921 ns	0,4603 ns	0,09

Naïf	10 000	9 942,503 ns	47,9732 ns	40.0598 ns	1,00
LINQ	10 000	62 305,598 ns	643,8775 ns	502,6972 ns	6.27
Vecteurs	10 000	914,967 ns	7.2959 ns	6,8246 ns	0,09
Intrinsèque	10 000	931,698 ns	6.3444 ns	5,9346 ns	0,09

Naïf	100 000	94 834,804 ns	793,8585 ns	703,7349 ns	1,00
LINQ	100 000	626 620,968 ns	4 696,9221 ns	4,393,5038 ns	6,61
Vecteurs	100 000	9,000.827 ns	179,5351 ns	192.1005 ns	0,09
Intrinsèque	100 000	8 690,771 ns	101,7078 ns	95.1376 ns	0,09

Naïf	1 000 000	959.302.249 ns	4,268.2488 ns	3.783.6914 ns	1,00
LINQ	1 000 000	6,218,681.888 ns	31 321,9277 ns	29,298.5506 ns	6,48
Vecteurs	1 000 000	99,778.488 ns	1,975.6001 ns	4252,6877 ns	0,10
Intrinsèque	1 000 000	96 449 350 ns	1,171.8067 ns	978.5116 ns	0,10

Un petit aperçu de SIMD en .NET / C #

Un peu d'histoire

Résumer les éléments du tableau

Comparez deux tableaux

Compter le nombre de fois qu'un élément apparaît dans la collection

Conclusion

More articles: