🤘🏻 🍝 🚵 Ein kleiner Überblick über SIMD in .NET / C # ✍🏾 🙅🏼 🍇

Ihre Aufmerksamkeit wird auf einen kleinen Überblick über die Möglichkeiten der Vektorisierung von Algorithmen in .NET Framework und .NETCORE gelenkt. Der Zweck des Artikels ist es, diese Techniken denjenigen vorzustellen, die sie überhaupt nicht kannten, und zu zeigen, dass .NET nicht weit hinter den "echten, kompilierten" Sprachen für den Muttersprachler zurückbleibt
Entwicklung.

Ich fange gerade erst an, Vektorisierungstechniken zu lernen. Wenn mich also jemand aus der Community auf eine explizite Neigung hinweist oder verbesserte Versionen der unten beschriebenen Algorithmen vorschlägt, bin ich sehr glücklich.

Ein bisschen Geschichte

In .NET erschien SIMD erstmals 2015 mit der Veröffentlichung von .NET Framework 4.6. Dann wurden die Typen Matrix3x2, Matrix4x4, Ebene, Quaternion, Vektor2, Vektor3 und Vektor4 hinzugefügt, die die Erstellung vektorisierter Berechnungen ermöglichten. Später wurde der Typ Vector <T> hinzugefügt, der mehr Möglichkeiten zur Vektorisierung von Algorithmen bot. Aber viele Programmierer waren immer noch unglücklich, weil Die oben genannten Typen schränkten den Gedankenfluss des Programmierers ein und erlaubten nicht die volle Leistung der SIMD-Anweisungen moderner Prozessoren. Bereits heute wurde in der .NET Core 3.0-Vorschau der System.Runtime.Intrinsics-Namespace angezeigt, der viel mehr Freiheit bei der Auswahl von Anweisungen bietet. Um die besten Geschwindigkeitsergebnisse zu erzielen, müssen Sie RyuJit verwenden und entweder unter x64 erstellen oder Prefer 32-bit deaktivieren und unter AnyCPU erstellen. Alle Benchmarks, die ich auf einem Computer mit einem Intel Core i7-6700-Prozessor mit 3,40 GHz (Skylake) ausgeführt habe.

Fassen Sie die Elemente des Arrays zusammen

Ich habe mich entschlossen, mit dem klassischen Problem zu beginnen, das bei der Vektorisierung oft zuerst geschrieben wird. Dies ist die Aufgabe, die Summe der Elemente des Arrays zu ermitteln. Wir werden vier Implementierungen dieser Aufgabe schreiben und die Elemente des Array-Arrays zusammenfassen:

Am offensichtlichsten

public int Naive() { int result = 0; foreach (int i in Array) { result += i; } return result; }

Verwenden von LINQ

 public long LINQ() => Array.Aggregate<int, long>(0, (current, i) => current + i);

Verwenden von Vektoren aus System.Numerics:

 public int Vectors() { int vectorSize = Vector<int>.Count; var accVector = Vector<int>.Zero; int i; var array = Array; for (i = 0; i < array.Length - vectorSize; i += vectorSize) { var v = new Vector<int>(array, i); accVector = Vector.Add(accVector, v); } int result = Vector.Dot(accVector, Vector<int>.One); for (; i < array.Length; i++) { result += array[i]; } return result; }

Verwenden von Code aus dem System.Runtime.Intrinsics-Bereich:

 public unsafe int Intrinsics() { int vectorSize = 256 / 8 / 4; var accVector = Vector256<int>.Zero; int i; var array = Array; fixed (int* ptr = array) { for (i = 0; i < array.Length - vectorSize; i += vectorSize) { var v = Avx2.LoadVector256(ptr + i); accVector = Avx2.Add(accVector, v); } } int result = 0; var temp = stackalloc int[vectorSize]; Avx2.Store(temp, accVector); for (int j = 0; j < vectorSize; j++) { result += temp[j]; } for (; i < array.Length; i++) { result += array[i]; } return result; }

Ich habe einen Benchmark für diese 4 Methoden auf meinem Computer gestartet und folgendes Ergebnis erhalten:

Methode	ItemsCount	Median
Naiv	10	75,12 ns
LINQ	10	1 186,85 ns
Vektoren	10	60,09 ns
Intrinsics	10	255,40 ns

Naiv	100	360,56 ns
LINQ	100	2 719,24 ns
Vektoren	100	60,09 ns
Intrinsics	100	345,54 ns

Naiv	1000	1 847,88 ns
LINQ	1000	12 033,78 ns
Vektoren	1000	240,38 ns
Intrinsics	1000	630,98 ns

Naiv	10.000	18 403,72 ns
LINQ	10.000	102 489,96 ns
Vektoren	10.000	7 316,42 ns
Intrinsics	10.000	3 365,25 ns

Naiv	100.000	176 630,67 ns
LINQ	100.000	975 998,24 ns
Vektoren	100.000	78 828,03 ns
Intrinsics	100.000	41 269,41 ns

Es ist ersichtlich, dass die Lösungen mit Vektoren und Intrinsics sehr viel schneller sind als die offensichtliche Lösung und mit LINQ. Jetzt müssen wir herausfinden, was bei diesen beiden Methoden passiert.

Betrachten Sie die Vektoren-Methode genauer:

Vektoren

 public int Vectors() { int vectorSize = Vector<int>.Count; var accVector = Vector<int>.Zero; int i; var array = Array; for (i = 0; i < array.Length - vectorSize; i += vectorSize) { var v = new Vector<int>(array, i); accVector = Vector.Add(accVector, v); } int result = Vector.Dot(accVector, Vector<int>.One); for (; i < array.Length; i++) { result += array[i]; } return result; }

int vectorSize = Vector <int> .Count; - So viele 4-Byte-Zahlen können wir in einen Vektor einfügen. Wenn die Hardwarebeschleunigung verwendet wird, zeigt dieser Wert an, wie viele 4-Byte-Nummern in einem SIMD-Register abgelegt werden können. Tatsächlich wird angezeigt, wie viele Elemente dieses Typs Sie parallel ausführen können.
accVector - ein Vektor, in dem sich das Ergebnis der Funktion ansammelt;
var v = neuer Vektor <int> (Array, i); - Daten werden ausgehend vom Index i aus dem Array in einen neuen Vektor v geladen. Es werden genau vectorSize-Daten geladen.
accVector = Vector.Add (accVector, v); - Es werden zwei Vektoren hinzugefügt.
Zum Beispiel werden 8 Zahlen in Array gespeichert: {0, 1, 2, 3, 4, 5, 6, 7} und vectorSize == 4, dann:
In der ersten Iteration der Schleife accVector = {0, 0, 0, 0}, v = {0, 1, 2, 3} ist es nach der Addition in accVector: {0, 0, 0, 0} + {0, 1, 2 , 3} = {0, 1, 2, 3}.
In der zweiten Iteration ist v = {4, 5, 6, 7} und nach Addition accVector = {0, 1, 2, 3} + {4, 5, 6, 7} = {4, 6, 8, 10}.
Es bleibt nur irgendwie die Summe aller Elemente des Vektors zu erhalten, dafür können wir die Skalarmultiplikation mit einem mit Einheiten gefüllten Vektor anwenden: int result = Vector.Dot (accVector, Vector <int> .One);
Dann stellt sich heraus: {4, 6, 8, 10} {1, 1, 1, 1} = 4 1 + 6 1 + 8 1 + 10 * 1 = 28.
Am Ende werden bei Bedarf Zahlen addiert, die nicht in den letzten Vektor passen.

Wenn Sie sich den Intrinsics-Methodencode ansehen:

Intrinsics

 public unsafe int Intrinsics() { int vectorSize = 256 / 8 / 4; var accVector = Vector256<int>.Zero; int i; var array = Array; fixed (int* ptr = array) { for (i = 0; i < array.Length - vectorSize; i += vectorSize) { var v = Avx2.LoadVector256(ptr + i); accVector = Avx2.Add(accVector, v); } } int result = 0; var temp = stackalloc int[vectorSize]; Avx2.Store(temp, accVector); for (int j = 0; j < vectorSize; j++) { result += temp[j]; } for (; i < array.Length; i++) { result += array[i]; } return result; }

Sie können sehen, dass es Vektoren mit wenigen Ausnahmen sehr ähnlich ist:

vectorSize ist durch Konstante gegeben. Dies liegt daran, dass Avx2-Befehle, die mit 256-Bit-Registern arbeiten, in dieser Methode explizit verwendet werden. In einer realen Anwendung sollte überprüft werden, ob der aktuelle Avx2-Prozessor Anweisungen unterstützt, und wenn nicht, einen anderen Code aufrufen. Es sieht ungefähr so aus:
```
 if (Avx2.IsSupported) { DoThingsForAvx2(); } else if (Avx.IsSupported) { DoThingsForAvx(); } ... else if (Sse2.IsSupported) { DoThingsForSse2(); } ... 
```
var accVector = Vector256 <int> .Zero; accVector wird als 256-Bit-Vektor deklariert, der mit Nullen gefüllt ist.
fest (int * ptr = Array) - In ptr wird ein Zeiger auf ein Array eingegeben.
Dann die gleichen Operationen wie in Vektoren: Laden von Daten in einen Vektor und Hinzufügen von zwei Vektoren.
Um die Elemente des Vektors zusammenzufassen, wurde die folgende Methode angewendet:
- Auf dem Stapel wird ein Array erstellt: var temp = stackalloc int [vectorSize];
- Der Vektor wird in dieses Array geladen: Avx2.Store (temp, accVector);
- In einer Schleife werden die Elemente des Arrays summiert.
Dann werden die Elemente des Arrays addiert, die nicht im letzten Vektor platziert sind

Vergleichen Sie zwei Arrays

Es ist notwendig, zwei Arrays von Bytes zu vergleichen. Eigentlich ist dies das Problem, aufgrund dessen ich angefangen habe, SIMD in .NET zu lernen. Wieder werden wir verschiedene Methoden für den Benchmark schreiben, wir werden zwei Arrays vergleichen: ArrayA und ArrayB:

Die naheliegendste Lösung:

 public bool Naive() { for (int i = 0; i < ArrayA.Length; i++) { if (ArrayA[i] != ArrayB[i]) return false; } return true; }

Lösung über LINQ:

 public bool LINQ() => ArrayA.SequenceEqual(ArrayB);

Lösung über MemCmp-Funktion:

 [DllImport("msvcrt.dll", CallingConvention = CallingConvention.Cdecl)] static extern int memcmp(byte[] b1, byte[] b2, long count); public bool MemCmp() => memcmp(ArrayA, ArrayB, ArrayA.Length) == 0;

Verwenden von Vektoren aus System.Numerics:

 public bool Vectors() { int vectorSize = Vector<byte>.Count; int i = 0; for (; i < ArrayA.Length - vectorSize; i += vectorSize) { var va = new Vector<byte>(ArrayA, i); var vb = new Vector<byte>(ArrayB, i); if (!Vector.EqualsAll(va, vb)) { return false; } } for (; i < ArrayA.Length; i++) { if (ArrayA[i] != ArrayB[i]) return false; } return true; }

Verwenden von Intrinsics:

 public unsafe bool Intrinsics() { int vectorSize = 256 / 8; int i = 0; const int equalsMask = unchecked((int) (0b1111_1111_1111_1111_1111_1111_1111_1111)); fixed (byte* ptrA = ArrayA) fixed (byte* ptrB = ArrayB) { for (; i < ArrayA.Length - vectorSize; i += vectorSize) { var va = Avx2.LoadVector256(ptrA + i); var vb = Avx2.LoadVector256(ptrB + i); var areEqual = Avx2.CompareEqual(va, vb); if (Avx2.MoveMask(areEqual) != equalsMask) { return false; } } for (; i < ArrayA.Length; i++) { if (ArrayA[i] != ArrayB[i]) return false; } return true; } }

Das Ergebnis des Benchmarks auf meinem Computer:

Methode	ItemsCount	Median
Naiv	10.000	66 719,1 ns
LINQ	10.000	71 211,1 ns
Vektoren	10.000	3 695,8 ns
Memcmp	10.000	600,9 ns
Intrinsics	10.000	1 607,5 ns

Naiv	100.000	588 633,7 ns
LINQ	100.000	651 191,3 ns
Vektoren	100.000	34 659,1 ns
Memcmp	100.000	5 513,6 ns
Intrinsics	100.000	12.078,9 ns

Naiv	1.000.000	5 637 293,1 ns
LINQ	1.000.000	6 622 666,0 ns
Vektoren	1.000.000	777 974,2 ns
Memcmp	1.000.000	361 704,5 ns
Intrinsics	1.000.000	434 252,7 ns

Der gesamte Code für diese Methoden ist meines Erachtens verständlich, mit Ausnahme von zwei Zeilen in Intrinsics:

 var areEqual = Avx2.CompareEqual(va, vb); if (Avx2.MoveMask(areEqual) != equalsMask) { return false; }

Im ersten Schritt werden zwei Vektoren auf Gleichheit verglichen und das Ergebnis in dem Vektor areEqual gespeichert, in dem alle Bits in einem Element an einer bestimmten Position auf 1 gesetzt werden, wenn die entsprechenden Elemente in va und vb gleich sind. Es stellt sich heraus, dass, wenn die Vektoren aus den Bytes va und vb vollständig gleich sind, in areEquals alle Elemente gleich 255 (11111111b) sein sollten. Weil Avx2.CompareEqual ist ein Wrapper über _mm256_cmpeq_epi8. Auf der Intel-Website können Sie den Pseudocode dieser Operation sehen:
Die MoveMask-Methode aus einem Vektor erstellt eine 32-Bit-Zahl. Die Bitwerte sind die hohen Bits jedes der 32 Einzelbyte-Elemente des Vektors. Pseudocode finden Sie hier .

Wenn also einige Bytes in va und vb nicht übereinstimmen, sind in areEqual die entsprechenden Bytes 0, daher sind die höchstwertigen Bits dieser Bytes ebenfalls 0, was bedeutet, dass die entsprechenden Bits in der Avx2.MoveMask-Antwort ebenfalls 0 und der Vergleich sind mit equalsMask funktioniert nicht.

Analysieren wir ein kleines Beispiel unter der Annahme, dass die Länge des Vektors 8 Bytes beträgt (zum Schreiben war es weniger):

Sei va = {100, 10, 20, 30, 100, 40, 50, 100} und vb = {100, 20, 10, 30, 100, 40, 80, 90};
Dann ist areEqual gleich {255, 0, 0, 255, 255, 255, 0, 0};
Die MoveMask-Methode gibt 10011100b zurück, was mit der Maske 11111111b verglichen werden muss, weil Da diese Masken ungleich sind, stellt sich heraus, dass die Vektoren va und vb nicht gleich sind.

Zählen Sie, wie oft ein Element in der Sammlung vorkommt

Manchmal muss berechnet werden, wie oft ein bestimmtes Element in einer Sammlung gefunden wird, z. B. Ints. Dieser Algorithmus kann auch beschleunigt werden. Lassen Sie uns einige Methoden zum Vergleich schreiben. Wir werden nach dem Item-Element im Array-Array suchen.

Das offensichtlichste:

 public int Naive() { int result = 0; foreach (int i in Array) { if (i == Item) { result++; } } return result; }

mit LINQ:

 public int LINQ() => Array.Count(i => i == Item);

Verwenden von Vektoren aus System.Numerics.Vectors:

 public int Vectors() { var mask = new Vector<int>(Item); int vectorSize = Vector<int>.Count; var accResult = new Vector<int>(); int i; var array = Array; for (i = 0; i < array.Length - vectorSize; i += vectorSize) { var v = new Vector<int>(array, i); var areEqual = Vector.Equals(v, mask); accResult = Vector.Subtract(accResult, areEqual); } int result = 0; for (; i < array.Length; i++) { if (array[i] == Item) { result++; } } result += Vector.Dot(accResult, Vector<int>.One); return result; }

Verwenden von Intrinsics:

 public unsafe int Intrinsics() { int vectorSize = 256 / 8 / 4; //var mask = Avx2.SetAllVector256(Item); //var mask = Avx2.SetVector256(Item, Item, Item, Item, Item, Item, Item, Item); var temp = stackalloc int[vectorSize]; for (int j = 0; j < vectorSize; j++) { temp[j] = Item; } var mask = Avx2.LoadVector256(temp); var accVector = Vector256<int>.Zero; int i; var array = Array; fixed (int* ptr = array) { for (i = 0; i < array.Length - vectorSize; i += vectorSize) { var v = Avx2.LoadVector256(ptr + i); var areEqual = Avx2.CompareEqual(v, mask); accVector = Avx2.Subtract(accVector, areEqual); } } int result = 0; Avx2.Store(temp, accVector); for(int j = 0; j < vectorSize; j++) { result += temp[j]; } for(; i < array.Length; i++) { if (array[i] == Item) { result++; } } return result; }

Das Ergebnis des Benchmarks auf meinem Computer:

Methode	ItemsCount	Median
Naiv	1000	2 824,41 ns
LINQ	1000	12 138,95 ns
Vektoren	1000	961,50 ns
Intrinsics	1000	691,08 ns

Naiv	10.000	27 072,25 ns
LINQ	10.000	113 967,87 ns
Vektoren	10.000	7 571,82 ns
Intrinsics	10.000	4,296,71 ns

Naiv	100.000	361 028,46 ns
LINQ	100.000	1.091.994,28 ns
Vektoren	100.000	82 839,29 ns
Intrinsics	100.000	40 307,91 ns

Naiv	1.000.000	1 634 175,46 ns
LINQ	1.000.000	6 194 257,38 ns
Vektoren	1.000.000	583 901,29 ns
Intrinsics	1.000.000	413 520,38 ns

Die Methoden Vectors und Intrinsics sind in der Logik völlig identisch, die Unterschiede bestehen nur in der Implementierung spezifischer Operationen. Die Idee als Ganzes ist:

Es wird ein Maskenvektor erstellt, in dem die erforderliche Anzahl in jedem Element gespeichert ist.
Der Teil des Arrays wird in den Vektor v geladen und mit der Maske verglichen, dann werden alle Bits in areEqual in gleiche Elemente gesetzt, weil areEqual ist ein Vektor aus Ints. Wenn Sie also alle Bits eines Elements setzen, erhalten wir -1 in diesem Element ((int) (1111_1111_1111_1111_1111_1111_1111_1111b) == -1);
Der Vektor areEqual wird von accVector subtrahiert, und dann ist der accVector die Summe, wie oft das Elementelement in allen Vektoren v für jede Position aufgetreten ist (minus min ergibt ein Plus).

Der gesamte Code aus dem Artikel ist auf GitHub zu finden

Fazit

Ich habe nur einen sehr kleinen Teil der Möglichkeiten untersucht, die .NET für die Vektorisierung von Berechnungen bietet. Eine vollständige und aktuelle Liste der in .NETCORE unter x86 verfügbaren Intrinsics finden Sie im Quellcode . Es ist praktisch, dass in den C # -Dateien in der Zusammenfassung jedes Intrinsics ein eigener Name aus der Welt von C enthalten ist, was das Verständnis des Zwecks dieses Intrinsics und die Übersetzung vorhandener C ++ / C-Algorithmen in .NET vereinfacht. Die Dokumentation zu System.Numerics.Vector finden Sie unter msdn .

Meiner Meinung nach hat .NET einen großen Vorteil gegenüber C ++, weil Die JIT-Kompilierung findet bereits auf dem Client-Computer statt. Der Compiler kann den Code für einen bestimmten Client-Prozessor optimieren und bietet so maximale Leistung. Gleichzeitig kann ein Programmierer zum Schreiben von schnellem Code im Rahmen einer Sprache und Technologie bleiben.

UPD (15.09.2019):

Es gab einen Pfosten in Benchmarks

In Benchmarks habe ich IterationSetup verwendet, was, wie sich herausstellte, die Leistung von Benchmarks, die in weniger als 100 ms funktionieren, stark beeinträchtigen kann. Wenn Sie es in GlobalSetup wiederholen, sehen die Ergebnisse folgendermaßen aus.

Summe der Array-Elemente:

Methode	ItemsCount	Mittelwert	Fehler	Stddev	Verhältnis
Naiv	10	3,531 ns	0,0336 ns	0,0314 ns	1,00
LINQ	10	76,925 ns	0,4166 ns	0,3897 ns	21.79
Vektoren	10	2,750 ns	0,0210 ns	0,0196 ns	0,78
Intrinsics	10	6,513 ns	0,0623 ns	0,0582 ns	1,84

Naiv	100	47,982 ns	0,3975 ns	0,3524 ns	1,00
LINQ	100	590,414 ns	3,8808 ns	3,4402 ns	12.31
Vektoren	100	10,122 ns	0,0747 ns	0,0699 ns	0,21
Intrinsics	100	14.277 ns	0,0566 ns	0,0529 ns	0,30

Naiv	1000	569.910 ns	2,8297 ns	2,6469 ns	1,00
LINQ	1000	5.658,570 ns	31,7465 ns	29.6957 ns	9.93
Vektoren	1000	79,598 ns	0,3498 ns	0,3272 ns	0,14
Intrinsics	1000	66,970 ns	0,3937 ns	0,3682 ns	0,12

Naiv	10.000	5.637,571 ns	37,5050 ns	29,2814 ns	1,00
LINQ	10.000	56.498.987 ns	294.8776 ns	275,8287 ns	10.02
Vektoren	10.000	772.900 ns	2,6802 ns	2,5070 ns	0,14
Intrinsics	10.000	579,152 ns	2,8371 ns	2,6538 ns	0,10

Naiv	100.000	56.352,865 ns	230,7916 ns	215,8826 ns	1,00
LINQ	100.000	562,610,571 ns	3,775.7631 ns	3,152.9332 ns	9.98
Vektoren	100.000	8,389.647 ns	165,9590 ns	227,1666 ns	0,15
Intrinsics	100.000	7,261.334 ns	89,6468 ns	69.9903 ns	0,13

Vergleich zweier Arrays:

Methode	ItemsCount	Mittelwert	Fehler	Stddev	Verhältnis
Naiv	10.000	7.033,8 ns	50,636 ns	47,365 ns	1,00
LINQ	10.000	64.841,4 ns	289,157 ns	270,478 ns	9.22
Vektoren	10.000	504,0 ns	2,406 ns	2,251 ns	0,07
Memcmp	10.000	368,1 ns	2,637 ns	2,466 ns	0,05
Intrinsics	10.000	283,6 ns	1,135 ns	1,061 ns	0,04

Naiv	100.000	85.214,4 ns	903,868 ns	845,478 ns	1,00
LINQ	100.000	702.279,4 ns	2,846.609 ns	2,662.720 ns	8.24
Vektoren	100.000	5,179,2 ns	45,337 ns	42,409 ns	0,06
Memcmp	100.000	4,510,5 ns	24,292 ns	22.723 ns	0,05
Intrinsics	100.000	2.957,0 ns	11.452 ns	10,712 ns	0,03

Naiv	1.000.000	844.006,1 ns	3,552.478 ns	3,322.990 ns	1,00
LINQ	1.000.000	6.483.079,3 ns	42.641,040 ns	39.886,455 ns	7.68
Vektoren	1.000.000	54.180,1 ns	357,258 ns	334.180 ns	0,06
Memcmp	1.000.000	49.480,1 ns	515,675 ns	457,133 ns	0,06
Intrinsics	1.000.000	36.633,9 ns	680,525 ns	636,564 ns	0,04

Die Anzahl der Vorkommen eines Elements in einem Array:

Methode	ItemsCount	Mittelwert	Fehler	Stddev	Verhältnis
Naiv	10	8,844 ns	0,0772 ns	0,0603 ns	1,00
LINQ	10	87,456 ns	0,9496 ns	0,8883 ns	9,89
Vektoren	10	3,140 ns	0,0406 ns	0,0380 ns	0,36
Intrinsics	10	13.813 ns	0,0825 ns	0,0772 ns	1,56

Naiv	100	107,310 ns	0,6975 ns	0,6183 ns	1,00
LINQ	100	626,285 ns	5,7677 ns	5,3951 ns	5.83
Vektoren	100	11.844 ns	0,2113 ns	0,1873 ns	0,11
Intrinsics	100	19.616 ns	0,1018 ns	0,0903 ns	0,18

Naiv	1000	1.032,466 ns	6,3799 ns	5,6556 ns	1,00
LINQ	1000	6,266.605 ns	42,6585 ns	39,9028 ns	6.07
Vektoren	1000	83,417 ns	0,5393 ns	0,4780 ns	0,08
Intrinsics	1000	88,358 ns	0,4921 ns	0,4603 ns	0,09

Naiv	10.000	9.942,503 ns	47,9732 ns	40.0598 ns	1,00
LINQ	10.000	62.305.598 ns	643,8775 ns	502,6972 ns	6.27
Vektoren	10.000	914,967 ns	7,2959 ns	6,8246 ns	0,09
Intrinsics	10.000	931.698 ns	6,3444 ns	5,9346 ns	0,09

Naiv	100.000	94.834,804 ns	793,8585 ns	703,7349 ns	1,00
LINQ	100.000	626.620.968 ns	4,696.9221 ns	4.393,5038 ns	6.61
Vektoren	100.000	9.000,827 ns	179,5351 ns	192.1005 ns	0,09
Intrinsics	100.000	8,690,771 ns	101,7078 ns	95,1376 ns	0,09

Naiv	1.000.000	959,302,249 ns	4,268.2488 ns	3,783.6914 ns	1,00
LINQ	1.000.000	6,218,681.888 ns	31.321,9277 ns	29.298.5506 ns	6.48
Vektoren	1.000.000	99.778,488 ns	1,975.6001 ns	4,252.6877 ns	0,10
Intrinsics	1.000.000	96.449,350 ns	1,171.8067 ns	978,5116 ns	0,10

Ein kleiner Überblick über SIMD in .NET / C #

Ein bisschen Geschichte

Fassen Sie die Elemente des Arrays zusammen

Vergleichen Sie zwei Arrays

Zählen Sie, wie oft ein Element in der Sammlung vorkommt

Fazit

More articles: