🧣 🧓🏿 👕 Ikhtisar kecil SIMD di .NET / C # 🚘 🥙 🥝

Perhatian Anda diundang ke ikhtisar kecil tentang kapabilitas vektorisasi algoritma di .NET Framework dan .NETCORE. Tujuan artikel ini adalah untuk memperkenalkan teknik-teknik ini kepada mereka yang tidak mengetahuinya sama sekali dan untuk menunjukkan bahwa .NET tidak ketinggalan jauh di belakang bahasa "nyata, dikompilasi" untuk penduduk asli
pengembangan.

Saya baru mulai mempelajari teknik-teknik vektorisasi, jadi jika seseorang dari komunitas mengarahkan saya ke cant eksplisit, atau menawarkan versi peningkatan dari algoritma yang dijelaskan di bawah ini, saya akan sangat senang.

Sedikit sejarah

Di .NET, SIMD pertama kali muncul pada 2015 dengan dirilisnya .NET Framework 4.6. Kemudian jenis Matrix3x2, Matrix4x4, Plane, Quaternion, Vector2, Vector3, dan Vector4 ditambahkan, yang memungkinkan pembangunan perhitungan vektor. Kemudian, tipe Vector <T> ditambahkan, yang memberikan lebih banyak peluang untuk algoritma vektorisasi. Tetapi banyak programmer masih tidak senang karena tipe-tipe di atas membatasi aliran pikiran programmer dan tidak memungkinkan kekuatan penuh dari instruksi SIMD dari prosesor modern untuk digunakan. Sudah saat ini, dalam .NET Core 3.0 Preview, System.Runtime.Names intrinsik telah muncul, yang memberikan kebebasan yang jauh lebih besar dalam memilih instruksi. Untuk mendapatkan hasil terbaik dalam kecepatan, Anda harus menggunakan RyuJit dan Anda harus membangun di bawah x64 atau menonaktifkan Prefer 32-bit dan membangun di bawah AnyCPU. Semua tolok ukur yang saya jalankan di komputer dengan prosesor Intel Core i7-6700 3.40GHz (Skylake).

Ringkas elemen-elemen dari array

Saya memutuskan untuk memulai dengan masalah klasik, yang sering ditulis pertama kali tentang vektorisasi. Ini adalah tugas untuk menemukan jumlah elemen array. Kami akan menulis empat implementasi dari tugas ini, kami akan merangkum elemen-elemen dari array Array:

Paling jelas

public int Naive() { int result = 0; foreach (int i in Array) { result += i; } return result; }

Menggunakan LINQ

 public long LINQ() => Array.Aggregate<int, long>(0, (current, i) => current + i);

Menggunakan vektor dari System.Numerics:

 public int Vectors() { int vectorSize = Vector<int>.Count; var accVector = Vector<int>.Zero; int i; var array = Array; for (i = 0; i < array.Length - vectorSize; i += vectorSize) { var v = new Vector<int>(array, i); accVector = Vector.Add(accVector, v); } int result = Vector.Dot(accVector, Vector<int>.One); for (; i < array.Length; i++) { result += array[i]; } return result; }

Menggunakan kode dari ruang System.Runtime.Intrinsics:

 public unsafe int Intrinsics() { int vectorSize = 256 / 8 / 4; var accVector = Vector256<int>.Zero; int i; var array = Array; fixed (int* ptr = array) { for (i = 0; i < array.Length - vectorSize; i += vectorSize) { var v = Avx2.LoadVector256(ptr + i); accVector = Avx2.Add(accVector, v); } } int result = 0; var temp = stackalloc int[vectorSize]; Avx2.Store(temp, accVector); for (int j = 0; j < vectorSize; j++) { result += temp[j]; } for (; i < array.Length; i++) { result += array[i]; } return result; }

Saya meluncurkan patokan pada 4 metode ini di komputer saya dan mendapatkan hasil ini:

Metode	ItemCount	Median
Naif	10	75,12 ns
LINQ	10	1 186,85 ns
Vektor	10	60,09 ns
Intrinsik	10	255.40 ns

Naif	100	360,56 ns
LINQ	100	2 719.24 ns
Vektor	100	60,09 ns
Intrinsik	100	345,54 ns

Naif	1000	1 847,88 ns
LINQ	1000	12 033.78 ns
Vektor	1000	240,38 ns
Intrinsik	1000	630,98 ns

Naif	10.000	18 403,72 ns
LINQ	10.000	102 489,96 ns
Vektor	10.000	7 316.42 ns
Intrinsik	10.000	3 365.25 ns

Naif	100.000	176 630,67 ns
LINQ	100.000	975 998,24 ns
Vektor	100.000	78 828.03 ns
Intrinsik	100.000	41 269,41 ns

Dapat dilihat bahwa solusi dengan Vektor dan Intrinsik jauh lebih cepat daripada solusi yang jelas dan dengan LINQ. Sekarang kita perlu mencari tahu apa yang terjadi dalam kedua metode ini.

Pertimbangkan metode Vektor secara lebih rinci:

Vektor

 public int Vectors() { int vectorSize = Vector<int>.Count; var accVector = Vector<int>.Zero; int i; var array = Array; for (i = 0; i < array.Length - vectorSize; i += vectorSize) { var v = new Vector<int>(array, i); accVector = Vector.Add(accVector, v); } int result = Vector.Dot(accVector, Vector<int>.One); for (; i < array.Length; i++) { result += array[i]; } return result; }

int vectorSize = Vektor <int> .Count; - ini adalah berapa banyak angka 4 byte yang dapat kita masukkan ke dalam vektor. Jika akselerasi perangkat keras digunakan, nilai ini menunjukkan berapa banyak angka 4-byte dapat ditempatkan dalam satu register SIMD. Bahkan, ini menunjukkan berapa banyak elemen jenis ini dapat dioperasikan secara paralel;
accVector - vektor di mana hasil fungsi akan terakumulasi;
var v = Vector baru <int> (array, i); - data dimuat ke dalam vektor v baru, dari array, mulai dari indeks i. Data vectorSize akan memuat.
accVector = Vector.Add (accVector, v); - dua vektor ditambahkan.
Misalnya, 8 angka disimpan dalam Array: {0, 1, 2, 3, 4, 5, 6, 7} dan vectorSize == 4, lalu:
Dalam iterasi pertama dari loop accVector = {0, 0, 0, 0}, v = {0, 1, 2, 3}, setelah penambahan dalam accVector akan menjadi: {0, 0, 0, 0} + {0, 1, 2 , 3} = {0, 1, 2, 3}.
Dalam iterasi kedua, v = {4, 5, 6, 7} dan setelah penambahan accVector = {0, 1, 2, 3} + {4, 5, 6, 7} = {4, 6, 8, 10}.
Tetap hanya untuk entah bagaimana mendapatkan jumlah semua elemen vektor, untuk ini kita dapat menerapkan perkalian skalar dengan vektor yang diisi dengan unit: int result = Vector.Dot (accVector, Vector <int> .One);
Kemudian hasilnya: {4, 6, 8, 10} {1, 1, 1, 1} = 4 1 + 6 1 + 8 1 + 10 * 1 = 28.
Pada akhirnya, jika diperlukan, maka angka ditambahkan yang tidak sesuai dengan vektor terakhir.

Jika Anda melihat kode metode Intrinsics:

Intrinsik

 public unsafe int Intrinsics() { int vectorSize = 256 / 8 / 4; var accVector = Vector256<int>.Zero; int i; var array = Array; fixed (int* ptr = array) { for (i = 0; i < array.Length - vectorSize; i += vectorSize) { var v = Avx2.LoadVector256(ptr + i); accVector = Avx2.Add(accVector, v); } } int result = 0; var temp = stackalloc int[vectorSize]; Avx2.Store(temp, accVector); for (int j = 0; j < vectorSize; j++) { result += temp[j]; } for (; i < array.Length; i++) { result += array[i]; } return result; }

Anda dapat melihat bahwa ini sangat mirip dengan Vektor dengan beberapa pengecualian:

vectorSize diberikan oleh konstanta. Ini karena instruksi Avx2 yang beroperasi pada register 256 bit secara eksplisit digunakan dalam metode ini. Dalam aplikasi nyata, harus ada pemeriksaan untuk melihat apakah prosesor Avx2 saat ini mendukung instruksi dan, jika tidak, panggil kode lain. Itu terlihat seperti ini:
```
 if (Avx2.IsSupported) { DoThingsForAvx2(); } else if (Avx.IsSupported) { DoThingsForAvx(); } ... else if (Sse2.IsSupported) { DoThingsForSse2(); } ... 
```
var accVector = Vector256 <int> .Zero; accVector dinyatakan sebagai vektor 256 bit yang diisi dengan nol.
fixed (int * ptr = Array) - pointer ke array dimasukkan dalam ptr.
Kemudian operasi yang sama seperti di Vektor: memuat data ke dalam vektor dan menambahkan dua vektor.
Untuk meringkas elemen-elemen vektor, metode berikut ini diterapkan:
- sebuah array dibuat di stack: var temp = stackalloc int [vectorSize];
- vektor dimuat ke dalam array ini: Avx2.Store (temp, accVector);
- dalam satu lingkaran elemen-elemen array dijumlahkan.
lalu elemen-elemen array yang tidak ditempatkan di vektor terakhir ditambahkan

Bandingkan dua array

Perlu untuk membandingkan dua array byte. Sebenarnya ini adalah masalah karena itu saya mulai belajar SIMD di .NET. Sekali lagi, kami akan menulis beberapa metode untuk benchmark, kami akan membandingkan dua array: ArrayA dan ArrayB:

Solusi paling jelas:

 public bool Naive() { for (int i = 0; i < ArrayA.Length; i++) { if (ArrayA[i] != ArrayB[i]) return false; } return true; }

Solusi melalui LINQ:

 public bool LINQ() => ArrayA.SequenceEqual(ArrayB);

Solusi melalui fungsi MemCmp:

 [DllImport("msvcrt.dll", CallingConvention = CallingConvention.Cdecl)] static extern int memcmp(byte[] b1, byte[] b2, long count); public bool MemCmp() => memcmp(ArrayA, ArrayB, ArrayA.Length) == 0;

Menggunakan vektor dari System.Numerics:

 public bool Vectors() { int vectorSize = Vector<byte>.Count; int i = 0; for (; i < ArrayA.Length - vectorSize; i += vectorSize) { var va = new Vector<byte>(ArrayA, i); var vb = new Vector<byte>(ArrayB, i); if (!Vector.EqualsAll(va, vb)) { return false; } } for (; i < ArrayA.Length; i++) { if (ArrayA[i] != ArrayB[i]) return false; } return true; }

Menggunakan Intrinsik:

 public unsafe bool Intrinsics() { int vectorSize = 256 / 8; int i = 0; const int equalsMask = unchecked((int) (0b1111_1111_1111_1111_1111_1111_1111_1111)); fixed (byte* ptrA = ArrayA) fixed (byte* ptrB = ArrayB) { for (; i < ArrayA.Length - vectorSize; i += vectorSize) { var va = Avx2.LoadVector256(ptrA + i); var vb = Avx2.LoadVector256(ptrB + i); var areEqual = Avx2.CompareEqual(va, vb); if (Avx2.MoveMask(areEqual) != equalsMask) { return false; } } for (; i < ArrayA.Length; i++) { if (ArrayA[i] != ArrayB[i]) return false; } return true; } }

Hasil patokan di komputer saya:

Metode	ItemCount	Median
Naif	10.000	66 719.1 ns
LINQ	10.000	71 211.1 ns
Vektor	10.000	3 695.8 ns
Memcmp	10.000	600,9 ns
Intrinsik	10.000	1 607,5 ns

Naif	100.000	588 633,7 ns
LINQ	100.000	651 191,3 ns
Vektor	100.000	34 659.1 ns
Memcmp	100.000	5 513,6 ns
Intrinsik	100.000	12,078.9 ns

Naif	1.000.000	5 637 293.1 ns
LINQ	1.000.000	6 622 666.0 ns
Vektor	1.000.000	777 974.2 ns
Memcmp	1.000.000	361 704,5 ns
Intrinsik	1.000.000	434 252,7 ns

Semua kode untuk metode ini, saya pikir, jelas, dengan pengecualian dua baris dalam Intrinsics:

 var areEqual = Avx2.CompareEqual(va, vb); if (Avx2.MoveMask(areEqual) != equalsMask) { return false; }

Dalam yang pertama, dua vektor dibandingkan untuk kesetaraan dan hasilnya disimpan dalam vektor areEqual, di mana semua bit diatur ke 1 dalam elemen pada posisi tertentu jika elemen yang sesuai dalam va dan vb sama. Ternyata jika vektor dari byte va dan vb benar-benar sama, maka dalam areEquals semua elemen harus sama dengan 255 (11111111b). Karena Avx2.CompareEqual adalah pembungkus di atas _mm256_cmpeq_epi8, maka di situs web Intel Anda dapat melihat kode semu dari operasi ini:
Metode MoveMask dari vektor menghasilkan angka 32-bit. Nilai bit adalah bit tinggi dari masing-masing 32 elemen byte tunggal dari vektor. Kodesemu dapat ditemukan di sini .

Jadi, jika beberapa byte dalam va dan vb tidak cocok, maka dalam areEqual byte yang sesuai akan menjadi 0, oleh karena itu bit yang paling signifikan dari byte ini juga akan 0, yang berarti bahwa bit yang sesuai dalam respons Avx2.MoveMask juga akan 0 dan perbandingan dengan equalsMask tidak akan berfungsi.

Mari kita menganalisis contoh kecil, dengan asumsi bahwa panjang vektor adalah 8 byte (untuk menulis itu kurang):

Misalkan va = {100, 10, 20, 30, 100, 40, 50, 100}, dan vb = {100, 20, 10, 30, 100, 40, 80, 90};
Maka areEqual akan sama dengan {255, 0, 0, 255, 255, 255, 0, 0};
Metode MoveMask akan mengembalikan 10011100b, yang perlu dibandingkan dengan mask 11111111b, karena Karena topeng ini tidak sama, ternyata vektor va dan vb tidak sama.

Hitung berapa kali suatu elemen muncul dalam koleksi

Terkadang perlu untuk menghitung berapa kali elemen tertentu ditemukan dalam koleksi, misalnya int, algoritma ini juga dapat dipercepat. Mari kita menulis beberapa metode untuk perbandingan, kita akan mencari elemen Item dalam array Array.

Yang paling jelas:

 public int Naive() { int result = 0; foreach (int i in Array) { if (i == Item) { result++; } } return result; }

menggunakan LINQ:

 public int LINQ() => Array.Count(i => i == Item);

menggunakan vektor dari System.Numerics.Vectors:

 public int Vectors() { var mask = new Vector<int>(Item); int vectorSize = Vector<int>.Count; var accResult = new Vector<int>(); int i; var array = Array; for (i = 0; i < array.Length - vectorSize; i += vectorSize) { var v = new Vector<int>(array, i); var areEqual = Vector.Equals(v, mask); accResult = Vector.Subtract(accResult, areEqual); } int result = 0; for (; i < array.Length; i++) { if (array[i] == Item) { result++; } } result += Vector.Dot(accResult, Vector<int>.One); return result; }

Menggunakan Intrinsik:

 public unsafe int Intrinsics() { int vectorSize = 256 / 8 / 4; //var mask = Avx2.SetAllVector256(Item); //var mask = Avx2.SetVector256(Item, Item, Item, Item, Item, Item, Item, Item); var temp = stackalloc int[vectorSize]; for (int j = 0; j < vectorSize; j++) { temp[j] = Item; } var mask = Avx2.LoadVector256(temp); var accVector = Vector256<int>.Zero; int i; var array = Array; fixed (int* ptr = array) { for (i = 0; i < array.Length - vectorSize; i += vectorSize) { var v = Avx2.LoadVector256(ptr + i); var areEqual = Avx2.CompareEqual(v, mask); accVector = Avx2.Subtract(accVector, areEqual); } } int result = 0; Avx2.Store(temp, accVector); for(int j = 0; j < vectorSize; j++) { result += temp[j]; } for(; i < array.Length; i++) { if (array[i] == Item) { result++; } } return result; }

Hasil patokan di komputer saya:

Metode	ItemCount	Median
Naif	1000	2 824.41 ns
LINQ	1000	12 138,95 ns
Vektor	1000	961,50 ns
Intrinsik	1000	691.08 ns

Naif	10.000	27 072.25 ns
LINQ	10.000	113 967.87 ns
Vektor	10.000	7 571,82 ns
Intrinsik	10.000	4,296.71 ns

Naif	100.000	361 028.46 ns
LINQ	100.000	1.091.994,28 ns
Vektor	100.000	82 839.29 ns
Intrinsik	100.000	40 307,91 ns

Naif	1.000.000	1 634 175,46 ns
LINQ	1.000.000	6 194 257,38 ns
Vektor	1.000.000	583 901,29 ns
Intrinsik	1.000.000	413 520,38 ns

Metode Vektor dan Intrinsik sepenuhnya identik dalam logika, perbedaannya hanya dalam pelaksanaan operasi tertentu. Idenya secara keseluruhan adalah:

vektor topeng dibuat di mana nomor yang diperlukan disimpan di setiap elemen;
Bagian array dimasukkan ke dalam vektor v dan dibandingkan dengan mask, maka semua bit akan diatur dalam elemen yang sama di areEqual, karena areEqual adalah vektor dari ints, maka jika Anda mengatur semua bit dari satu elemen, kita mendapatkan -1 pada elemen ini ((int) (1111_1111_1111_1111_1111_1111_1111_1111b) == -1);
vektor areEqual dikurangi dari accVector dan kemudian accVector akan menjadi jumlah berapa kali elemen item terjadi di semua vektor v untuk setiap posisi (minus min memberi nilai tambah).

Semua kode dari artikel dapat ditemukan di GitHub

Kesimpulan

Saya memeriksa hanya sebagian kecil dari kemungkinan yang disediakan oleh .NET untuk perhitungan vektorisasi. Untuk daftar intrinsik yang lengkap dan terkini di .NETCORE di bawah x86, Anda dapat merujuk ke kode sumber . Sangat nyaman bahwa dalam file C # dalam ringkasan masing-masing intrinsik ada namanya sendiri dari dunia C, yang menyederhanakan pemahaman tentang tujuan intrinsik ini dan terjemahan dari algoritma C ++ / C yang ada ke .NET. Dokumentasi System.Numerics.Vector tersedia di msdn .

Menurut pendapat saya, .NET memiliki keunggulan besar dibandingkan C ++, karena .NET Kompilasi JIT sudah terjadi pada mesin klien, kompiler dapat mengoptimalkan kode untuk prosesor klien tertentu, memberikan kinerja maksimum. Pada saat yang sama, seorang programmer untuk menulis kode cepat dapat tetap berada dalam kerangka satu bahasa dan teknologi.

UPD (15/9/2019):

Ada patokan di tolok ukur

Dalam benchmark, saya menggunakan IterationSetup, yang, ternyata, dapat sangat mempengaruhi kinerja benchmark yang bekerja dalam waktu kurang dari 100 ms. Jika Anda mengulanginya di GlobalSetup, maka hasilnya akan seperti ini.

Jumlah elemen array:

Metode	ItemCount	Berarti	Kesalahan	Stddev	Rasio
Naif	10	3,531 ns	0,0336 ns	0,0314 ns	1,00
LINQ	10	76.925 ns	0,4166 ns	0,3897 ns	21.79
Vektor	10	2,750 ns	0,0210 ns	0,0196 ns	0,78
Intrinsik	10	6.513 ns	0,0623 ns	0,0582 ns	1,84

Naif	100	47.982 ns	0,3975 ns	0,3524 ns	1,00
LINQ	100	590.414 ns	3,8808 ns	3.4402 ns	12.31
Vektor	100	10.122 ns	0,0747 ns	0,0699 ns	0,21
Intrinsik	100	14.277 ns	0,0566 ns	0,0529 ns	0,30

Naif	1000	569.910 ns	2,8297 ns	2.6469 ns	1,00
LINQ	1000	5,658.570 ns	31,7465 ns	29.6957 ns	9,93
Vektor	1000	79.598 ns	0,3498 ns	0,3272 ns	0,14
Intrinsik	1000	66.970 ns	0,3937 ns	0,3682 ns	0,12

Naif	10.000	5,637.571 ns	37.5050 ns	29.2814 ns	1,00
LINQ	10.000	56.498.987 ns	294.8776 ns	275.8287 ns	10.02
Vektor	10.000	772.900 ns	2,6802 ns	2,5070 ns	0,14
Intrinsik	10.000	579.152 ns	2,8371 ns	2,6538 ns	0,10

Naif	100.000	56.352.865 ns	230.7916 ns	215.8826 ns	1,00
LINQ	100.000	562.610.571 ns	3,775.7631 ns	3,152.9332 ns	9,98
Vektor	100.000	8,389.647 ns	165,9590 ns	227.1666 ns	0,15
Intrinsik	100.000	7,261.334 ns	89.6468 ns	69,9903 ns	0,13

Membandingkan dua array:

Metode	ItemCount	Berarti	Kesalahan	Stddev	Rasio
Naif	10.000	7.033.8 ns	50,636 ns	47.365 ns	1,00
LINQ	10.000	64.841,4 ns	289.157 ns	270.478 ns	9.22
Vektor	10.000	504.0 ns	2,406 ns	2,251 ns	0,07
Memcmp	10.000	368.1 ns	2,637 ns	2,466 ns	0,05
Intrinsik	10.000	283,6 ns	1,135 ns	1,061 ns	0,04

Naif	100.000	85.214,4 ns	903.868 ns	845.478 ns	1,00
LINQ	100.000	702.279,4 ns	2,846.609 ns	2,662.720 ns	8.24
Vektor	100.000	5,179.2 ns	45.337 ns	42.409 ns	0,06
Memcmp	100.000	4,510,5 ns	24.292 ns	22.723 ns	0,05
Intrinsik	100.000	2,957,0 ns	11.452 ns	10.712 ns	0,03

Naif	1.000.000	844,006,1 ns	3,552.478 ns	3,322.990 ns	1,00
LINQ	1.000.000	6,483.079,3 ns	42.641.040 ns	39.886.455 ns	7.68
Vektor	1.000.000	54.180.1 ns	357.258 ns	334.180 ns	0,06
Memcmp	1.000.000	49,480.1 ns	515.675 ns	457.133 ns	0,06
Intrinsik	1.000.000	36.633.9 ns	680.525 ns	636.564 ns	0,04

Jumlah kemunculan elemen dalam array:

Metode	ItemCount	Berarti	Kesalahan	Stddev	Rasio
Naif	10	8,844 ns	0,0772 ns	0,0603 ns	1,00
LINQ	10	87.456 ns	0,9496 ns	0,8883 ns	9,89
Vektor	10	3,140 ns	0,0406 ns	0,0380 ns	0,36
Intrinsik	10	13.813 ns	0,0825 ns	0,0772 ns	1.56

Naif	100	107.310 ns	0,6975 ns	0,6183 ns	1,00
LINQ	100	626.285 ns	5.7677 ns	5.3951 ns	5.83
Vektor	100	11.844 ns	0,2113 ns	0,1873 ns	0,11
Intrinsik	100	19.616 ns	0,1018 ns	0,0903 ns	0,18

Naif	1000	1.032.466 ns	6.3799 ns	5.6556 ns	1,00
LINQ	1000	6,266.605 ns	42,6585 ns	39,9028 ns	6.07
Vektor	1000	83,417 ns	0,5393 ns	0,4780 ns	0,08
Intrinsik	1000	88,358 ns	0,4921 ns	0,4603 ns	0,09

Naif	10.000	9,942.503 ns	47.9732 ns	40.0598 ns	1,00
LINQ	10.000	62.305.598 ns	643.8775 ns	502.6972 ns	6.27
Vektor	10.000	914.967 ns	7.2959 ns	6.8246 ns	0,09
Intrinsik	10.000	931.698 ns	6.3444 ns	5.9346 ns	0,09

Naif	100.000	94.834.804 ns	793.8585 ns	703.7349 ns	1,00
LINQ	100.000	626.620.968 ns	4,696.9221 ns	4,393.5038 ns	6.61
Vektor	100.000	9,000.827 ns	179.5351 ns	192.1005 ns	0,09
Intrinsik	100.000	8,690.771 ns	101.7078 ns	95.1376 ns	0,09

Naif	1.000.000	959.302.249 ns	4,268.2488 ns	3,783.6914 ns	1,00
LINQ	1.000.000	6.218.681.888 ns	31.321.9277 ns	29.298.5506 ns	6.48
Vektor	1.000.000	99.778.488 ns	1,975.6001 ns	4,252.6877 ns	0,10
Intrinsik	1.000.000	96.449.350 ns	1,171.8067 ns	978.5116 ns	0,10

Ikhtisar kecil SIMD di .NET / C #

Sedikit sejarah

Ringkas elemen-elemen dari array

Bandingkan dua array

Hitung berapa kali suatu elemen muncul dalam koleksi

Kesimpulan

More articles: