Biostar Racing P1: Dari Mudah ke Kompleks

Pada komputer mini seperti Biostar Racing P1, setiap megahertz berharga. Ini ditentukan oleh kekompakan dan konsumsi daya yang rendah. Prosesor Intel Atom x5-Z8350 ada di sini. Dan Anda tidak harus mengharapkan catatan kinerja khusus darinya. Terutama, mengingat kinerja penulisan yang gagal dari cache level L1.

Namun demikian, konsumen "tidak lagi bertahan lama, tetapi juga bukan laptop" ini akan tetap menemukan konsumennya. Jaminannya adalah empat inti dari CPU yang tampaknya sederhana. Haruskah mereka punya harapan?

Dalam artikel sebelumnya, kami menganalisis hasil tes cache yang dilakukan dalam satu utas, yang memberikan gambaran tentang kinerja "terisolasi" dari satu kernel. Apa yang akan menjadi evaluasi terintegrasi dari prosesor multi-core? Jadi, setel kotak centang Gunakan operasi paralel di utilitas NCRB dan lakukan serangkaian pengukuran yang serupa.

Gambar 1 . Memilih skenario untuk pengujian platform multi-berulir menggunakan utilitas NCRB

Tes L1 Cache Multithreaded


Dalam prosesor Intel Atom x5-Z8350, cache tingkat pertama adalah sumber daya pribadi masing-masing dari empat core. Ini berarti bahwa ketika memproses blok data yang ukurannya lebih kecil dari ukuran L1 (dalam contoh kami, itu adalah 24 kilobyte), setiap inti menggunakan memori cache sendiri, praktis tidak ada persaingan saat mengakses, yang berarti kita dapat mengharapkan peningkatan beberapa kinerja sesuai dengan jumlah. core. Ungkapan umum "Anda tidak akan bertarung" cukup akurat menandai skenario pengukuran ini.

Gambar 2 . Grafik kecepatan membaca blok data versus ukurannya untuk 4 inti prosesor yang beroperasi secara bersamaan; lingkungan X = ukuran L1
Counterarguments dapat mencakup faktor-faktor seperti mengurangi batas atas overclocking dinamis ketika menerapkan skenario konsumsi daya dan mode termal yang diberikan, serta membatasi waktu prosesor yang dialokasikan oleh sistem operasi ke aplikasi dalam lingkungan multitasking.

Ingatlah bahwa kinerja puncak dalam pengujian single-threaded (lihat " Biostar Racing P1: Cold Exhaust ") sedikit di atas 30 GBPS. Menggunakan 4 core, kami mendapatkan hasil sekitar 107 GBPS, yang cukup dekat dengan nilai teoritis 120 GBPS.

Gambar 3 . Grafik ketergantungan kecepatan tulis blok data pada ukurannya untuk bekerja secara simultan 4 core prosesor; lingkungan X = ukuran L1
Saat memeriksa L1, bagian kiri grafik yang sesuai dengan blok hingga 24KB penting. Di sini kita melihat dua fraksi kinerja: bagian cepat pada transaksi kecil (lebih dari 105 GBPS), dan bagian lambat untuk data yang lebih besar dari 6.4KB, tetapi masih "masuk" ke mata jarum cache L1. Semuanya jelas dengan yang pertama: itu, seperti dalam kasus tes membaca, dekat dengan nilai empat kali lipat untuk satu inti dari 120 GBPS. Mengapa menulis data ke L1 lagi gagal? Orang hanya bisa menebak tentang ini.

Mungkin, para insinyur Intel, yang merancang versi ekonomis dari prosesor, mengubah fokus caching data dari L1 ke L2. Caching instruksi Level 1 masih efisien, dan Atom x5-Z8350 baik-baik saja dengan itu. Dalam kondisi kekurangan sumber daya, prosesor pelit secara ceroboh menghabiskan memori statis untuk melayani aliran data, lebih mengandalkan kemampuan tingkat cache kedua.

Di sinilah pendekatan yang diterima secara umum untuk membangun profil beban untuk memproses transaksi secara real time datang ke pikiran. Standar yang diterima secara umum adalah rasio membaca dengan menulis dalam rasio 70% hingga 30%. Kira-kira ini berkorelasi dengan volume yang dialokasikan untuk perekaman "cepat" ke ruang yang tersisa di cache L1. Apakah mungkin untuk mengasumsikan berdasarkan ini bahwa Intel menargetkan prosesor Atom khususnya untuk memproses informasi streaming, misalnya, konten media?

Jelas, pengekangan prosesor dalam merekam caching bermanfaat jika tidak ada akses kembali ke informasi yang baru direkam: caching data yang "tidak perlu" menyumbat memori, memaksa data "perlu" keluar dari itu. Sepintas, penulisan ke memori dilakukan saat mengekstrak konten media adalah operasi yang tidak menguntungkan untuk di-cache. Jika Anda menolak untuk melakukan cache, mengakses data yang direkam sebelumnya, sebaliknya, akan hilang.

Tes L2 Cache Multithreaded


Cache tingkat kedua, dengan kapasitas total 2 megabita, dibagi menjadi dua bagian yang sama, yaitu 1 MB, yang masing-masing melayani kelompok dua inti. Ini berarti bahwa dalam pengujian multi-ulir, setiap core memiliki 512 kilobyte L2 cache, dibandingkan dengan 1 megabyte dalam satu thread tunggal. Oleh karena itu, pada grafik ketergantungan kecepatan pemrosesan blok pada ukurannya, titik belok harus diharapkan di sekitar X = 512 KB, dan bukan X = 1024 KB, seperti halnya dalam pengujian ulir tunggal (lihat " Biostar Racing P1: knalpot dingin "). Fitur topologi L2 cache yang dipertimbangkan juga memengaruhi penskalaan kecepatan aksesnya.

Gambar 4 . Grafik kecepatan membaca blok data versus ukurannya untuk 4 inti prosesor yang beroperasi secara bersamaan; lingkungan X = ukuran L2
Kinerja L2 mencirikan bagian plot yang memenuhi ketimpangan ganda 24 KB <X <512 KB, yang sesuai dengan blok data yang tidak lagi cocok di L1, tetapi masih cocok di L2.

Gambar 5 . Grafik ketergantungan kecepatan tulis blok data pada ukurannya untuk bekerja secara simultan 4 core prosesor; lingkungan X = ukuran L2
Ingat bahwa kecepatan baca L2 dalam pengujian ulir tunggal adalah sekitar 11,5 GBPS. Hasil penskalaan adalah sekitar 39 GBPS. Sangat bagus! Kecepatan tulis L2 single-threaded adalah sekitar 12 GBPS. Hasil penskalaan adalah sekitar 31 GBPS.

Alih-alih resume


Kami dapat menyatakan tingkat kinerja multi-utas platform yang sedang dipelajari. Arsitektur prosesor Intel Atom x5-Z8350, yang mendefinisikan cache pribadi L1 dan L2 yang dibagikan sebagian, diperkirakan akan memengaruhi hasil benchmark.

Gambar 6 . Memantau pemanfaatan CPU menggunakan Windows 10: saat beban kernel meningkat hingga 100 persen sesuai dengan waktu pengujian dijalankan
Saat Anda menjalankan tes multi-ulir, beban masing-masing inti prosesor meningkat hingga 100 persen. Apa yang terjadi pada suhu dan konsumsi daya?

Gambar 7 . Pemantauan suhu dan konsumsi daya menggunakan utilitas AIDA64
Hasilnya diperoleh dengan menggunakan diagnostik AIDA64 populer dan utilitas informasi sekitar 20 menit setelah dimulainya tes NCRB multithreaded.

Perhatian Penting


Mencoba mengulangi percobaan di atas pada komputer Anda, Anda harus mencadangkan data, pastikan efisiensi sistem pendingin prosesor, keandalan catu daya, dan pengontrol pulsa Vcore. Tes stres dapat merusak sistem yang di-overclock atau tidak stabil. Dan yang terbaik adalah bereksperimen dengan peralatan milik negara.

Source: https://habr.com/ru/post/id415451/


All Articles