Biostar Racing P1: knalpot dingin

Kami bukan yang pertama kali memperhatikan bahwa komputer kompak seperti Intel Compute Stick tidak cukup baik dalam hal kinerja. Berkenalan dengan perangkat serupa dari Biostar, harapan bukanlah yang paling optimis. Seperti model komputer stick yang lebih muda, Racing P1 berjalan pada salah satu prosesor terlemah dari keluarga Atom Z8000. Namun, chip x5-Z8350 yang dipilih oleh Biostar bahkan satu langkah, tetapi lebih produktif daripada adiknya. Mari kita coba mengevaluasi kinerja platform ini, yang, berkat upaya Biostar, bukan lagi sebuah tongkat, tetapi juga bukan laptop.


Gambar 1 . USB 3.0 / 2.0, slot kartu SD, kontak lampu latar, jack headphone dan tombol daya pas di panel depan

Alat yang digunakan adalah patokan NCRB (NUMA CPU dan RAM Benchmarks) untuk Win64 dan utilitas lintas platform untuk mengidentifikasi prosesor JavaCPUID.


CPU


Instruksi CPUID mengkonfirmasi bahwa prosesor Intel Atom x5-Z8350 diinstal pada platform Biostar Racing P1 . Frekuensi nominalnya adalah 1,44 GHz, yang, bagaimanapun, tidak mencegahnya secara hukum berakselerasi ke 1,92 GHz jika perlu. Bahkan dengan seorang kenalan singkat dengan platform ini, paradoksnya jelas: operasinya dalam kisaran 1,44 hingga 1,92 lebih merupakan aturan daripada pengecualian.


Gambar 2 . Spesifikasi Pabrik dari Intel Atom x5-Z8350

Keputusan oleh prosesor x5-Z8350 untuk memilih frekuensi clock minimum atau standar dan memulai mode Turbo didasarkan pada analisis beban dan suhu pengoperasian. Kerangka kerja SDP (Skenario Disipated Power) mendefinisikan konsumsi daya khas suatu perangkat. Mekanisme kontrol menilai situasi secara independen, dan dalam kasus beban "ringan" mengurangi konsumsi energi chip. Kemampuan untuk mengaktifkan mode Turbo adalah fungsi suhu, sehingga hasil tes musim panas dan musim dingin dapat bervariasi. Secara umum, Racing P1 juga "mengganti sepatu" untuk musim ini.


Melampaui ruang lingkup penelitian, kami mencatat bahwa afterburner mengarah ke konsumsi hingga 7 watt pada saluran listrik ~ 220 V. Mode jelajah Racing P1 mengurangi nilai ini sekitar setengahnya, mode tidur memerlukan sedikit lebih dari 2 watt dari listrik AC (pemantauan konsumsi dilakukan dengan watt rumah tangga normal) .


Gambar 3 . Fitur CPUID pada Fitur Intel Atom x5-Z8350

Intel Atom x5-Z8350 bekerja dengan data dengan kapasitas maksimum 128 bit. Ekstensi fungsional modern AVX 256/512 tidak didukung. Ini berarti bahwa alat ukur kami akan menjadi sekumpulan instruksi vektor SSE 128, dan objek pengukuran - memori cache dan RAM dinamis.


Gambar 4 . Informasi Pemilihan Sistem dan Mode Pemilihan Mode untuk NCRB Utility: Menu di sebelah kiri menampilkan set instruksi, termasuk ekstensi fungsional yang didukung oleh prosesor

Penyimpangan penting adalah tepat di sini: dalam kasus umum, kapasitas maksimum operan tidak berarti kinerja maksimum. Jadi, sejumlah prosesor AMD hingga AM2, inklusif, memproses dua unduhan 64-bit dengan instruksi MOV klasik lebih cepat dari satu unduhan SSE 128-bit dengan instruksi MOVAPD. Mengingat ini, sebelum bereksperimen, kami memastikan secara eksperimental - menggunakan SSE untuk Atom x5-Z8350 memang skenario yang paling produktif.


L1 Cache


Biasanya, ukuran cache adalah kelipatan dari kekuatan dua. Pada level pertama, pabrikan mencoba untuk mendistribusikannya secara merata antara instruksi dan data. Semua kanon ini tidak dihormati oleh arsitektur prosesor x5-Z8350. Masing-masing dari empat core-nya memiliki 32 kilobyte cache untuk instruksi dan 24 kilobyte untuk data.


Gambar 5 . Klasifikasi tingkat cache

Sejumlah sumber memberikan produk dengan ukuran memori cache dari satu inti dengan jumlah mereka, yang memberikan tampilan yang lebih mengesankan: cache instruksi 128KB dan cache data 96KB. Halaman resmi secara tradisional diam tentang cache L1, setidaknya pada saat penulisan ini.


Perhatikan bahwa cache tingkat nol (mirip dengan L1 Trace Cache), yang menyimpan instruksi yang diterjemahkan dan meningkatkan efisiensi siklus pendek, tidak dideklarasikan oleh instruksi CPUID. Memeriksa ketersediaan dan analisis fungsinya layak untuk publikasi terpisah.


Teori dan Praktek: Kinerja Cache


Pengukuran kecepatan cache terdiri dari operasi baca atau tulis siklik dari sebuah blok yang ukurannya lebih kecil dari ukuran level cache yang dipelajari, dan karenanya operasi akses data adalah hit cache. Bahkan, pilihan target (L1, L2 cache atau DRAM) ditentukan oleh ukuran blok data yang diproses.


Setelah menentukan entitas yang diuji, kami melanjutkan untuk mempertimbangkan operasi di tingkat instruksi mesin. Dalam percobaan kami, kami menggunakan siklus diperpanjang dari enam belas instruksi SSE2 MOVAPD, yang masing-masing mentransmisikan operan 128-bit antara memori dan salah satu register XMM. Akibatnya, 16 register XMM0 ... XMM15 dimuat penuh dalam satu iterasi dari loop.


Untuk kelengkapan, kami mencatat bahwa instruksi MOVAPD juga dapat digunakan untuk mentransfer data antara dua register XMM, tetapi dalam operasi register kasus kami tidak akan memberikan gambaran tentang kinerja objek memori. Kinerja maksimum dijamin oleh persyaratan penyelarasan yang diperlukan oleh instruksi MOVAPD: alamat operan harus merupakan kelipatan 16 byte (128 bit).



L1 Cache Benchmarks


Sementara blok baca atau tulis lebih kecil dari ukuran cache L1 (pada grafik, ini adalah sumbu X), nilai tukar tinggi. Segera setelah blok melampaui L1, terjadi kesalahan cache dan kecepatan turun. Jelas, ketika mengevaluasi kinerja, "langkah atas" yang sesuai dengan bagian kiri grafik adalah informatif.


Gambar 6 . Grafik kecepatan membaca blok data pada ukurannya;
Lingkungan X = Ukuran L1

Kecepatan maksimum dalam megabyte per detik (MBPS) sesuai dengan jumlah minimum kutu per instruksi ( CPI, Clocks Per Instruction ) dan sekitar 30 GBPS .


Gambar 7 . Plot kecepatan tulis blok data pada ukurannya;
Lingkungan X = Ukuran L1

Seperti yang dapat dilihat dari grafik, titik belok untuk membaca L1 sesuai dengan nilai teoritis 24 kilobyte. Sebagai catatan, kebijakan caching yang digunakan dalam prosesor ini ditandai dengan "penurunan awal" dalam kecepatan, yang akan menjadi subjek penelitian terpisah. Tetapi sekarang dapat dicatat - kebijakan ini tidak berkontribusi untuk mencatat indikator kinerja, meskipun dalam beberapa kasus dimungkinkan untuk menghindari penyumbatan L1 dengan data yang tidak perlu.


Hasilnya menunjukkan kecepatan yang dikembangkan oleh satu inti prosesor Atom x5-Z8350. Sejumlah tes, khususnya AIDA64, menunjukkan kinerja total semua core.


Kami akan melakukan perhitungan teoritis kecil dengan memodelkan throughput puncak. Untuk CPU yang sedang dipelajari, frekuensi clock dalam mode Turbo adalah 1920 MHz. 128 bit atau 16 byte ditransmisikan dalam satu siklus clock:

  • 1920 * 16 = 30720 (sekitar 30 Gigabytes per detik)

Penghitung TSC (Penghitung Stempel Waktu) digunakan sebagai sumber interval waktu yang patut dicontoh. Karena inti prosesor dan TSC umumnya clock secara tidak serempak, nilai-nilai siklus clock TSC per instruksi adalah nilai fraksional.


Pastikan prosesor beroperasi dalam mode Turbo, berdasarkan nilai frekuensi yang ditunjukkan dalam dokumentasi. Satu siklus clock dari frekuensi inti yang ditingkatkan 1920 MHz adalah sekitar 0,521 nanodetik. Satu siklus clock dari frekuensi nominal 1440 MHz, tempat Time Stamp Counter beroperasi, adalah sekitar 0,694 nanodetik. Untuk instruksi yang dieksekusi per siklus, nilai teoretis dari jumlah siklus TSC per instruksi (CPI) harus

  • 0,521 / 0,694 = 0,750

Nilai-nilai CPI Minimum yang diukur yang ditampilkan dalam 0,759 ... 0,767 cukup dekat dengan nilai ini.


L2 Cache


Empat inti prosesor yang diteliti dibagi menjadi dua kelompok, masing-masing dua inti. Ukuran total cache L2 adalah 2 MB dan dibagi secara merata di antara mereka. Kesimpulannya jelas: 1 megabyte L2 cache tersedia untuk setiap inti, akses yang dibagi dengan tetangga grup.



L2 Cache Benchmarks


Kecepatan cache L2 adalah "langkah" pusat yang terjadi ketika ketimpangan ganda 24 KB <X <1 MB diamati, ketika blok data yang diproses tidak lagi ditempatkan di L1, tetapi masih ditempatkan di L2.


Gambar 8 . Grafik kecepatan membaca blok data pada ukurannya;
Lingkungan X = Ukuran L2

Seperti yang dapat dilihat dari grafik, penurunan kecepatan karena kelelahan L2 terjadi ketika batas 1 MB terlampaui. Kemampuan untuk "meminjam" cache dari kelompok tetangga, setelah memindahkan momen penurunan kecepatan ke titik 2 MB, tidak ditemukan.


Gambar 9 . Plot kecepatan tulis blok data pada ukurannya;
Lingkungan X = Ukuran L2

Peringkat kinerja cache L2 menulis hampir membaca: 12 versus 11,5 GBPS. Latar belakang teoritis dari hasil ini akan dipertimbangkan dalam publikasi berikutnya .

Source: https://habr.com/ru/post/id413857/


All Articles