Monster setelah liburan: AMD Threadripper 2990WX 32-Core dan 2950X 16-Core

Bagian 1Bagian 2Bagian 3Bagian 4

Stack Produk AMD Baru



Setengah kerajaan untuk kinerja tinggi. Ketika datang ke pemrosesan data, bandwidth menjadi faktor kunci: setelah semua, semakin banyak waktu yang harus dilakukan pengguna, semakin banyak proyek yang akan diselesaikan, dan karenanya, jumlah kontrak akan meningkat. Pengguna workstation sering menemukan hambatan dalam sistem dan suka membuang sumber daya untuk memecahkan masalah, baik itu core, memori, atau akselerasi grafik. Threadripper generasi kedua, yang dikenal sebagai Threadripper 2, melampaui batas lama rasio core dan harga: 2990WX menyediakan 32 core dan 64 thread hanya dengan $ 1799. Ada lagi 2950X dengan 16 core dan 32 thread, yang menetapkan harga minimum baru $ 899 Kami memeriksa keduanya.

Ulasan AMD Threadripper 2990WX 32-Core dan 2950X 16-Core


Sejak AMD meluncurkan Ryzen generasi pertama dengan delapan core melawan empat core Intel, telah ada diskusi panjang tentang berapa banyak core yang masuk akal. Jawaban untuk pertanyaan ini sepenuhnya tergantung pada beban kerja: berapa banyak alat yang berbeda yang diharapkan pengguna untuk digunakan pada saat yang sama. Karena pasar workstation mencakup beragam pengguna "beraneka ragam" (dan, meskipun membutuhkan kecepatan), menyediakan opsi tunggal yang nyaman bagi semua orang sama sekali tidak realistis.

Threadripper generasi pertama AMD, yang dirilis pada tahun 2017, telah menghadirkan prosesor 16-inti kepada masyarakat. Sebelumnya hanya tersedia pada platform server, komponen baru dinilai sangat kompetitif terhadap penawaran 10-inti. AMD menggunakan platform servernya dengan tweak kecil untuk menyerang pesaing dan pemimpin mereka Halo.

Produk workstation Intel sendiri, yang sebelumnya disebut E5-2687W dan berdasarkan pada server dual-socket, pada dasarnya adalah server. Setelah meluncurkan platform desktop kinerja tinggi terbaru dengan hingga 18 core, Intel meluncurkan seri Xeon W, menggantikan komponen E5-W dari generasi sebelumnya. Hingga 18 core seharga ~ $ 2.500, meskipun penggunaannya membutuhkan chipset dan motherboard khusus.



Hari ini, AMD secara resmi meluncurkan Threadripper generasi kedua. Prosesor baru menembus pasar dengan sangat agresif: menawarkan arsitektur mikro + Zen yang ditingkatkan, kami mendapatkan peningkatan 3% dalam kinerja IPC; Teknologi proses 12 nm digunakan, yang pada gilirannya meningkatkan frekuensi dan mengurangi konsumsi daya. AMD menyerang pasar dengan jumlah core! Tidak hanya prosesor 12 dan 16-core digantikan oleh model Zen + baru pada frekuensi yang lebih tinggi, perusahaan ini menawarkan 24 dan 32 core dalam prosesor dengan biaya hingga $ 1.799. 32 core seharga $ 1.799 versus 18 core dengan harga hampir $ 2.500 - pukulan yang bagus untuk para pesaing, bukan?

Bagaimana AMD mendukung 32 core


Untuk disebut prosesor 32-inti, jajaran prosesor server generasi pertama AMD, yang disebut EPYC, masing-masing menggunakan empat susunan silikon dengan delapan inti. Komponen-komponen ini memiliki delapan saluran memori dan 128 jalur PCIe 3.0 untuk berbagai keperluan. Saat merilis Threadripper generasi pertama, AMD menonaktifkan dua array silikon ini, hanya memberikan 16 core, empat kanal memori, dan 60 lajur PCIe. Produk akhir ditargetkan pada konsumen ritel.

Untuk memberi pengguna 32 core, AMD menggunakan silikon EPYC 32-core yang sama, tetapi memutakhirkannya ke Zen + pada 12 nm untuk frekuensi yang lebih tinggi dan daya yang lebih rendah. Ini sedikit dipangkas untuk kompatibilitas dengan generasi pertama: empat saluran memori dan 60 jalur PCIe. Meskipun AMD memposisikan produk sebagai prosesor generasi pertama yang diperbarui dengan sejumlah besar core, bukan versi server strip-down. Pendekatan ini mudah dijelaskan oleh segmentasi produk. Ini adalah taktik yang telah digunakan kedua perusahaan untuk meluncurkan lini produk yang diperluas.



Akibatnya, salah satu cara untuk merasakan chip generasi baru 32-dan 24-inti adalah dual-modul: setengah dari chip memiliki akses ke sumber daya penuh, mirip dengan produk dari generasi pertama, sementara setengah lainnya dari chip menggandakan sumber daya komputasi yang sama, tetapi memiliki penundaan memori tambahan dan PCIe dibandingkan dengan paruh pertama. Untuk setiap pengguna yang bingung dengan kekuatan pemrosesan daripada memori atau PCIe, AMD adalah solusi terbaik.

Dalam ulasan kami, kami akan melihat bahwa konstruksi bimodal ini memiliki dampak signifikan pada kinerja, baik dan buruk, sekali lagi, itu tergantung pada jenis beban kerja.

AMD Stack baru


AMD secara resmi memasuki pasar dengan empat prosesor threadripper generasi kedua. Dua di antaranya akan langsung menggantikan produk-produk generasi pertama: 16-core 2950X untuk menggantikan 16-core 1950X, dan 12-core 2920X ke 12-core 1920X. Dua prosesor baru tidak akan dual-modul, hanya dua dari empat kristal silikon pada paket yang aktif (konfigurasi 16-inti terlihat seperti 8 + 0 + 8 + 0, yang 12-core terlihat seperti 6 + 0 + 6 + 0). Di bagian bawah tumpukan akan menjadi generasi pertama dari 8-core (4 + 0 + 4 + 0) 1900X, yang menawarkan memori empat saluran dan 60 jalur PCIe.



Dua prosesor baru diwakili oleh 32-core 2990WX dan 24-core 2970WX. Mereka akan mencakup empat inti per kompleks (8 + 8 + 8 + 8) dan tiga inti per kompleks (6 + 6 + 6 + 6), masing-masing, memiliki sifat dua modul memori dan PCIe yang telah dijelaskan. Branding berubah, sekarang WX, mungkin untuk Workstation eXtreme. Ini menempatkan produk pada jalur pemasaran yang sama dengan keluarga Radeon Pro WX.



AMD Ryzen Threadripper 2990WX adalah produk super baru dengan 32 core dan 64 thread, dengan frekuensi dasar 3,0 GHz dan frekuensi turbocharger atas 4,2 GHz. Waktu henti prosesor adalah 2,0 GHz. Dalam pengujian, kami melihat 2,0 GHz pada setiap inti tanpa beban.

Produk lain dari seri WX adalah 2970WX: menonaktifkan satu inti per kompleks, dan menawarkan total 24 core. Dengan frekuensi yang sama dengan 2990WX, dan dengan TDP, jalur PCIe, dan dukungan memori yang sama, prosesor ini akan diluncurkan pada bulan Oktober dengan harga $ 1.299. Dengan lebih sedikit inti yang dimuat, kita dapat mengharapkan prosesor ini bekerja di turbo lebih sering. dari kakak 32-inti besar.



Sedangkan untuk seri X, TR 2950X adalah pengganti 16-inti. Prosesor sepenuhnya memanfaatkan frekuensi cepat yang dapat diberikan oleh proses 12-nm baru: frekuensi dasar 3,5 GHz dan turbo 4,4 GHz membawa produk generasi sebelumnya bertekuk lutut. Bahkan, 2950X terlihat seperti AMD Ryzen yang ter-overclock dengan baik. Keuntungan yang cukup besar dengan harga yang lebih murah: alih-alih $ 999, pengguna sekarang bisa mendapatkan prosesor 16-inti untuk $ 899. The 2950X akan dirilis pada akhir bulan, 31 Agustus.

Dan akhirnya, kami menyebutkan 2920X, yang menggantikan 1920X, dan menawarkan peningkatan yang sama dengan prosesor lain di lini. Seperti pada kasus 2950X, frekuensinya meningkat dengan baik dibandingkan tahun lalu, frekuensi dasar adalah 3,5 GHz dan turbo adalah 4,3 GHz. Semua keindahan ini dalam satu paket dengan desain termal 180 watt. The 2920X akan dirilis pada bulan Oktober dengan harga eceran $ 649.

Nucleolus to nucleolus, atau desain kompromi


Pendekatan AMD terhadap prosesor besar ini adalah dengan mengambil unit berulang kecil, seperti kompleks 4-inti atau kristal silikon 8-inti (yang mencakup dua kompleks), dan memasukkan beberapa ke dalam satu prosesor. "Di pintu keluar" jumlah inti dan utas yang diperlukan. Di antara manfaatnya adalah banyak blok direplikasi, seperti saluran memori dan jalur PCIe. Kelemahannya adalah bagaimana core dan memori ini harus berkomunikasi satu sama lain.

Dalam desain silikon monolitik standar (tunggal), setiap inti terletak pada interkonektor internal dengan pengontrol memori dan dapat pergi ke memori utama dengan penundaan yang rendah. Nilai tukar antara inti dan pengontrol memori biasanya cukup rendah, dan mekanisme perutean (cincin atau kisi) dapat menentukan bandwidth, latensi, dan skalabilitas. Kinerja akhir biasanya merupakan kompromi antara faktor-faktor ini.

Dalam desain dengan beberapa kristal, di mana setiap cap memiliki akses tidak hanya ke memori tertentu secara lokal, tetapi juga ke memori lain menggunakan lompatan, kita dihadapkan dengan arsitektur memori yang tidak rata. Ini dikenal sebagai desain NUMA. Dalam hal ini, kinerja mungkin dibatasi oleh keterlambatan memori abnormal ini. Oleh karena itu, perangkat lunak harus “NUMA-aware” untuk mengoptimalkan latensi dan throughput. Jangan lupa bahwa transisi tambahan antara matriks dan pengontrol memori membutuhkan daya komputasi tertentu.

Kami menemukan ini sebelumnya pada generasi pertama Threadripper (kehadiran dua matriks silikon aktif dalam paket). Jika data yang diperlukan ada di memori lokal ke silikon lain, lompatan diperlukan. Dengan Threadripper generasi kedua, lompatan ini menjadi jauh lebih sulit.



Di sebelah kiri adalah desain 1950X / 2950X dengan dua susunan silikon aktif. Setiap matriks memiliki akses langsung ke 32 jalur PCIe dan dua saluran memori, yang menambahkan hingga 64/4 jalur PCIe dan empat saluran memori. Pada gilirannya, core yang bekerja dengan memori / PCIe dan terhubung ke matriksnya bekerja lebih cepat daripada saat menggunakan sumber daya yang terhubung ke matriks lain.

2990WX dan 2970WX memiliki dua silikon “tidak aktif” yang diaktifkan, tetapi tidak memiliki akses langsung tambahan ke memori atau PCIe. Tidak ada memori "lokal" atau koneksi untuk core ini: setiap akses ke memori utama memerlukan transisi tambahan. Selain itu, ada tambahan interkonektor matriks-ke-matriks berdasarkan AMD Infinity Fabric (IF) yang mengonsumsi energi.

Alasan inti tambahan ini tidak memiliki akses langsung terletak pada platform: platform TR4 untuk prosesor Threadripper menggunakan memori empat saluran dan 60 slot PCIe. Jika dua matriks lainnya termasuk memori lokal dan PCIe, motherboard dan perangkat memori baru akan diperlukan.

Pengguna dapat bertanya apakah kami dapat mengubah desain sehingga setiap kristal silikon memiliki satu saluran memori dan satu set 16 jalur PCIe? Mungkin saja. Namun, platform ini agak terbatas dalam hal pin dan rute dikendalikan pada soket dan motherboard. Firmware mengharapkan dua saluran memori untuk setiap silikon, selain itu, ada alasan yang terkait dengan catu daya. Motherboard saat ini di pasar sama sekali tidak dikonfigurasi dengan cara itu. Fakta ini akan memiliki dampak besar pada kinerja, jadi ingatlah itu saat kita menjalani tes.
Perlu dicatat bahwa ini adalah generasi kedua dari Threadripper dan platform server AMD, EPYC, adalah saudara. Keduanya memiliki prosesor dan tata letak soket yang sama, tetapi EPYC mencakup semua saluran memori (delapan) dan semua jalur PCIe (128):



Dan jika Threadripper 2 kehilangan kinerja karena adanya beberapa core tanpa akses langsung ke memori, maka EPYC memiliki memori langsung yang tersedia. Prosesor membutuhkan lebih banyak daya, tetapi menawarkan konfigurasi lalu lintas yang lebih seragam dari inti ke jaringan.

Kembali ke Threadripper 2, penting untuk memahami bagaimana chip akan dimuat. AMD telah mengkonfirmasi bahwa untuk sebagian besar, penjadwal akan memuat kernel yang pertama kali terpasang langsung ke memori sebelum menggunakan kernel lainnya. Ternyata setiap inti memiliki "bobot" prioritas, berdasarkan kinerja, kinerja termal, dan daya. Prioritas diberikan kepada mereka yang paling dekat dengan memori. Prioritas inti berkurang ketika terisi karena ketidakefisienan termal.

Peningkatan presisi 2


Penentuan waktu turbo yang tepat untuk setiap prosesor baru sekarang akan ditentukan oleh fungsi penskalaan frekuensi tegangan AMD menggunakan Precision Boost 2. Fitur ini, yang kami teliti secara rinci dalam ulasan Ryzen 7 2700X, bergantung pada daya yang tersedia untuk menentukan frekuensi, alih-alih tabel referensi yang terpisah dari tegangan dan frekuensi. berdasarkan beban. Tergantung pada kemampuan awal sistem, frekuensi dan tegangan akan secara dinamis digeser untuk menggunakan lebih banyak daya potensial yang tersedia setiap saat dari beban prosesor.



Sebuah prosesor dapat menggunakan lebih banyak daya daripada yang dimungkinkan oleh tabel pencarian tetap, yang seharusnya cocok untuk semua prosesor dalam model yang diberikan.

Precision Boost 2 bekerja bersama dengan XFR2 (eXtreme Frequency Range), yang merespons kisaran suhu yang tersedia. Jika ada anggaran termal tambahan yang disediakan oleh pendingin yang baik, prosesor dapat menggunakan lebih banyak daya sebelum mencapai batas termal, dan mendapatkan frekuensi tambahan. AMD mengklaim bahwa pendingin yang baik di lingkungan yang dingin dapat meningkatkan daya komputasi lebih dari 10% dalam beberapa tes, berkat penggunaan teknologi XFR2. Untuk menunjukkan "plus" ini dengan meluncurkan Threadripper 2 di tengah periode terpanas di Eropa, AMD sulit. Eropa dikenal karena mengabaikan pendingin udara di seluruh dunia, dan ketika suhu sekitar melebihi 30ºC, peningkatan produktivitas terbatas. Ulasan Skandinavia mungkin menunjukkan hasil yang lebih baik daripada ulasan dari daerah tropis.

Pada akhirnya, ini mempersulit pengujian Threadripper 2. Dengan tabel turbo, kinerja sangat terkait dengan karakteristik setiap elemen silikon, yang menjadikan konsumsi daya satu-satunya gradasi. Dengan PB2 dan XF2, tidak ada dua prosesor yang akan bekerja sama.

Beruntung bagi kami, kami melakukan sebagian besar pengujian kami di hotel ber-AC berkat KTT Inovasi Data-Centric Intel, yang berlangsung seminggu sebelum peluncuran prosesor.

Meningkatkan ketepatan overdrive


Prosesor baru ini mendukung fitur Precision Boost Overdrive, yang mencakup bidang utama seperti daya, arus desain termal, dan arus desain listrik. Jika salah satu dari ketiga area ini "menunjukkan" potensi yang tidak digunakan, sistem akan mencoba meningkatkan frekuensi dan voltase untuk meningkatkan kinerja. PBO adalah kombinasi dari overclocking "standar", yang mempercepat semua core secara bersamaan, dengan kemungkinan meningkatkan frekuensi pada satu core untuk mendapatkan peningkatan kinerja pada beban kerja menengah. PBO menghemat energi saat prosesor mati dan bekerja dengan kinerja standar. Precision Boost Overdrive dihidupkan dengan Ryzen Master.

"Tiga area utama" ini didefinisikan oleh AMD sebagai berikut:

  • Paket (CPU) Daya, atau PPT - konsumsi daya maksimum yang diijinkan dari sebuah soket, tergantung pada catu daya ke soket;
  • Thermal Design Current atau TDC - arus maksimum yang dipasok oleh regulator tegangan motherboard setelah mencapai suhu yang stabil;
  • Electrical Design Current atau EDC - arus maksimum yang disuplai oleh regulator tegangan motherboard dalam keadaan puncak.

Memperluas batas-batas ini, PBO memperluas kemampuan PB2, yang pada gilirannya memungkinkan Anda memuat sistem seefisien mungkin.



StoreMI


Bersama dengan prosesor Ryzen Threadripper 2 baru, pengguna memiliki akses ke solusi perangkat lunak StoreMI. Ini memungkinkan Anda untuk membuat penyimpanan berjenjang khusus dengan menggabungkan DRAM, SSD, dan HDD ke dalam satu ruang penyimpanan tunggal. Implementasi perangkat lunak secara dinamis mengalokasikan data menggunakan DRAM hingga 2 GB, hingga 256 GB SSD (NVMe atau SATA) dan hard drive yang berputar. Pendekatan ini memberikan kemampuan membaca dan menulis terbaik, dengan kurangnya ruang pada drive berkecepatan tinggi.



AMD awalnya menawarkan perangkat lunak ini sebagai tambahan untuk platform Ryzen APU sebesar $ 20, dan kemudian gratis (hingga 256 GB SSD) untuk pengguna prosesor seri Ryzen 2000. Tawaran ini sekarang meluas ke Threadripper. AMD menunjukkan bagaimana idealnya perangkat lunak menyediakan waktu boot 90% lebih cepat.

Beri saya makan: Kain Infinity membutuhkan lebih banyak daya


Ketika pergerakan data antara core dan pengontrol memori berubah dari topologi ring ke mesh atau chiplet, komunikasi antara core menjadi jauh lebih rumit. Mulai sekarang, setiap inti atau lingkungannya harus bertindak sebagai router, dan menentukan jalur terbaik untuk data jika beberapa "lompatan" diperlukan untuk mencapai tujuan yang dimaksud. Seperti yang kita lihat dengan Intel MoDe-X mesh ketika meluncurkan Skylake-X, Anda harus secara bersamaan menghindari persaingan untuk meningkatkan kinerja dan mengurangi panjang konduktor untuk mengurangi daya. Ternyata dalam sistem seperti itu, teknologi komunikasi internuklear mulai mengkonsumsi banyak energi, terkadang lebih dari inti itu sendiri.

Untuk menggambarkan kekuatan chip, semua prosesor konsumen memiliki nominal "TDP" atau daya desain termal. Intel dan AMD mengukur nilai ini secara berbeda berdasarkan beban kerja dan suhu. Secara teknis, TDP adalah energi termal yang harus didinginkan oleh pendingin saat prosesor terisi penuh (dan biasanya ditentukan pada frekuensi dasar, bukan frekuensi turbo semua inti). Konsumsi energi aktual mungkin lebih tinggi, tergantung pada kerugian karena catu daya atau disipasi termal melalui papan, tetapi untuk sebagian besar situasi, TDP dan konsumsi energi secara umum dianggap sama.

Ini berarti bahwa peringkat TDP pada prosesor modern seperti 65W, 95W, 105W, 140W, 180W, dan sekarang 250W seharusnya menunjukkan konsumsi daya puncak. Namun, tidak semua energi ini dapat meningkatkan frekuensi dalam nuklei. Bagian dari itu akan digunakan dalam pengontrol memori, di IO, dalam grafik terintegrasi (jika ada satu di chip). Ternyata koneksi internasional menjadi partisipan penuh dalam konsumsi daya. Kami ingin tahu berapa banyak yang mereka konsumsi.

Untuk memahami ruang lingkup, mari kita mulai dengan sesuatu yang mudah dan diketahui oleh sebagian besar pengguna. Prosesor Intel Coffee Lake yang lebih baru, seperti Core i7-8700K, menggunakan desain ring bus. Prosesor ini menggunakan satu cincin untuk menghubungkan masing-masing inti dan pengontrol memori: jika Anda perlu memindahkan data, mereka jatuh ke dalam cincin dan bergerak sampai tiba di tujuan. Sistem interaksi nuklir secara historis disebut "Uncore" dan mampu berinteraksi dengan core yang beroperasi pada frekuensi dan kekuatan skala yang berbeda sesuai kebutuhan. Distribusi daya adalah sebagai berikut:



Meskipun TDP 95 W, prosesor pada frekuensi dasar ini mengkonsumsi sekitar 125 W pada beban penuh, yang jauh lebih banyak daripada TDP-nya (juga ditentukan pada frekuensi dasar). Kami tertarik pada hal lain: rasio konsumsi Uncore terhadap daya total. uncore 4% , 7-9%. « 10%».

- : Intel Skylake-X. Intel «mesh» (), MoDe-X. , , .



, , 14 . mesh , , Intel, .



, uncore mesh 20% , 25-30% . .

AMD . crossbar. , . . «»», Infinity Fabric (IF).



IF , . , , Ryzen 7 2700X, TDP 105 .



AMD . -, , IF 43% . 4% i7-8700K 19% i9-7980XE. 43% 25%.

-, , IF , ~ 17,6 ~ 25,7 . Intel , ~ 13,8 40 .

Ryzen Threadripper 2950X — 16- Threadripper, .



, IF. Uncore + .



Infinity Fabric 59% . ( CCX), CCX , die-to-die - .

, IF, 34 43 , 25% , 2700X.

2990WX. , IF , IF-:



. , DRAM. AMD IF-, . - , IF- . - .



. Infinity Fabric 56,1 76,7 , 73% . 2950 34 , , IF. .

, , 2990WX TDP 250 , 180 . , . , IF , 36%, 35% 40% . , , , 25% 2700X 2950X.

, , EPYC 7601, , ? Zen , EPYC IO, , Uncore .



, 2990WX, , . uncore .



, 74,1 , IF 66,2 89%! , 66,2 90 . 90 180 TDP!

Hal di atas mengarah pada kesimpulan yang menarik - jika kita murni secara akademis membandingkan manfaat dari satu inti dengan inti lainnya, haruskah kita memperhitungkan kontribusi kekuatan Uncore? Untuk analisis nyata, tentu saja ya, tetapi untuk yang murni akademis? Biarkan saya bernubuat:

Setelah pertempuran untuk jumlah core, pertempuran berikutnya adalah untuk interkoneksi. Konsumsi rendah, skalabilitas, dan kinerja tinggi: penskalaan simpul prosesor tidak ada artinya jika Uncore menyumbang 90% dari total daya chip.

Terima kasih telah tinggal bersama kami. Apakah Anda suka artikel kami? Ingin melihat materi yang lebih menarik? Dukung kami dengan melakukan pemesanan atau merekomendasikannya kepada teman-teman Anda, diskon 30% untuk pengguna Habr pada analog unik dari server entry-level yang kami buat untuk Anda: Seluruh kebenaran tentang VPS (KVM) E5-2650 v4 (6 Cores) 10GB DDR4 240GB SSD 1Gbps dari $ 20 atau bagaimana membagi server? (opsi tersedia dengan RAID1 dan RAID10, hingga 24 core dan hingga 40GB DDR4).

3 bulan gratis ketika membayar untuk Dell R630 baru untuk jangka waktu enam bulan - 2 x Intel Deca-Core Xeon E5-2630 v4 / 128GB DDR4 / 4x1TB HDD atau 2x240GB SSD / 1Gbps 10 TB - dari $ 99,33 sebulan , hanya sampai akhir Agustus, pesan bisa disini

Dell R730xd 2 kali lebih murah? Hanya kami yang memiliki 2 x Intel Dodeca-Core Xeon E5-2650v4 128GB DDR4 6x480GB SSD 1Gbps 100 TV dari $ 249 di Belanda dan Amerika Serikat! Baca tentang Cara Membangun Infrastruktur Bldg. kelas menggunakan server Dell R730xd E5-2650 v4 seharga 9.000 euro untuk satu sen?

Source: https://habr.com/ru/post/id421147/


All Articles