Monstres après les vacances: AMD Threadripper 2990WX 32-Core et 2950X 16-Core

Partie 1Partie 2Partie 3Partie 4

Nouvelle pile de produits AMD



La moitié du royaume pour des performances élevées. En ce qui concerne le traitement des données, la bande passante devient un facteur clé: après tout, plus l'utilisateur a de temps à faire, plus les projets seront terminés et, par conséquent, le nombre de contrats augmentera. Les utilisateurs de postes de travail découvrent souvent des goulots d'étranglement dans le système et aiment consacrer des ressources à la résolution d'un problème, qu'il s'agisse de cœurs, de mémoire ou d'accélération graphique. Le Threadripper de deuxième génération, connu sous le nom de Threadripper 2, va au-delà des anciennes limites du rapport des cœurs et du prix: 2990WX fournit 32 cœurs et 64 threads pour seulement 1799 $. Il existe un autre 2950X avec 16 cœurs et 32 ​​threads, il fixe un nouveau prix minimum de 899 $ Nous avons vérifié les deux.

AMD Threadripper 2990WX 32-Core et 2950X 16-Core Review


Depuis que AMD a lancé son premier Ryzen de première génération avec huit cœurs contre quatre cœurs Intel, il y a eu une longue discussion sur le nombre de cœurs qu'il est logique d'être. La réponse à cette question dépend entièrement de la charge de travail: combien d'outils différents l'utilisateur s'attend à utiliser en même temps. Étant donné que le marché des postes de travail couvre un large éventail d'utilisateurs «hétéroclites» (et, malgré le besoin de vitesse), proposer une option unique et pratique pour tout le monde est tout simplement irréaliste.

La première génération de Threadripper d'AMD, sortie en 2017, a amené les processeurs 16 cœurs à la masse. Auparavant disponibles uniquement sur les plates-formes serveur, les nouveaux composants étaient jugés très compétitifs par rapport aux offres 10 cœurs. AMD a utilisé sa plate-forme serveur avec de petits ajustements pour attaquer les concurrents et leur leader Halo.

Les propres produits de station de travail d'Intel, anciennement appelés E5-2687W et basés sur des serveurs à double socket, étaient, tout simplement, des serveurs. Après avoir lancé sa dernière plate-forme de bureau hautes performances avec jusqu'à 18 cœurs, Intel a lancé la série Xeon W, remplaçant les composants E5-W de la génération précédente. Jusqu'à 18 cœurs pour environ 2 500 $, bien que leur utilisation ait nécessité des chipsets et des cartes mères spéciaux.



Aujourd'hui, AMD lance officiellement le Threadripper de deuxième génération. De nouveaux processeurs pénètrent le marché de manière extrêmement agressive: offrant une microarchitecture Zen + améliorée, nous obtenons une augmentation de 3% des performances IPC; La technologie de traitement 12 nm est utilisée, ce qui augmente la fréquence et réduit la consommation d'énergie. AMD attaque le marché avec le nombre de cœurs! Non seulement les processeurs 12 et 16 cœurs sont remplacés par de nouveaux modèles Zen + à des fréquences plus élevées, mais la société propose 24 et 32 ​​cœurs dans un processeur pouvant coûter jusqu'à 1799 $. 32 cœurs pour 1 799 $ contre 18 cœurs pour près de 2 500 $ - un bon coup aux concurrents, non?

Comment AMD prend en charge 32 cœurs


Pour être appelée processeur 32 cœurs, la gamme de processeurs serveurs AMD de première génération, appelée EPYC, utilise quatre matrices de silicium de huit cœurs chacune. Ces composants ont huit canaux de mémoire et 128 voies PCIe 3.0 à des fins diverses. Lors de la sortie de la première génération Threadripper, AMD a désactivé deux de ces baies de silicium, ne donnant que 16 cœurs, quatre canaux de mémoire et 60 voies PCIe. Le produit final était destiné aux consommateurs de détail.

Pour fournir aux utilisateurs 32 cœurs, AMD utilise le même silicium EPYC à 32 cœurs, mais le met à niveau vers Zen + à 12 nm pour une fréquence plus élevée et une puissance inférieure. Il est légèrement coupé pour la compatibilité avec la première génération: quatre canaux de mémoire et 60 voies PCIe. Bien qu'AMD positionne le produit comme un processeur de première génération mis à jour avec un grand nombre de cœurs, plutôt que comme une version de serveur allégée. Cette approche s'explique facilement par la segmentation des produits. Il s'agit d'une tactique que les deux sociétés ont déjà utilisée pour lancer une gamme de produits élargie.



En conséquence, l'une des façons de percevoir les nouvelles puces de deuxième génération à 32 et 24 cœurs est à double module: la moitié de la puce a accès à toutes les ressources, similaire au produit de la première génération, tandis que l'autre moitié de la puce duplique les mêmes ressources informatiques, mais a un retard de mémoire supplémentaire et PCIe par rapport au premier semestre. Pour tout utilisateur perplexe par la puissance de traitement plutôt que par la mémoire ou le PCIe, AMD est la meilleure solution.

Dans notre examen, nous verrons que cette construction bimodale a un impact significatif sur les performances, bonnes et mauvaises, encore une fois, cela dépend du type de charge de travail.

Nouvelle pile AMD


AMD entre officiellement sur le marché avec quatre processeurs de threadripper de deuxième génération. Deux d'entre eux remplaceront directement les produits de la première génération: le 2950X 16 cœurs pour remplacer le 1950X 16 cœurs et le 2920X 12 cœurs pour le 1920X 12 cœurs. Deux nouveaux processeurs ne seront pas à double module, seuls deux des quatre cristaux de silicium du boîtier sont actifs (la configuration à 16 cœurs ressemble à 8 + 0 + 8 + 0, celle à 12 cœurs ressemble à 6 + 0 + 6 + 0). Au bas de la pile se trouvera la première génération du 1900X à 8 cœurs (4 + 0 + 4 + 0), qui offre une mémoire à quatre canaux et 60 voies PCIe.



Deux nouveaux processeurs sont représentés par le 2990WX 32 cœurs et le 2970WX 24 cœurs. Ils comprendront respectivement quatre cœurs par complexe (8 + 8 + 8 + 8) et trois cœurs par complexe (6 + 6 + 6 + 6), ayant la nature à deux modules déjà décrite de la mémoire et du PCIe. L'image de marque change, c'est maintenant WX, probablement pour Workstation eXtreme. Cela place le produit sur la même ligne de commercialisation que la famille Radeon Pro WX.



AMD Ryzen Threadripper 2990WX est un nouveau super-produit avec 32 cœurs et 64 threads, avec une fréquence de base de 3,0 GHz et une fréquence de turbocompresseur supérieure de 4,2 GHz. Le temps d'arrêt du processeur est de 2,0 GHz. Lors des tests, nous avons vu 2,0 GHz sur chaque cœur sans charge.

Un autre produit de la série WX est le 2970WX: désactive un cœur par complexe et offre un total de 24 cœurs. Avec les mêmes fréquences que le 2990WX, et avec le même TDP, les voies PCIe et la prise en charge de la mémoire, ce processeur sera lancé en octobre au prix de 1299 $. Avec moins de cœurs chargés, nous pouvons nous attendre à ce que ce processeur fonctionne plus souvent en turbo. qu'un grand frère de 32 cœurs.



Quant à la série X, le TR 2950X est un remplacement à 16 cœurs. Le processeur utilise pleinement les fréquences rapides que le nouveau processus 12 nm peut donner: la fréquence de base de 3,5 GHz et le turbo 4,4 GHz mettent à genoux le produit de la génération précédente. En fait, le 2950X ressemble à un AMD Ryzen bien overclocké. Un avantage considérable à un prix réduit: au lieu de 999 $, les utilisateurs peuvent désormais se procurer un processeur 16 cœurs pour 899 $. Le 2950X sortira à la fin du mois, le 31 août.

Et enfin, nous mentionnons le 2920X, qui a remplacé le 1920X, et offre les mêmes améliorations que les autres processeurs de la gamme. Comme dans le cas du 2950X, les fréquences sont bien augmentées par rapport à l'année dernière, la fréquence de base est de 3,5 GHz et le turbo est de 4,3 GHz. Toute cette beauté dans un boîtier au design thermique de 180 watts. Le 2920X sortira en octobre pour un prix de détail de 649 $.

Nucléole à nucléole ou compromis de conception


L'approche d'AMD vis-à-vis de ces grands processeurs consiste à prendre une petite unité répétitive, comme un complexe à 4 cœurs ou un cristal de silicium à 8 cœurs (qui comprend deux complexes), et d'en mettre plusieurs dans un processeur. "A la sortie" le nombre requis de cœurs et de threads. Parmi les avantages figurent de nombreux blocs répliqués, tels que des canaux de mémoire et des voies PCIe. L'inconvénient est la façon dont ces cœurs et la mémoire doivent communiquer entre eux.

Dans la conception standard monolithique en silicium (simple), chaque cœur est situé sur l'interconnecteur interne avec un contrôleur de mémoire et peut accéder à la mémoire principale avec un faible retard. Le taux de change entre les cœurs et le contrôleur de mémoire est généralement assez faible, et le mécanisme de routage (anneau ou grille) peut déterminer la bande passante, la latence et l'évolutivité. La performance finale est généralement un compromis entre ces facteurs.

Dans une conception à plusieurs cristaux, dans laquelle chaque tampon a accès non seulement localement à une mémoire spécifique, mais également à une autre mémoire utilisant un saut, nous sommes confrontés à une architecture mémoire inégale. Il est connu sous le nom de conception NUMA. Dans ce cas, les performances peuvent être limitées par ce retard de mémoire anormal. Par conséquent, le logiciel doit être «compatible NUMA» afin d'optimiser à la fois la latence et le débit. N'oubliez pas que les transitions supplémentaires entre la matrice et les contrôleurs de mémoire prennent une certaine puissance de calcul.

Nous l'avons rencontré plus tôt dans la Threadripper de première génération (la présence de deux matrices de silicium actives dans le boîtier). Si les données requises étaient en mémoire locale à un autre silicium, un saut était nécessaire. Avec la deuxième génération de Threadripper, ce saut devient beaucoup plus difficile.



Sur la gauche se trouve la conception 1950X / 2950X avec deux matrices de silicium actives. Chaque matrice a un accès direct à 32 voies PCIe et deux canaux de mémoire, ce qui ajoute jusqu'à 64/4 voies PCIe et quatre canaux de mémoire. À leur tour, les cœurs qui fonctionnent avec la mémoire / PCIe et sont connectés à leur matrice fonctionnent plus rapidement que lorsqu'ils utilisent des ressources connectées à une autre matrice.

Le 2990WX et le 2970WX ont deux silicium «inactifs» activés, mais n'ont pas d'accès direct supplémentaire à la mémoire ou au PCIe. Il n'y a pas de mémoire ou de connexion «locale» pour ces cœurs: chaque accès à la mémoire principale nécessite une transition supplémentaire. De plus, il existe des interconnecteurs matrice à matrice supplémentaires basés sur AMD Infinity Fabric (IF) qui consomment de l'énergie.

La raison pour laquelle ces cœurs supplémentaires n'ont pas d'accès direct réside dans la plate-forme: la plate-forme TR4 pour les processeurs Threadripper utilise une mémoire à quatre canaux et 60 emplacements PCIe. Si les deux autres matrices incluent la mémoire locale et PCIe, de nouvelles cartes mères et périphériques de mémoire seront nécessaires.

Les utilisateurs peuvent demander si nous pouvons changer la conception de sorte que chaque cristal de silicium ait un canal mémoire et un ensemble de 16 voies PCIe? C'est probable. Cependant, la plate-forme est quelque peu limitée dans la façon dont les broches et les itinéraires sont contrôlés sur les sockets et les cartes mères. Le firmware attend deux canaux mémoire pour chaque silicium, outre cela, il y a des raisons liées à l'alimentation. Les cartes mères actuelles sur le marché ne sont tout simplement pas configurées de cette façon. Ce fait aura un impact majeur sur les performances, alors gardez cela à l'esprit lorsque nous arriverons aux tests.
Il convient de noter qu'il s'agit de la deuxième génération de Threadripper et que la plate-forme de serveur AMD, EPYC, sont des frères. Ils ont tous deux la même configuration de processeur et de socket, mais EPYC comprend tous les canaux de mémoire (huit) et toutes les voies PCIe (128):



Et si Threadripper 2 perd en performances en raison de la présence de plusieurs cœurs sans accès direct à la mémoire, alors EPYC dispose d'une mémoire directe disponible. Le processeur nécessite plus de puissance, mais offre une configuration plus uniforme du trafic du cœur vers le réseau.

Revenant à Threadripper 2, il est important de comprendre comment la puce se chargera. AMD a confirmé que, pour la plupart, le planificateur chargera d'abord les noyaux directement connectés à la mémoire avant d'utiliser d'autres noyaux. Il s'avère que chaque cœur a un «poids» de priorité, basé sur les performances, les performances thermiques et la puissance. La priorité est donnée aux personnes les plus proches de la mémoire. La priorité des noyaux diminue à mesure qu'ils se remplissent en raison de l'inefficacité thermique.

Boost de précision 2


Les synchronisations turbo exactes pour chaque nouveau processeur seront désormais déterminées par la fonctionnalité de mise à l'échelle de fréquence de tension AMD à l'aide de Precision Boost 2. Cette fonctionnalité, que nous avons examinée en détail dans la revue Ryzen 7 2700X, s'appuie sur la puissance disponible pour déterminer la fréquence, au lieu d'un tableau de référence discret de tensions et de fréquences basé sur la charge. En fonction des capacités initiales du système, la fréquence et la tension seront décalées dynamiquement pour utiliser plus de puissance potentielle disponible à tout moment de la charge du processeur.



Un processeur peut utiliser plus de puissance qu'une table de recherche fixe ne le permet, ce qui devrait convenir à tous les processeurs d'un modèle donné.

Precision Boost 2 fonctionne en conjonction avec XFR2 (eXtreme Frequency Range), qui répond à la plage de température disponible. S'il y a un budget thermique supplémentaire fourni par un bon refroidisseur, le processeur peut utiliser plus de puissance avant d'atteindre la limite thermique et obtenir une fréquence supplémentaire. AMD affirme qu'un bon refroidisseur dans un environnement frais peut augmenter la puissance de calcul de plus de 10% dans certains tests, grâce à l'utilisation de la technologie XFR2. Pour démontrer ce «plus» en lançant Threadripper 2 au milieu de la période la plus chaude d'Europe, AMD était difficile. L'Europe est connue pour ignorer les climatiseurs du monde entier et lorsque la température ambiante dépasse 30 ° C, les augmentations de productivité sont limitées. Une revue scandinave peut donner de meilleurs résultats qu'une revue des tropiques.

En fin de compte, cela complique les tests de Threadripper 2. Avec la table turbo, les performances sont étroitement liées aux caractéristiques de chaque élément en silicium, ce qui fait de la consommation d'énergie la seule gradation. Avec PB2 et XF2, aucun processeur ne fonctionnera de la même manière.

Heureusement pour nous, nous avons effectué la plupart de nos tests dans un hôtel climatisé grâce au Intel Data-Centric Innovation Summit, qui a eu lieu une semaine avant le lancement des processeurs.

Overdrive boost de précision


Les nouveaux processeurs prennent en charge la fonction Precision Boost Overdrive, qui couvre des domaines clés tels que l'alimentation, le courant de conception thermique et le courant de conception électrique. Si l'un de ces trois domaines "démontre" le potentiel inutilisé, le système tentera d'augmenter à la fois la fréquence et la tension pour augmenter les performances. Le PBO est une combinaison d'overclocking «standard», accélérant tous les cœurs en même temps, avec la possibilité d'augmenter la fréquence sur un cœur pour obtenir un gain de performances sur des charges de travail moyennes. Le PBO économise de l'énergie lors des temps d'arrêt du processeur et fonctionne avec des performances standard. Precision Boost Overdrive est activé avec Ryzen Master.

Ces «trois domaines clés» sont définis par AMD comme suit:

  • Package (CPU) Power, ou PPT - la consommation électrique maximale autorisée d'un socket, dépend de l'alimentation du socket;
  • Courant de conception thermique ou TDC - courant maximum fourni par le régulateur de tension de la carte mère après avoir atteint une température stable;
  • Courant de conception électrique ou EDC - courant maximum fourni par le régulateur de tension de la carte mère à l'état de pointe.

En étendant ces limites, le PBO étend les capacités de PB2, ce qui vous permet à son tour de charger le système le plus efficacement possible.



StoreMI


Avec les nouveaux processeurs Ryzen Threadripper 2, les utilisateurs ont accès à la solution logicielle StoreMI. Il vous permet de créer un stockage hiérarchisé personnalisé en combinant la DRAM, le SSD et le disque dur en un seul espace de stockage. L'implémentation logicielle alloue dynamiquement les données en utilisant jusqu'à 2 Go de DRAM, jusqu'à 256 Go de SSD (NVMe ou SATA) et un disque dur rotatif. Cette approche offre les meilleures capacités de lecture et d'écriture, avec un manque d'espace sur un lecteur haute vitesse.



AMD a initialement proposé ce logiciel en tant que complément à la plate-forme Ryzen APU pour 20 $, puis gratuitement (jusqu'à 256 Go SSD) pour les utilisateurs des processeurs de la série Ryzen 2000. L'offre s'étend désormais à Threadripper. AMD montre à quel point le logiciel offre idéalement des temps de démarrage 90% plus rapides.

Nourris-moi: Infinity Fabric a besoin de plus de puissance


Lorsque le mouvement des données entre les cœurs et les contrôleurs de mémoire est passé d'une topologie en anneau à un maillage ou à un chipset, la communication entre les cœurs est devenue beaucoup plus compliquée. Désormais, chaque cœur ou son environnement doit agir comme un routeur et déterminer le meilleur chemin pour les données si plusieurs «sauts» sont nécessaires pour atteindre l'objectif visé. Comme nous l'avons vu avec le maillage MoDe-X d'Intel lors du lancement de Skylake-X, vous devez simultanément éviter la concurrence pour augmenter les performances et réduire la longueur des conducteurs pour réduire la puissance. Il s'avère que dans de tels systèmes, la technologie de communication internucléaire commence à consommer beaucoup d'énergie, parfois plus que les noyaux eux-mêmes.

Pour décrire la puissance de la puce, tous les processeurs grand public ont une puissance nominale de «TDP» ou thermique. Intel et AMD mesurent cette valeur différemment en fonction des charges de travail et des températures. Techniquement, le TDP est l'énergie thermique que le refroidisseur doit dissiper lorsque le processeur est complètement chargé (et est généralement déterminée à la fréquence de base, pas à la fréquence turbo de tous les cœurs). La consommation d'énergie réelle peut être plus élevée, en fonction des pertes dues à l'alimentation ou à la dissipation thermique à travers la carte, mais pour la plupart des situations, le TDP et la consommation d'énergie en général sont considérés comme égaux.

Cela signifie que les cotes TDP sur les processeurs modernes tels que 65 W, 95 W, 105 W, 140 W, 180 W et maintenant 250 W devraient afficher approximativement la consommation électrique maximale. Cependant, toute cette énergie ne peut pas augmenter la fréquence dans les noyaux. Une partie de celui-ci sera utilisée dans les contrôleurs de mémoire, dans IO, dans les graphiques intégrés (s'il y en a un sur la puce). Il s'avère que les connexions internucléaires deviennent un acteur à part entière de la consommation d'énergie. Nous voulons savoir combien ils consomment.

Pour comprendre la portée, commençons par quelque chose de simple et connu de la plupart des utilisateurs. Les nouveaux processeurs Intel Coffee Lake, tels que le Core i7-8700K, utilisent la conception dite du bus en anneau. Ces processeurs utilisent un anneau pour connecter chacun des cœurs et le contrôleur de mémoire: si vous devez déplacer les données, ils tombent dans l'anneau et se déplacent jusqu'à ce qu'ils arrivent à destination. Le système d'interactions internucléaires est historiquement appelé "Uncore" et est capable d'interagir avec des noyaux fonctionnant à différentes fréquences et à différentes puissances selon les besoins. La distribution d'énergie est la suivante:



Malgré le TDP de 95 W, ce processeur aux fréquences de base consomme environ 125 W à pleine charge, ce qui est beaucoup plus que son TDP (également déterminé à la fréquence de base). Nous nous intéressons à autre chose: le rapport entre la consommation Uncore et la puissance totale. uncore 4% , 7-9%. « 10%».

- : Intel Skylake-X. Intel «mesh» (), MoDe-X. , , .



, , 14 . mesh , , Intel, .



, uncore mesh 20% , 25-30% . .

AMD . crossbar. , . . «»», Infinity Fabric (IF).



IF , . , , Ryzen 7 2700X, TDP 105 .



AMD . -, , IF 43% . 4% i7-8700K 19% i9-7980XE. 43% 25%.

-, , IF , ~ 17,6 ~ 25,7 . Intel , ~ 13,8 40 .

Ryzen Threadripper 2950X — 16- Threadripper, .



, IF. Uncore + .



Infinity Fabric 59% . ( CCX), CCX , die-to-die - .

, IF, 34 43 , 25% , 2700X.

2990WX. , IF , IF-:



. , DRAM. AMD IF-, . - , IF- . - .



. Infinity Fabric 56,1 76,7 , 73% . 2950 34 , , IF. .

, , 2990WX TDP 250 , 180 . , . , IF , 36%, 35% 40% . , , , 25% 2700X 2950X.

, , EPYC 7601, , ? Zen , EPYC IO, , Uncore .



, 2990WX, , . uncore .



, 74,1 , IF 66,2 89%! , 66,2 90 . 90 180 TDP!

Ce qui précède conduit à une conclusion intéressante - si nous comparons purement académiquement les mérites d'un noyau avec un autre, devrions-nous considérer la contribution du pouvoir Uncore? Pour une vraie analyse, certes oui, mais pour une analyse purement académique? Permettez-moi de prophétiser:

après la bataille pour le nombre de cœurs, la prochaine bataille sera pour l'interconnexion. Faible consommation, évolutivité et hautes performances: la mise à l'échelle d'un nœud de processeur n'est rien si Uncore représente 90% de la puissance totale de la puce.

Merci de rester avec nous. Aimez-vous nos articles? Vous voulez voir des matériaux plus intéressants? Soutenez-nous en passant une commande ou en le recommandant à vos amis, une réduction de 30% pour les utilisateurs Habr sur un analogue unique de serveurs d'entrée de gamme que nous avons inventés pour vous: Toute la vérité sur VPS (KVM) E5-2650 v4 (6 cœurs) 10 Go DDR4 240 Go SSD 1 Gbps à partir de 20 $ ou comment diviser le serveur? (les options sont disponibles avec RAID1 et RAID10, jusqu'à 24 cœurs et jusqu'à 40 Go de DDR4).

3 mois gratuits lors du paiement d'un nouveau Dell R630 pour une période de six mois - 2 x Intel Deca-Core Xeon E5-2630 v4 / 128GB DDR4 / 4x1TB HDD ou 2x240GB SSD / 1Gbps 10 TB - à partir de 99,33 $ par mois , uniquement jusqu'à fin août, commandez peut être ici .

Dell R730xd 2 fois moins cher? Nous avons seulement 2 x Intel Dodeca-Core Xeon E5-2650v4 128 Go DDR4 6x480 Go SSD 1 Gbps 100 TV à partir de 249 $ aux Pays-Bas et aux États-Unis! Pour en savoir plus sur la création d'un bâtiment d'infrastructure. classe utilisant des serveurs Dell R730xd E5-2650 v4 coûtant 9 000 euros pour un sou?

Source: https://habr.com/ru/post/fr421147/


All Articles