AMD Ryzen Threadripper 1950x und 1920x Test: CPU auf Steroiden



Anfang 2000 wurde der große "Krieg der Frequenzen" geführt. Ein Hersteller, der in der Lage ist, maximale Zyklen pro Sekunde durch seinen Prozessor zu fahren, hatte einen offensichtlichen Vorteil gegenüber seinen Konkurrenten. Dies führte zur Schaffung einiger sehr heißer Chips, deren Architektur im Namen von etwas Vernünftigerem im Laufe der Zeit vergessen wurde. 10-15 Jahre sind vergangen, ein neuer Krieg boomt um uns herum: "Krieg der Kerne". Wie viele CPU-Kerne mit Hochgeschwindigkeits-Interprozesskommunikation können in einem Consumer-Prozessor platziert werden? Zuletzt war die Antwort 10, und AMD bricht mit den neuen 16-Kern-Theadripper-Prozessoren auf dem Markt ein. Wir haben beide - 1950x und 1920x - bekommen, um sie im Namen einer neuen Bewertung gründlich zu braten.

Neue Weltordnung


Im Jahr 2017 veröffentlichte AMD eine neue Mikroprozessorarchitektur - Zen. Die Architektur wurde in der neuen Ryzen-Prozessorserie mit dem offensichtlichen Ziel verwendet, einen Teil des Marktes von Intels High-End-Desktop-PC-Lösungen zu trennen. Drei Vertreter der Ryzen 7-Familie verfügen jeweils über 8 Kerne mit Hyperthreading-Technologie und weisen ein sehr gutes Verhältnis von Leistung und Preis auf. Manchmal zeigt sich ein Ergebnis, das mit doppelt so teuren Intel-Prozessoren vergleichbar ist. Es folgen vier Ryzen 5-Prozessoren mit einem Preis, der in etwa der Quad-Core-i5-Linie entspricht. Für das gleiche Geld bietet AMD einen Prozessor mit zwölf Threads an, der dreimal so hoch ist wie der Core i5. Schließlich kostet Ryzen 3 rund 120 US-Dollar und konkurriert direkt mit dem Core i3 mit doppelt so vielen Kernen wie das Intel-Produkt. Jetzt stellt AMD offiziell die AMD EPYC-Familie von Serverprozessoren vor, die bis zu 32 Kerne bieten. In den nächsten Monaten wird das Produkt auf den Markt kommen. Derzeit testen OEMs Prozessoren und bestimmen ihre Leistung.


Abseits der aufgeführten Produkte befindet sich die Ryzen Threadripper-Familie von AMD oder einfach Threadripper. Diese Prozessoren haben das gleiche Design wie die serverseitigen AMD EPIC-CPUs, sind jedoch für Desktop-PCs geeignet. Die ersten beiden Prozessoren sind 1950X und 1920X mit 16 bzw. 12 Kernen. Ihnen folgte der am 31. August erschienene 8-Core 1900X, der 1920 erscheinen soll und dessen Wahrheit noch nicht bekannt gegeben wurde. Alle diese Chips sind in einem 4094-poligen TR4-LGA-Sockel installiert. Der Sockel ist identisch mit dem für EPIC verwendeten SP3-Sockel (obwohl die Sockel nicht austauschbar sind) und übertrifft den 1331-poligen AM4-PGA-Sockel, der für Ryzen 7/5/3-Prozessoren verwendet wird.



* Neueste Informationen von AMD nach unseren Angaben
** Unangekündigtes Produkt, Änderungen vorbehalten.

Wenn Ryzen 7 mit Intels High-End-Desktop-Lösungen (HEDT) am Markt teilnehmen möchte, wird Threadripper erstellt, um neue Maßstäbe für die Leistung zu setzen. Dieses Segment kann als "Super-High-End-Desktop" (SHED) bezeichnet werden. Die Anzahl der Kerne, die AMD in Threadripper-Prozessoren eingeführt hat, war bisher nur in Intel-Serverlösungen zu sehen. Das Unternehmen bot 28 Kerne für einen Betrag von fast 10.000 US-Dollar an. Durch das Angebot von Chips mit einer großen Anzahl von Kernen, angemessenen Frequenzen, Leistung und IPC hebt AMD die Grenzen zwischen diesen auf Benutzer, Semi-Profis und Firmenkunden. Um mithalten zu können, kündigte Intel die Veröffentlichung der Skylake-X-Plattform mit 12, 14, 16 und 18 Kernen in den nächsten Monaten an.

Wie die schnellsten Intel-Chips werden AMD-Prozessoren sicherlich von denen gefragt sein, die alles auf einmal erledigen möchten. Für den Benutzer eines Heim-PCs können Sie auf diese Weise den Spielprozess während des Streams (Transcodierung und Upload in Echtzeit) mit dem Hosting des Spielservers und der parallelen Ausführung einiger zusätzlicher Aufgaben kombinieren. Für das semiprofessionelle Segment bedeutet dies Videoverarbeitung oder Computing mit mehreren GPUs / FPGAs. Das Wesentliche der Idee ist, dass der Benutzer, wenn er etwas am Computer tun muss, das System gleichzeitig für andere Aufgaben verwenden kann und über eine ausreichende Versorgung mit CPU-Leistung, PCI-Steckplätzen, RAM und Speicherplatz verfügt. Threadripper hat, wie bereits erwähnt, das Design des Serverprozessors und dementsprechend seine Aspekte der hohen Leistungsdichte geerbt, die den Server im letzten Jahrzehnt identifiziert haben.

Neue Buchse, neue Motherboards


Wie die Intel HEDT-Plattform startet AMD die X399-Plattform unter Threadripper, um dem neuen Prozessor alle erforderlichen Tools zur Verfügung zu stellen. Der große TR4-Steckplatz und alle seine Pins bieten einen Vierkanalspeicher mit zwei DIMMs pro Kanal sowie bis zu 60 PCIe-Leitungen für zusätzliche Karten (Grafikkarten, Netzwerkkarten, SSD usw.). Diese Motherboards unterstützen derzeit zwei bereits veröffentlichte Threadripper-Prozessoren sowie einen Prozessor, der Ende des Monats gestartet wird, und einen weiteren Prozessor, der nicht angekündigt wurde, obwohl Insiderinformationen über seine Veröffentlichung eingegangen sind (Veröffentlichungsdatum unbekannt).



Die neue Steckdose unterscheidet sich deutlich von früheren AMD-Steckdosen und zeigt, wie weit die Technologie fortgeschritten ist. Anstelle eines PGA-Sockels mit einer einfachen Verriegelung zur zuverlässigen Befestigung der CPU im Sockel verfügt der LGA TR4-Anschluss über drei Torx-Schrauben, die in einer bestimmten Reihenfolge (siehe Abbildung oben) herausgeschraubt werden müssen. Danach öffnet sich die Anschlussverriegelung einfach. Darunter befindet sich eine Halterung, in die der Prozessor eingesetzt ist. Jeder Threadripper-Prozessor verfügt über einen festen Rahmen für die bequeme Platzierung der CPU in der Halterung.



Aufgrund des Designs des Steckers und der Größe der Prozessoren variieren auch die Löcher für die Montage des CPU-Kühlers. Da jeder vorgestellte Threadripper eine Leistung von 180 Watt hat, empfiehlt AMD die Verwendung von mindestens Flüssigkeitskühlung und liefert mit jedem verkauften Prozessor eine Asetek-Prozessorhalterung (ein Torx-Schraubendreher ist ebenfalls enthalten).



Die Halterung ist einerseits schmaler, was die "Oberseite" der Buchse im traditionellen Layout des Motherboards anzeigt.



Die Essenz des Designs des Motherboards besteht darin, wie jede der verfügbaren E / A-Funktionen geroutet wird. Das grundlegende Blockdiagramm von AMD lautet wie folgt:



Die vorgeschlagene AMD-Konfiguration bietet 48 Leitungen von der CPU zu den PCIe-Steckplätzen für 4-Wege-SLI / CFX-Kommunikation (16/16/8/8), 12 Leitungen von der CPU zu den M.2-Steckplätzen für 3-Wege-x4-NVMe und 4 Leitungen für den Chipsatz . In diesem Fall kann der Chipsatz zwei Gigabit-Ethernet-Ports haben, einen PCIe x4-Steckplatz, einen PCIe x1-Steckplatz, PCIe x1 für Wi-Fi, SATA, USB 3.1 Gen 1 und USB 3.1 Gen 2-Ports und USB 2.0-Ports.

Vermutlich variieren die Preise für X399-Motherboards je nach Funktionalität zwischen 249 und 599 US-Dollar. Das Motherboard, das wir getestet haben, um diesen Test zu schreiben, war das ASUS X399 ROG Zenith Extreme, dessen UVP (vom Hersteller empfohlener Verkaufspreis) 549 US-Dollar beträgt.

Wettbewerber


Wir haben sowohl Intel als auch AMD gebeten zu klären, wen sie als Hauptkonkurrenten für Threadripper-Prozessoren sehen. Angesichts der Tatsache, dass Threadripper ein verbraucherorientiertes Produkt ist - interessanterweise kein Workstations-orientiertes -, gab AMD erwartungsgemäß bekannt, dass Intels aktueller Core i9-7900X (10-Core-Prozessor) das am besten geeignete Konkurrenzprodukt ist . Xeon ist ein Unternehmensprodukt, das nicht in Standardsystemen verkauft wird, die von Threadripper-Kunden gefordert werden.

Intel überraschte uns, indem es genau das gleiche berichtete wie AMD. Sie sagten, dass der Core i9-7900X zum Zeitpunkt der Veröffentlichung des Prozessors der Hauptkonkurrent von Threadripper ist. Es wurde erwartet, dass Unternehmen eine billigere 2P-Lösung angeboten werden würde, obwohl nach Anhörung der Meinung von Intel klar wurde, warum dies nicht geschah. Es gibt zwei offensichtliche Gründe: Erstens sind Intel Consumer und Intel Enterprise fast zwei verschiedene Unternehmen, die sich ein wenig überschneiden und sich gegenseitig am Geschäft beteiligen. Sie haben auch keine allgemeine Politik der Kommunikation mit der Presse. Fragen Sie Intel Consumer - Erhalten Sie die Antwort des Verbraucherteams. Wenn Sie das Enterprise-Team fragen, werden Sie feststellen, dass es sich mehr auf EPYC als auf Threadripper konzentriert. Der zweite Grund ist, dass das „billige 2P-System“ beim Kauf neuer Prozessoren einfach nicht existiert. Die meisten Online-Diskussionen über billige Intel 2P-Systeme beinhalten den Kauf von CPUs vom grauen Markt oder von Wiederverkäufern.

Der eigentliche Konkurrent ist also im Wesentlichen Skylake-X (und Broadwell-E mit einem Rabatt). Infolgedessen stehen AMD Threadripper 1950X mit 16 Kernen und 1920X mit 12 Kernen dem Core i9-7900X mit 10 Kernen und dem Core i7-7820X mit 8 Kernen gegenüber. Betrachten Sie Konkurrenten - Broadwells Core i7-6950X aufgrund seiner Architektur, AMD Ryzen 7 1800X, Ryzen7 1700, die als Beispiel für ein gutes Leistungs- / Preisverhältnis in die Liste aufgenommen wurde.



Der entscheidende Punkt hierbei ist, dass Threadripper mehr Kerne und mehr PCIe-Lanes zum gleichen Preis hat. ADM bietet CPUs mit einem niedrigeren Turbo, aber einer höheren Grundfrequenz und etwas mehr Leistung für solche Plattformen. Es wird eine interessante Schlacht.

Artikel in dieser Rezension:


  1. AMD Ryzen Theadripper 1950x und 1920x
  2. Füttern der Beast- und Key Processor-Funktionen
  3. Chip, Bus und NUMA
  4. Erstellermodus und Spielemodus
  5. Testbed-Konfiguration
  6. Testsuite 2017
  7. Benchmarking-Leistung: CPU-Systemtests
  8. Benchmarking-Leistung: CPU-Rendering-Tests
  9. Benchmarking-Leistung: CPU-Webtests
  10. Benchmarking-Leistung: CPU-Codierungstests
  11. Benchmarking-Leistung: CPU Office-Tests
  12. Benchmarking-Leistung: CPU-Legacy-Tests
  13. Spieleleistung: Civilization 6 (1080p, 4K, 8K, 16K)
  14. Spieleleistung: Asche der Singularitätseskalation (1080p, 4K)
  15. Spieleleistung: Shadow of Mordor (1080p, 4K)
  16. Spieleleistung: Aufstieg des Tomb Raider (1080p, 4K)
  17. Spieleleistung: Rocket League (1080p, 4K)
  18. Spieleleistung: Grand Theft Auto V (1080p, 4K)
  19. Energieverbrauch, Energieeffizienz
  20. Creator Mode und Game Mode Analysis
  21. Fazit

Zusätzliche Hinweise


Aus Gründen, die außerhalb unserer Kontrolle liegen, gibt es in diesem Test keine Skylake-X-Prozessortests. Beim Testen traten einige Probleme auf, die diesen Vorgang auf einen späteren Zeitpunkt verschoben haben. Wir haben einige weitere Tests mit dem neuesten BIOS und einem seriöseren Kühlsystem durchgeführt, aber nach der Einführung des Threadripper-Prozessors war der SKL-X ordentlich verpackt und Threadripper trat an seine Stelle als Versuchsperson. Wenn man nun auf die SKL-X-Testergebnisse zurückblickt, ist es offensichtlich, dass die aufgetretenen Probleme mit dem BIOS / der Firmware zusammenhängen. In naher Zukunft ist geplant, hart zu arbeiten, um einen Fehler zu finden. Zu diesem Zweck ist geplant, das X299-Motherboard durch ein neues zu ersetzen.

2. Füttern der Beast- und Key-Prozessor-Funktionen


Wenn die Frequenz als wichtigstes Merkmal von Prozessoren angesehen wurde, bestand das Hauptproblem darin, Merkmale wie Wirkungsgrad, thermische Eigenschaften und Rechenkosten zu regulieren: Je höher die Frequenzen stiegen, desto mehr Spannung wurde benötigt, je weiter vom optimalen Prozessormodus entfernt, desto höher war der Stromverbrauch pro Arbeitseinheit. Für den Prozessor, der als „Champion der Leistung“ an erster Stelle in der Produktlinie stand und als „Champion der Leistung“ fungierte, schienen diese Mängel unwichtig - bis die Betriebstemperatur 90 ° C erreichte.

Mit dem Ausbruch des Atomkrieges sind nun andere Probleme aufgetreten. Wenn es nur einen Kernel gab, war das Bereitstellen von Daten für den Kernel über Caches und DRAM eine relativ einfache Aufgabe. Bei 6, 8, 10, 12 und 16 Kernen war der Hauptstolperstein die Notwendigkeit, jedem Kern einen Datenstrom für den kontinuierlichen Betrieb bereitzustellen, um sinnlose Ausfallzeiten der Kerne zu vermeiden. Dies ist keine leichte Aufgabe: Jeder Prozessorkern benötigt jetzt eine schnelle Möglichkeit, Daten miteinander und mit dem Hauptspeicher auszutauschen. Es klingt wie "das Biest füttern".

Hauptmerkmale: 60 PCIe-Lanes gegenüber 44 PCIe-Lanes


Nach vielen Jahren der Nebenrolle wird AMD mit neuen Prozessoren einen der führenden Plätze auf dem Markt einnehmen. Ryzen 7 hatte nur 16 PCIe-Leitungen (Lane) und konnte teilweise mit Intel-Prozessoren mit 28/44 PCIe-Leitungen konkurrieren. Jetzt hat der Threadripper-Prozessor Zugriff auf 60 Leitungen für zusätzliche PCIe-Karten. In einigen Fällen kann dies als 64 Leitungen bezeichnet werden, vier davon sind jedoch für den X399-Chipsatz reserviert. Mit 799 und 999 US-Dollar konkurriert Threadripper mit 44 PCIe-Lanes auf dem Intel Core i9-7900X-Prozessor zu einem Preis von 999 US-Dollar.



Der Grund für so viele PCIe-Lanes ist der Zielmarkt, auf den diese Prozessoren abzielen: High-Performance-Computing-Kunden. Dies sind Benutzer, die mehrere Grafikprozessoren, mehrere PCIe-Speichergeräte verwenden, High-End-Netzwerke, High-End-Datenspeicher und andere verschiedene Hardware benötigen, die mit PCIe verwendet werden können. Infolgedessen werden wir höchstwahrscheinlich Motherboards mit 32 oder 48 Lanes für PCIe-Steckplätze (x16 / x16, x8 / x8 / x8 / x8, x16 / x16 / x16, x16 / x8 / x16 / x8), zwei oder drei sehen PCIe 3.0 x4-Steckplätze für U.2- oder M.2-Speichergeräte und schnelleres Ethernet (5 Gbit, 10 Gbit). Mit AMD kann jedes der Root-PCIe x16-Systeme bis zu x1 in maximal sieben Geräte aufteilen. Die vier PCIe-Lanes, die zum Chipsatz führen, unterstützen auch mehrere PCIe 3.0- und PCIe 2.0-Lanes für SATA- oder USB-Controller.

Intel verfolgt eine andere Strategie, mit der Sie 44 Spuren in x16 / x16 / x8 (40 Spuren) oder x16 / x8 / x16 / x8 (40 Spuren) oder x16 / x16 bis x8 / x8 / x8 / x8 (32 Spuren) mit 4 Spuren implementieren können 12 Spuren zum Speichern von PCIe- oder schnelleren Ethernet- oder Thunderbolt 3-Controllern. Der Skylake-X-Chipsatz verfügt über 24 weitere PCIe-Busse für SATA-, USB- und Gigabit-Ethernet-Controller.

Hauptmerkmale: DRAM und ECC


Intel-Produkte sind nach Nischen unterteilt. Wenn ein Kunde einen Prozessor mit einer großen Anzahl von Kernen mit ECC (Fehlerkorrektur-Codespeicher) haben möchte, muss er Xeon kaufen. In der Regel unterstützt Xeon eine feste Speichergeschwindigkeit in Abhängigkeit von der Anzahl der vollen Kanäle (1 DIMM pro Kanal bei DDR4-2666, 2 DIMMs pro Kanal bei DDR4-2400) sowie ECC- und RDIMM-Technologien. Die HEDT-Verbraucherplattformen für Broadwell-E und Skylake-X unterstützen diese Technologien jedoch nicht und verwenden nur UDIMM Non-ECC.

AMD unterstützt ECC auf seinen Threadripper-Prozessoren und stellt Kunden 16 Kerne mit ECC zur Verfügung. Sie sollten jedoch nur UDIMM (nicht registrierter DRAM) sein, jedoch mit Unterstützung für das Übertakten von RAM, um die Geschwindigkeit von Infinity Fabric zu erhöhen (AMD Ryzen-Prozessoren verwenden die interne Infinity Fabric-Verbindung, die den HyperTransport-Bus ersetzt, um zwischen separaten Einheiten zu kommunizieren). AMD hat offiziell angekündigt, dass Threadripper-Prozessoren bis zu 1 TB RAM unterstützen können, obwohl 128 GB UDIMM-Karten erforderlich sind, deren maximale Größe derzeit 16 GB beträgt. Intel beansprucht ein Limit von 128 GB für Skylake-X, wenn 16 GB UDIMM verwendet werden.

Beide Prozessoren unterstützen Vierkanalspeicher auf DDR4-2666 (1DPC - DIMM pro Kanal) und DDR4-2400 (2DPC).

Hauptmerkmale: Cache


Sowohl AMD als auch Intel verwenden private L2-Caches für jeden Kern und dann den L3-Cache (Opfer-L3-Cache), bevor sie in den Hauptspeicher verschoben werden. Opfer-Cache ist ein Cache, der Daten empfängt, die aus dem darunter liegenden Cache gelöscht wurden, und keine Daten vorab abrufen kann. Die Größe dieser Caches und die Interaktion von AMD und Intel mit ihnen sind jedoch unterschiedlich.



AMD verwendet 512 KB L2-Cache für jeden Kern, 8 MB L3-Cache pro Komplex aus vier Kernen. Im 16-Kern-Threadripper gibt es vier solcher Komplexe mit 4 Kernen. Als Ergebnis haben wir einen 32-MB-L3-Cache, jedoch kann jeder Kern nur auf die Daten zugreifen, die in seinem lokalen L3 gefunden wurden. Um Zugang zum L3 eines anderen Komplexes zu erhalten, ist zusätzliche Zeit erforderlich, was zu erheblichen Verzögerungen führt.

In Intels Skylake-X erhalten wir 1 MB L2-Cache pro Kern, was bedeutet, dass die Wahrscheinlichkeit eines L2-Cache-Treffers höher ist. Der L3-Cache wurde auf 1.375 MB pro Kern reduziert. L3 ist nicht mehr inklusiv, was bedeutet, dass der Inhalt des L2-Cache nicht in den L3-Cache kopiert wird. Wenn der Kernel Daten von einem anderen Kernel im L2-Cache benötigt, müssen Sie die entsprechende Anforderung ausführen. Diese Daten befinden sich nicht mehr im L3-Cache. Daher ist mehr Zeit erforderlich und es tritt Latenz auf Die Verzögerung ist jedoch konstruktionsbedingt etwas rationalisiert. Dies unterscheidet sich deutlich von der Broadwell-E-Cache-Struktur, bei der 256 KB L2 und 2,5 MB L3 pro Kern sind. Broadwell-E-Caches mit einer umfassenden Architekturlösung.


3. Chip, Bus und NUMA


In der Ryzen-Reihe hat AMD einen 8-Kern-Siliziumchip entwickelt, der als Zeppelin-Chip bekannt ist. Es besteht aus zwei Kernkomplexen (CCX) mit jeweils vier Kernen, wobei jeder CCX Zugriff auf 8 MB L3-Cache hat. Der Zeppelin-Chip hat Zugriff auf zwei DRAM-Kanäle und ein Limit von 16 PCIe-Lanes für zusätzliche Karten. Mit der Veröffentlichung von Threadripper hat AMD diese Matrix verdoppelt.

Wenn Sie den Threadripper-Prozessor zerlegen würden, würden Sie vier Siliziumchips sehen, ähnlich denen des EPYC-Prozessors (Multi Core Module Design MCM). Zwei dieser Chips sind härtende „Dichtungen“, leeres Silizium, das nur zur Verteilung des Kühlergewichts und zur Kühlung dient. Die anderen beiden Chips (in gegenüberliegenden Ecken, um die Wärmeleistung und das Routing zu verbessern) sind im Wesentlichen dieselben Zeppelins, die in Ryzen verwendet werden. Jeder dieser Chips enthält acht Kerne und hat Zugriff auf zwei Speicherkanäle. Sie tauschen Daten über den internen Infinity Fabric-Bus aus, für den AMD eine Bandbreite von 102 GB / s (bidirektionaler Vollduplex) und eine Verzögerung von 78 ns für den Zugriff auf den nächsten Speicher (DRAM, der mit demselben Chip verbunden ist) und 133 ns für den Zugriff auf beansprucht entfernter Speicher (DRAM auf einem anderen Chip). Wir haben diese Nummern für den DDR4-2400-Speicher überprüft und können sie bestätigen. Mit DDR4-3200 werden Zugriffsgeschwindigkeiten von 65 ns bzw. 108 ns erreicht.


Trotz der Tatsache, dass diese AMD-Folie zwei Chips zeigt, befinden sich vier im Prozessor. Da nur zwei von ihnen aktiv sind, hat AMD das Diagramm vereinfacht.

Im Vergleich dazu behauptet EPYC eine Datenübertragungsrate zwischen Chips von bis zu 42,6 GB / s auf DDR4-2666. Dies liegt an der Tatsache, dass in EPYC drei interne Verbindungen zu den Chips und eine externe (zu einem anderen Sockel) vorhanden sind. Die Chips in Threadripper müssen nur mit einem anderen Chip interagieren, was eine gewisse Flexibilität bietet. Es scheint, dass Threadripper zwei der drei Verbindungen mit einer Geschwindigkeit von 10,4 GT / s (Gigatransaktion pro Sekunde) verwendet:

  • Chip-to-Chip für EPYC ist bei Verwendung von DDR4-2667 auf 42,6 GB / s begrenzt
  • Bei Verwendung von DDR4-3200 ist der Chip-to-Chip-Wert für Threadripper auf 102,2 GB / s begrenzt
  • 42,6 GB / s * 2 Kanäle * 3200/2667 = 102,2 GB / s
  • 42,6 GB / s * 3 Kanäle * 3200/2667 bei 8,0 GT / s = 115,8 GB / s (zu viel)
  • 42,6 GB / s * 3 Kanäle * 3200/2667 bei 6,4 GT / s = 92,6 GB / s (zu klein)

Diese AMD-Konfiguration ist genau das, was als NUMA-Konfiguration bezeichnet wird: ungleichmäßiger Speicherzugriff. Dies bedeutet, dass sich der Code nicht auf eine konstante (und geringe) Verzögerung zwischen dem Anfordern von etwas vom DRAM und dem Empfangen verlassen kann. Dies kann ein Problem für Hochleistungscode sein. Daher sind einige Programme mit NUMA-Unterstützung ausgestattet, sodass Sie Speicher an den nächsten DRAM-Controller binden können, wodurch der potenzielle Durchsatz verringert wird, die Latenz jedoch priorisiert wird.

NUMA ist in der x86-Architektur nicht neu. Nachdem die Prozessoren auf der Nordbrücke des Motherboards mit On-Chip-Speichercontrollern anstelle von Off-Chip-Controllern ausgeliefert wurden, wurde NUMA ein integraler Bestandteil von Multiprozessorsystemen. In dieser Hinsicht war AMD von Anfang an führend und war Intel bei der Entwicklung von Controllern auf einem Chip für x86-Prozessoren um Jahre voraus. Daher arbeitet AMD seit vielen Jahren mit NUMA zusammen, und in ähnlicher Weise arbeitet NUMA seit fast einem Jahrzehnt an Intel-Multiprozessorserversystemen.

Neu bei Threadripper ist, dass NUMA die Verbraucher nie berührt hat. Benutzerdefinierte MSM-Prozessoren könnten an den Fingern gezählt werden, und wir müssten zur Core 2 Quad-Familie zurückkehren, um einen Prozessor mit mehreren Chipkernen zu finden, der den Speichercontrollern für Intel-Prozessoren vorausging. Somit war Threadripper der erste Prozessor, der NUMA-Benutzer einführte.

Noch wichtiger ist jedoch, dass Consumer-Software auch nicht für NUMA vorbereitet wurde, sodass fast kein Programm ihre Funktionen nutzen kann. Die gute Nachricht ist, dass NUMA zwar die Spielregeln ändert, aber den Betrieb alter Software nicht unterbricht. NUMA-fähige Betriebssysteme unterstützen die sofort einsatzbereite Software, die Threading- und Speicheroperationen auf einem einzelnen NUMA-Host unterstützt, um Standardleistungsfunktionen bereitzustellen.

Dies hat den Nachteil, dass das Betriebssystem als äußerst fürsorgliche Eltern verhindert, dass unangemessene Software andere NUMA-Knoten verwendet, oder, wie im Fall von Threadripper, Anwendungen die Verwendung des zweiten Chips und seiner 8 Kerne untersagt.


Auf Hardwareebene besteht Threadripper aus zwei NUMA-Knoten

In einer idealen Welt wäre jede Software NUMA-kompatibel, wodurch alle Probleme in diesem Problem behoben würden. In der Praxis sieht jedoch alles etwas anders aus: Die Software ändert sich langsam, und es ist höchst unwahrscheinlich, dass Prozessoren im NUMA-Stil in naher Zukunft alltäglich werden. Darüber hinaus kann die Programmierung für NUMA sehr schwierig sein, insbesondere bei Workloads oder Algorithmen, die mit der Arbeit mit "entfernten" Kernen und Speicher verbunden sind. Daher werden die Macken von NUMA niemals vollständig verschwinden, weshalb AMD die Verantwortung für die Lösung dieses Problems übernommen hat.

AMD implementierte Switches sowohl im BIOS als auch in der Anwendung, um NUMA in Threadripper zu unterstützen und zu steuern. Standardmäßig verbirgt Threadripper seine NUMA-Architektur. AMD verwendet stattdessen Threadripper in der UMA-Konfiguration: ein einheitliches Speicherzugriffssystem, in dem Speicher an einen beliebigen DRAM gesendet wird und die Verzögerung variabel ist (z. B. ~ 100 ns im Durchschnitt zwischen 78 ns und 133 ns), sich jedoch auf einen hohen Spitzendurchsatz konzentriert . Durch die Einführung der CPU für das Betriebssystem als integrales Design wird die Speicherbandbreite erhöht und alle Anwendungen (NUMA-kompatibel und nicht) sehen alle 16 Kerne als Teil derselben CPU. Auf diese Weise können Sie für Anwendungen, die NUMA nicht unterstützen (und deren Leistung daher vom Betriebssystem im NUMA-Modus verringert wird), die Anzahl der Kerne, Threads und des Speichers maximieren, die sie verwenden können.


Alle 32 Threads werden als Teil einer einzelnen monolithischen CPU dargestellt

Der Nachteil des UMA-Modus besteht darin, dass das Betriebssystem und die Anwendungen keine fundierten Entscheidungen treffen können, da die Funktionsweise von Threadripper verborgen ist, und daher ihre Leistung verringert wird. Anwendungen, die latenzempfindlich und nicht für NUMA optimiert sind, können an Leistung verlieren, wenn sie Kerne und Speicher verwenden, die an einen anderen Chip angeschlossen sind. AMD Threadripper NUMA, NUMA . , . , .

, - . , -- , . AMD 400mm2+ , . , , , .



Intel Skylake-X: LCC , 10 HCC, 12 18 . (3x4 5x4 ), . Intel , , (, , , ). Skylake-X Intel (MODe-X) Intel, — . 2,4 . Skylake-X Intel , , .

, AMD Infinity Fabric, , Intel — MoDe-X.


4. Creator Mode Game Mode


- , AMD «», . Creator Mode ( ) Game Mode , .

:

  • Legacy Compatibility Mode, on or off (off by default)
  • Memory Mode: UMA vs NUMA (UMA by default)

, DRAM PCIe. LCM , , 16- 32 . LCM , , 8 16 . , (, DiRT) 20 . . - .

, , (UMA) (NUMA). , . , 20% , , .



NUMA - , NUMA, , . , . , , , , bandwidth . , . , — FPS 99- .

, AMD « » «» «». , SMT, «» , (NUMA), Distributed (UMA), Distributed .

  • When Memory Access Mode is Local, NUMA is enabled (Latency)
  • When Memory Access Mode is Distributed, UMA is enabled (Bandwidth, default)

, . AMD , . Creator . , FPS .



, .



BIOS, « » « ». , ASUS Local Distributed, NUMA UMA. Legacy Compatibility Zen, , . Ryzen Master .



Threadripper, AMD Ryzen Master , , , , . , Creator . AMD «». «Creator» «Game Mode», , ( «Legacy Compatibility Mode» «Memory Access Mode»), .


, Creator Game Mode . , , – . , Threadripper , , . SMT - , AMD Creator Game Mode.

16- Threadripper 1950X. , DRAM. ( 2 ), L1, L2, L3 . UMA, Creator, . Ryzen 5 1600X Zeppelin 6950X Broadwell . DDR4-2400, DIMM .



1950X , 8 , L3 CCX. , Game 79 , Creator — 108 . , Ryzen 5 1600X, , 8 (20 41 ), Creator Game 87 . , Creator , , Ryzen Game.

DRAM DDR4-3200 Threadripper 1950X, :



8 , L3 , . 8 DDR4-2400 41 18 DDR4-3200. , , : Creator DDR4-3200 Game DDR4-2400 (87 79 ), Game DDR4-3200 65 .

, Game mode, ( ). AMD?



:

  • At DDR4-2400, 79 and 136 «» (108 )
  • At DDR4-3200, 65 and 108 «» (87 )

— , Creator, , UMA + Creator ( ) .


5.


-, , , . , , JEDEC. , , , , JEDEC . , (XMP ), BIOS. JEDEC — , , , , .



, , : , .

Danksagung


Wir müssen den folgenden Unternehmen für die freundliche Bereitstellung von Ausrüstung für unsere vielen Testaufgaben danken. Einige dieser Hardware werden in diesem Testaufbau nicht speziell verwendet, sondern in anderen Tests.

Vielen Dank an Sapphire für die Bereitstellung mehrerer AMD-GPUs. Wir haben uns auf der Computex 2016 mit Sapphire getroffen und die Plattform für unsere zukünftigen Tests an AMD-GPUs für deren Produktion für mehrere anstehende Projekte besprochen. Infolgedessen konnten sie uns den neuesten Chip zur Verfügung stellen, den AMD anbieten kann. Ganz oben auf der Liste stand ein Paar Sapphire Nitro R9 Fury 4 GB GPUs, die auf der ersten Generation der HBM-Technologie und der AMD Fiji-Plattform basieren. Als erste Consumer-GPU mit HDM ist die R9 Fury ein wichtiger Moment in der Geschichte der Grafikkarten. Diese Superkarten verfügen über 3584 SP mit 1050 MHz und eine GPU mit 4 Gigabyte 4096-Bit-HBM-Speicher mit 1000 MHz.



Nach Fury stellte Sapphire auch ein Paar seiner neuesten Nitro RX 480 8 GB-Karten vor, um den aktuellen 14-nm-AMD-Hochleistungsprozessor vorzustellen (Stand März 2017). Die Umstellung auf 14 nm führte bei AMD zu einer deutlichen Verbesserung des Stromverbrauchs. In Kombination mit der neuesten Version von GCN konnten wir eine VR-fähige Grafikkarte für etwa 200 US-Dollar erstellen. Die Sapphire Nitro RX 480 8 GB OC-Grafikkarte ist die Premiumklasse der RX 480-Familie, die über einen vollständigen Satz von 8 GB GDDR5-Speicher mit 6 Gbit / s und 2304 SP mit 1208/1342 MHz Taktfrequenzen verfügt.



Zusammen mit dem R9 Fury und dem RX 480, die für Spieletests entwickelt wurden, hat Sapphire ein Paar RX 460 bestanden, mit denen der Prozessor getestet wird. Die Menge der verfügbaren GPU-Leistung kann sich direkt auf die Leistung der CPU auswirken, insbesondere wenn der Prozessor ständig mit der Grafikkarte interagiert. Der RX 460 ist eine hervorragende Karte für diesen Zweck, da er hohe Leistung und geringen Stromverbrauch kombiniert, ohne dass zusätzliche Stromanschlüsse erforderlich sind. Der Sapphire Nitro RX 460 2GB folgt der Nitro-Philosophie - er bietet gute Leistung zu einem niedrigen Preis. Sein 896 SP arbeitet mit Frequenzen von 1090/1216 MHz und ist mit 2 GB GDDR5 mit effektiven 7000 MHz ausgestattet.



Wir müssen uns auch bei MSI für die Bereitstellung der GTX 1080 Gaming X 8 GB GPU bedanken. Trotz der Größe von AnandTech ist es keine leichte Aufgabe, High-End-Grafikkarten mit Tests zu versorgen. MSI löste das Problem in bester Tradition und unterstützte uns mit einem Paar hochwertiger Grafikkarten. Die MSI GTX 1080 Gaming X 8 GB-Grafikkarte ist ein luftgekühltes Premiumprodukt, das eine niedrigere Stufe als Seahawk aufweist, jedoch Aero und wassergekühlte Rüstung übertrifft. Dies ist eine große Karte mit zwei Torx-Lüftern, einem individuellen PCB-Design, Zero-Frozr-Technologie, verbessertem PWM und einer großen Rückseite zur Erleichterung der Kühlung. Die Karte verwendet eine GP104-400-Siliziummatrix in einem 16-nm-TSMC-Prozess, enthält 2560 CUDA-Kerne und kann im OC-Modus mit Frequenzen bis zu 1847 MHz (oder im Silent-Modus mit 1607-1733 MHz) betrieben werden. An Bord befindet sich ein 8 GB GDDR5X, der mit einer Frequenz von 10.010 MHz arbeitet. Die GTX 1080 war lange Zeit ein anerkannter Champion unter den Grafikkarten.



Vielen Dank an ASUS für die Bereitstellung der GTX 1060 6 GB Strix GPU. Um das High / Low-Segment sowohl für AMD-GPUs als auch für NVIDIA zu vervollständigen, haben wir uns GTX 1060 6 GB-Karten angesehen, um Preis und Leistung in Einklang zu bringen und die Möglichkeit zu erhalten, Spiele mit einer Auflösung von mehr als 1080p mit einer Grafikkarte zu testen.

ASUS hat mit der Strix GTX 1060-Variante geholfen. Diese Karte ist mit drei Lüftern und LEDs noch länger als die GTX 1080. STRIX ist nach ROG eine kostengünstige Gaming-Marke ASUS, während die Strix 1060 die Hälfte der Top-1080-Karte ist. Sie verfügt über 1280 CUDA-Kerne, die mit einer Grundfrequenz von 1506 MHz (bis zu 1746 MHz im OC-Modus) arbeiten, und 6 GB GDDR5 mit einer Frequenz 8008 MHz auf einer 192-Bit-Speicherschnittstelle.



Vielen Dank an Crucial für die Bereitstellung der MX200 SSD. Der entscheidende Punkt ist, dass unsere Liste der Tests mit neuen Benchmarks und Spielnamen wächst und der 1 TB MX200 eine ernsthafte Hilfe ist. Es basiert auf dem Marvell 88S9189-Controller und wird von einem Micron-Chip mit 16-nm-128-Gbit-MLC betrieben. Es handelt sich um ein 7-mm-2,5-Zoll-Gerät, das für 100-KByte-IOPS mit zufälligem Lesen und 555/500 MB / s Lese- und Schreibgeschwindigkeit ausgelegt ist. Die hier verwendeten 1-TB-Modelle unterstützen die Verschlüsselung mit TCG Opal 2.0 und IEEE-1667 (eDrive) und haben eine Nenndauer von 320 TB mit einer dreijährigen Garantie.



Vielen Dank an Corsair für die Bereitstellung des AX1200i-Netzteils. Der AX1200i war das erste Netzteil, das eine digitale Steuerung und Verwaltung über das Corsair Link-System bot. Es kann 1200 Watt bei 50 ° C liefern und ist mit 80 PLUS Platinum zertifiziert. Dies bietet einen Wirkungsgrad von 89-92% bei 115 V und 90-94% bei 230 V. Der AX1200i ist vollständig modular aufgebaut, hat ein größeres 200-mm-Design und einen doppelten kugelgelagerten 140-mm-Lüfter, um den Hochleistungsbetrieb zu unterstützen.

Der AX1200i ist als Arbeitstier mit 8 PCIe-Steckplätzen mit Vier-Wege-GPU-Unterstützung konzipiert. Der AX1200i verfügt außerdem über einen Lüftermodus ohne Drehzahl, mit dem Sie den Lüfter ausschalten können, wenn die Stromquelle mit weniger als 30% Last betrieben wird.



Vielen Dank an G.Skill für den bereitgestellten Speicher. Im Laufe der Jahre hat G.Skill AnandTech beim Testen von CPUs oder Motherboards unterstützt. Wir haben bereits über ihre Hochleistungs- und Hochfrequenz-Chips geschrieben, und jedes Jahr veranstaltet die Computex G.Skill das weltweite Übertaktungsturnier für flüssigen Stickstoff direkt auf der Ausstellungsfläche.




6. Testsuite 2017


Für diesen Test haben wir eine Reihe neuer Prozessortests eingeführt. Es verwendet unsere neuen Skripte, die speziell für diese Tests entwickelt wurden. Dies bedeutet, dass wir nach der Installation eines neuen Betriebssystems das Betriebssystem für maximale Kompatibilität konfigurieren, neue Tests installieren, die gewünschte Version des Betriebssystems ohne zufällige Aktualisierungen speichern und eine Reihe von Tests in weniger als fünf Minuten ausführen können. Danach benötigen Sie einen Klick auf eine Schaltfläche, um den 8-10-Stunden-Test (mit einem Hochleistungskern) mit fast 100 entsprechenden Datenmarkierungen in den folgenden Tests für die Prozessoren zu starten, gefolgt von unseren Spieletests. Sie arbeiten 4-5 Stunden an jedem der getesteten Tests GPUs. CPU-Tests decken eine Vielzahl von Segmenten ab, von denen Ihnen viele bekannt sind. Einige der Tests sind für das Benchmarking im Allgemeinen neu, für CA jedoch nicht weniger wichtig.

Unsere neuen CPU-Tests decken sechs Kernbereiche ab. Wir behandeln das Web (wir haben eine nicht aktualisierbare Version von Chrome 56), allgemeine Systemtests (Öffnen komplexer PDFs, Emulieren, Gehirnsimulation, KI, Konvertieren von 2D-Bildern in 3D-Modelle), Rendern (Raytracing, Modellieren), Codieren ( Komprimierung, AES, h264 und HEVC), Office-Tests (PCMark und andere) und unsere vorherigen Tests - Atavismus aus der Generierung von schlechtem Code, interessant zum Vergleich.

Ein Hinweis zur Vorbereitung des Betriebssystems. Da wir Windows 10 verwenden, besteht eine hohe Wahrscheinlichkeit für ein plötzliches Systemupdate, das unsere Tests verletzt. Im Zusammenhang mit dieser Bedrohung haben wir eine Reihe von Schutzmaßnahmen ergriffen: verbotene Updates auf das Maximum, deaktivierter Windows Defender, gelöschtes OneDrive, deaktiviertes Cortana so weit wie möglich. Darüber hinaus haben sie den Hochleistungsmodus in den Energieeinstellungen aktiviert und die Uhr der internen Plattform ausgeschaltet. Dies kann zu Fehlern führen, wenn sich die Grundfrequenz ändert (und daher das Timing ungenau ist).

Webtests auf Chrome 56
Sonnenspinne 1.0.2
Mozilla Kraken 1.1
Google Octane 2.0
WebXPRT15

Systemtests
PDF-Eröffnung
FCAT
3DPM v2.1
Dolphin v5.0
DigiCortex v1.20
Agisoft PhotoScan v1.0

Rendering-Tests
Corona 1.3
Mixer 2.78
LuxMark v3.1 CPU C ++
LuxMark v3.1 CPU OpenCL
POV-Ray 3.7.1b4
Cinebench R15 ST
Cinebench R15 MT

Codierungstests
7-Reißverschluss 9.2
WinRAR 5.40
AES-Codierung (TrueCrypt 7.2)
HandBrake v1.0.2 x264 LQ
HandBrake v1.0.2 x264-HQ
HandBrake v1.0.2 HEVC-4K

Büro / Profi
PCMark8
Chrom Compile (v56)
SYSmark 2014 SE

Legacy-Tests
3DPM v1 ST / MT
x264 HD 3 Pass 1, Pass 2
Cinebench R11.5 ST / MT
Cinebench R10 ST / MT

CPU-Spieletests


Für unsere neue GPU-Testsuite haben wir uns entschieden, groß zu denken. Es gibt viele Benutzer im Ökosystem, die das Spiel bei der Auswahl eines Prozessors ganz oben auf ihre Prioritäten setzen. Und wenn es eine Chance gibt, 50 US-Dollar beim Prozessor zu sparen und die beste Grafikkarte zu erhalten, ohne die Leistung zu beeinträchtigen, dann entscheiden sich die meisten Spieler für diese Methode. Hier warten ernsthafte Schwierigkeiten auf uns - Spiele mit nicht nur unterschiedlichen Anforderungen, sondern laden das System auch auf unterschiedliche Weise, und Grafikkarten reagieren unterschiedlich auf den Spielcode-Stream. Darüber hinaus haben Benutzer eine Vielzahl von Urteilen und Präferenzen, die bestimmen, was genau die „Norm“ ist. Bei so vielen Freiheitsgraden können Tests bis ans Ende unseres Lebens ausgedehnt werden, obwohl die Ergebnisse innerhalb weniger Monate nach Beginn der Tests veraltet sind - wenn ein neues Spiel herauskommt oder eine neue GPU auf den Markt kommt. Verwenden wir für eine gute Genauigkeit Spiele für DirectX 12, was die Verwendung von mehr Prozessorkernen im Spielprozess vereinfacht.

Unsere anfängliche Liste von neun Spielen, die im Februar herauskamen, wurde schnell zu sechs, da Ubisoft-Spiele nicht professionell angepasst werden konnten. Wenn Sie For Honor-, Steep- oder Ghost Recon: Wildlands-Tests auf AnandTech sehen möchten, teilen Sie Ubisoft Annecy oder Ubisoft Montreal mit, wo Sie uns finden können. Obwohl diese Spiele einen internen Benchmark haben, der der Anwendung würdig ist, bietet sie dem Endbenutzer leider keine ausreichende Frame-für-Frame-Granularität, obwohl sie zur Vorbereitung der Daten verwendet werden, die der Benutzer letztendlich sieht (daher wird sie normalerweise von einem anderen verborgen Schicht). Stattdessen würde ich diese Tests lieber über die Eingabe automatisieren, aber extrem inkonsistente Ladezeiten sind eine große Hürde.

Die Liste der in unserem 4/2-Skript enthaltenen Tests wurde vor einem Ein-Tasten-Lauf automatisiert und liefert vier Stunden später Ergebnisse für jede GPU. Die verwendeten Berechtigungen und Einstellungen sind ebenfalls aufgeführt:

  • Civilization 6 (1080p Ultra, 4K Ultra)
  • Asche der Singularität: Eskalation * (1080p Extreme, 4K Extreme)
  • Schatten von Mordor (1080p Ultra, 4K Ultra)
  • Aufstieg des Tomb Raiders # 1 - GeoValley (1080p hoch, 4K mittel)
  • Aufstieg des Tomb Raiders # 2 - Propheten (1080p hoch, 4K mittel)
  • Aufstieg des Tomb Raider # 3 - Berg (1080p hoch, 4K mittel)
  • Rocket League (1080p Ultra, 4K Ultra)
  • Grand Theft Auto V (1080p sehr hoch, 4K hoch)

Während des Tests werden für jede GPU die aufgelisteten Spiele (für jede Auflösung / Einstellungskombination) viermal ausgeführt und stark abweichende Werte verworfen. Die durchschnittliche Bildrate, das 99. Perzentil und die Time Under x FPS-Daten werden sortiert und die Originaldaten werden archiviert.

Die vier GPUs, die wir für die Tests erhalten haben, sind:

  • MSI GTX 1080 Gaming X 8G
  • ASUS GTX 1060 Strix 6G
  • Sapphire Nitro R9 Fury 4 GB
  • Sapphire Nitro RX 480 8 GB

In unserem Testskript haben wir etwas Besonderes für die GTX 1080 gespeichert. Die folgenden Tests wurden ebenfalls hinzugefügt:

  • Civilization 6 (8K Ultra, 16K Lowest)

Dieser Benchmark kann mit einigen Einschränkungen gestartet werden, obwohl er über die Eigenschaften des verwendeten Monitors hinausgeht und "zukünftige" Tests von GPUs auf 8K und 16K mit einigen interessanten Ergebnissen ermöglicht. Wir führen diese Tests nur auf der GTX 1080 durch, da es keinen Sinn macht, eine Diashow mehr als einmal anzusehen.

* Wie im Hinweis zu diesem Test angegeben, liegen uns keine Daten zu Spielen auf dem Skylake-X-Prozessor vor. Wir haben eine Reihe von Tests durchgeführt, bevor wir Threadripper mit den neuesten Updates und dem neuesten BIOS erhalten haben. Bei der Analyse der Daten sehen wir jedoch eine Reihe ungelöster Leistungsprobleme, die vor der Veröffentlichung der Ergebnisse geschlossen werden sollten.


7. CPU-Systemtests


Unsere ersten Tests sind allgemeine Systemtests. Diese Testsuite wurde entwickelt, um zu emulieren, was Benutzer normalerweise im Betriebssystem tun, z. B. das Öffnen großer Dateien oder das Verarbeiten kleiner Datenstapel. Es unterscheidet sich etwas von unseren Bürotests, bei denen Industriestandards verwendet werden, und einige der Tests hier sind relativ neu und ungewöhnlich.

PDF-Dateien öffnen


Der erste auf der Liste ist ein Test, den wir mit einem monströsen PDF-Dokument geschrieben haben, das wir einmal vor der Teilnahme an einer Veranstaltung erhalten haben. Obwohl das Dokument nur eine Seite enthält, enthält es so viele hochwertige Ebenen, dass mein durchschnittlicher Laptop 15 Sekunden brauchte, um die Datei zu öffnen und mir die Kontrolle über das System zurückzugeben. Dieses Dokument ist der beste Kandidat für unseren Test „Lasst uns ein schreckliches PDF-Dokument öffnen“. Hier haben wir Adobe Reader DC mit deaktivierter Update-Funktion verwendet. Unser Benchmark legt die Bildschirmauflösung auf 1080p fest, öffnet die PDF-Datei im Bildschirmanpassungsmodus und misst die Zeit zwischen dem Senden des Befehls zum Öffnen der Datei und der Zeit, zu der die Datei auf dem Bildschirm erweitert wird und der Benutzer wieder die Kontrolle über die Software hat. Der Test wurde 10 Mal wiederholt, wonach die durchschnittliche Zeit berechnet wurde. Die Ergebnisse werden in Millisekunden angezeigt.



Dieser Test ist Single-Threaded, sodass die Hochfrequenz-Chips von Intel einen klaren Sieg erringen. Außerdem gibt es bei diesem Test einen unmerklich besonderen Unterschied zwischen Threadripper-Chips.

FCAT-Verarbeitung: Link


Eine der interessantesten Belastungen, die uns in den letzten Quartalen in die Hände gefallen sind, ist FCAT, ein Tool, mit dem wir Verzögerungen in Spielen aufgrund von ausgelassenen oder beschädigten Frames messen und visuell analysieren. Der FCAT-Prozess erfordert die Aufnahme einer Farbüberlagerung in das Spiel, die Aufzeichnung des Spielprozesses und die anschließende Analyse der Videodatei mit der entsprechenden Software. Diese Software ist jedoch normalerweise Single-Threaded, da das Video hauptsächlich im RAW-Format vorliegt, was eine große Dateigröße impliziert und die Übertragung einer großen Datenmenge erfordert. Für unseren Test nehmen wir eine 90-Sekunden-Aufzeichnung des Rise of the Tomb Raider-Tests auf, der auf der GTX 980 Ti mit 1440p ausgeführt wird, was einer Größe von etwa 21 GB entspricht, und messen die Zeit, die für die Verarbeitung mit dem visuellen Analysetool benötigt wird.



Wie beim Öffnen von PDF steht die Leistung mit einem Thread an oberster Stelle.

Dolphin Benchmark: Link


Viele Emulatoren sind durch die Prozessorleistung eines einzelnen Prozessors verbunden, und allgemeine Berichte deuten darauf hin, dass Haswell die Emulatorleistung erheblich verbessert hat. Dieser Benchmark startet das Wii-Programm, bei dem der Strahl eine komplexe dreidimensionale Szene im Dolphin Wii-Emulator verfolgt. Die Ergebnisse dieses Tests sind ein sehr zuverlässiger Indikator für die Geschwindigkeit der Dolphin-Prozessoremulation. Dies ist eine intensive Single-Core-Aufgabe, bei der die meisten Aspekte des Prozessors verwendet werden. Die Ergebnisse sind in Minuten angegeben, wobei die Wii selbst ein Ergebnis von 17,53 Minuten zeigte.



Dolphin zeigt sich gut dort, wo es eine hohe Leistung eines Kerns gibt, obwohl nach dem Test immer noch Multithreading vorhanden ist und zusätzliche Kerne beteiligt sind.

3D-Bewegungsalgorithmus-Test v2.1: Link


Dies ist die neueste Version unseres 3DPM-Benchmarks. Das Ziel von 3DPM ist es, teilweise optimierte wissenschaftliche Algorithmen zu simulieren, die direkt aus meiner Doktorarbeit stammen. Version 2.1 unterscheidet sich von 2.0 darin, dass sie die grundlegenden Partikelstrukturen eher nach Referenz als nach Wert überträgt und die Anzahl der vom Compiler durchgeführten Double-> Float-> Double-Konvertierungen reduziert. Dies ergibt eine Beschleunigung von 25% gegenüber Version 2.0, was neue Daten bedeutet.



In unserem ersten reinen Multithread-Test gewinnt 1950X mit 32 Threads. Der 1920X ist dem 1950X im SMT-Off-Modus mit 24 Streams über 16 Streams überlegen.

DigiCortex v1.20: Link


Obwohl die DigiCortex-Software seit einigen Jahren veraltet ist, ist sie ein Heimprojekt zur Visualisierung der Aktivität von Neuronen und Synapsen im Gehirn. Die Software enthält verschiedene Benchmarks, und wir verwenden einen kleinen Benchmark, der eine Gehirnsimulation von 32.000 Neuronen / 1,8 Milliarden Synapsen ausführt. Die Testergebnisse zeigen die Fähigkeit des Systems, in Echtzeit zu emulieren, was bedeutet, dass jedes Ergebnis über einem für die Emulation geeignet ist.



DigiCortex erfordert eine Mischung aus hoher Prozessorfrequenz und DRAM-Leistung, um ein gutes Ergebnis zu erzielen. Daher ist alles mit Vierkanalspeicher geeignet. Der 1950X im SMT-Off-Modus gewinnt hier aufgrund des schnellen Zugriffs auf den Hauptspeicher, kombiniert mit dem Vorhandensein von 16 Threads, um darauf zuzugreifen. Broadwell-E ist der engste Konkurrent und übertrifft sogar Skylake-X, was höchstwahrscheinlich auf die Ringtopologie (Ring) gegenüber dem Netzwerk (Mesh) in Skylake zurückzuführen ist. Die 1950X-Leistung im Creator-Modus ist jedoch viel geringer als die von Standard-Ryzen-Chips, was zeigt, dass bei einer einzelnen Speicherarchitektur eine erhebliche Leistungsminderung auftreten kann. Der 1920X hat diesen Test aus einem unbekannten Grund nicht bestanden.

Agisoft Photoscan 1.0: Link


Photoscan bleibt in unserer Testsuite aus der vorherigen Version der Tests, aber jetzt arbeiten wir unter Windows 10, sodass Funktionen wie Speed ​​Shift auf den neuesten Prozessoren ins Spiel kommen. Das Konzept von Photoscan ist die Konvertierung mehrerer 2D-Bilder in ein 3D-Modell. Je detaillierter die Bilder und je mehr solche, desto besser das Modell. Der Algorithmus besteht aus vier Stufen: mehreren Single-Threaded- und mehreren Multi-Threaded-Schritten und hängt auch vom Cache und vom Speicher ab. Für einige unterschiedlichere Multithread-Workloads können Optionen wie Speed ​​Shift und XFR die Warte- oder Ausfallzeiten der CPU nutzen und so die Leistung neuer Mikroarchitekturen erheblich steigern.



Das veränderbare Single-Multithreading-Agisoft zeigt, dass in einem solchen Prozess das entscheidende Element des Sieges eine Kombination aus Kernen, IPC und Frequenz ist. AMD liegt wahrscheinlich aufgrund seiner AVX-Implementierung an der Spitze.


8. CPU-Rendering-Tests


Das Rendern von Tests ist ein seit langem anerkannter Favorit von Überprüfungen und Tests, da der vom Rendern von Paketen verwendete Code normalerweise so optimiert ist, dass jede Leistung beeinträchtigt wird. Manchmal ist das Rendern von Programmen auch sehr speicherabhängig - wenn viele Threads Tonnen von Daten enthalten, kann Speicher mit geringer Latenz der Schlüssel zu allem sein. Windows 10, .

Corona 1.3: link


Corona — , , 3ds Max Maya, . – , . , , . , , « » ( , , « », ). Corona , .



.

Blender 2.78: link


-, Blender . Blender 5 , , . , , AMD, Intel , , , .



Blender .

LuxMark v3.1: link


, LuxMark , , , . OpenCL, C ++. , IPC, , C ++ OpenCL .





Blender, LuxMark . — . , 10- Core i9-7900X CPU (C ++), , , - IPC .

POV-Ray 3.7.1b4: link


suit — POV-Ray. . , AMD Ryzen, , . , , POV-Ray .



LuxMark, POV-Ray .

Cinebench R15: link


CineBench , , , . IPC ST, — MT.





Intel , 18- 3200 Cinebench R15. 6,7% Threadripper 1950X .


9. CPU Web Tests


- — . , « » , . , - Chrome 56 2017. , , .

SunSpider 1.0.2: link


- – SunSpider. JavaScript-, IPC , - , . 10 . 4 .



Mozilla Kraken 1.1: link


Kraken — Javascript, , SunSpider, , . , .



Google Octane 2.0: link


, Google Mozilla, , JS . , SunSpider JS, Kraken , Octane , , .



WebXPRT 2015: link


, , WebXPRT , . , , , , , .



, - . - — , Threadripper's . , — .


10. CPU Encoding Tests


. / , . / - « » — , . , . -, -. , 3D-, , , / .

7-Zip 9.2: link


, , 7-Zip. , . .







/ 7-zip. AMD .

WinRAR 5.40: link


2017 WinRAR . WinRAR , 7-Zip, . , 7-Zip, , (33 1,37 , 2834 370 150 ) . — , . - DRAM 10 , .



WinRAR — , . . Threadripper Creator.

AES Encoding


, AES-, . , --, AES . , . TrueCrypt - 1 DRAM. — GB / s .



HandBrake v1.0.2 H264 and HEVC: link


, ( , ) , . – , , . . Google, VP9, : H264, , 1080p, HEVC ( H265), , H264, ( ). HEVC , 4, .

Handbrake , .

/ H264: 2- 640x266 H264 Main profile High profile, very-fast .



/ H264: , 4K (3840x4320), 60 Main High, very-fast .



HEVC: HQ, 4K60 H264 4K60 HEVC.



HQ H264 AMD , SMT-off 1950X - SMT. HEVC, 1950X 7900X .


11. CPU Office Tests


, , — , , . — , , , , , , .

Chromium Compile (v56)


Windows 10 Pro, VS Community 2015.3 Win10 SDK Chromium. 2017 , . — — , .



, , 1920X Ryzen 7. , CCX , . 1950x «3---CCX» 1920x ( ). , , , , 2 1950X 8 12 16 Zen.

PCMark8: link


, PCMark 2008/2009 , Futuremark PCMark8, 2017 . PCMark , , « ». «» , C ++ OpenCL, . PCMark8 Home, Work Creative , , .





, Creative PCMark 8 . , .

SYSmark 2014 SE: link


SYSmark Bapco, . SYSmark , , Photoshop Onenote, , . (Office, Media, Data), . (Core i3-6100, 4 DDR3, 256 SSD, HD 530) 1000 .




12. CPU Legacy Tests


, - . , , 10 . Windows 10, , , .

3D Particle Movement v1


3DPM — , 3D-, Brownian Motion, . , IPC , «» . , , . - , , false sharing.





CineBench 11.5 and 10


Cinebench — , MAXON Cinema 4D. Cinebench . , , Cinebench, , . , , , , Cinebench, . 15, 11,5 10.









x264 HD 3.0


, x264 HD 3.0, , . 5.0.1, 1080p x264-. 3.0 720p, high-end , . , , 90 .





1950X: , , .


13. Civilization 6


, - — Civilization 6. Sid Meier , Civ . , - . , , , , . , , .



- — , , 5 . Civilization 6 Firaxis , . , Civilization , DirectX 12.

, , Civilization 20 , AI . Civilization «AI Benchmark», , . , .

1920x1080 4K . Civilization 6 MSAA, . , , 0 ( ) 5 (). Civ6- () 0 , MSAA — 2x.

, 8K 16K (Civ6 ) GTX 1080, 8K, 4K, 16K .

MSI GTX 1080 Gaming 8G Performance
1080p



4K





8K



16K



ASUS GTX 1060 Strix 6G Performance
1080p



4K



Sapphire Nitro R9 Fury 4G Performance
1080p




4K



Sapphire Nitro RX 480 8G Performance
1080p



4K



, Threadripper , Ryzen , Time Under Threadripper.


14. Shadow of Mordor


– - Middle Earth: Shadow of Mordor ( SoM). Monolith LithTech Jupiter EX . SoM . , Red Dead Redemption, SoM Zero Punctuation's Game of the Year 2014 .



2014 , SoM , . SoM , , , . , , , , 4K.

, , , , . , Graphical Quality, Lighting, Mesh, Motion Blur, Shadow Quality, Textures, Vegetation Range, Depth of Field, Transparency Tessellation. .

1080p 4K, 4K-, Ultra. FPS, 99 time under .

MSI GTX 1080 Gaming 8G Performance
1080p



4K



ASUS GTX 1060 Strix 6G Performance
1080p



4K



Sapphire Nitro R9 Fury 4G Performance
1080p





4K



Sapphire Nitro RX 480 8G Performance
1080p



4K




16. Rise of the Tomb Raider (1080p, 4K)


Rise of the Tomb Raider (RoTR), Crystal Dynamics, Tomb Raider, . : RoTR .



Tomb Raider TressFX, RoTR . : , , , , , , DirectX 12.

, : (1-), (2-) (3-) — ( , — , ).

, , , 2-, , CPU , . - .

RoTR , , , , , , , , , , PureHair, TressFX.

-, 1920x1080 4K, 4K-. 1080p High, 4K Medium, - .

, RoTR , , INI-, TR . , , . FPS, 99 time under .

#1 Geothermal Valley Spine of the Mountain



MSI GTX 1080 Gaming 8G Performance
1080p



4K



ASUS GTX 1060 Strix 6G Performance
1080p





4K





Sapphire Nitro R9 Fury 4G Performance
1080p





4K





Sapphire Nitro RX 480 8G Performance
1080p





4K





#2 Prophet's Tomb



MSI GTX 1080 Gaming 8G Performance
1080p





4K





ASUS GTX 1060 Strix 6G Performance
1080p





4K





Sapphire Nitro R9 Fury 4G Performance
1080p





4K





Sapphire Nitro RX 480 8G Performance
1080p





4K





#3 Spine of the Mountain Geothermal Valley



MSI GTX 1080 Gaming 8G Performance
1080p





4K





ASUS GTX 1060 Strix 6G Performance
1080p





4K





Sapphire Nitro R9 Fury 4G Performance
1080p





4K





Sapphire Nitro RX 480 8G Performance
1080p





4K




, 1950X .


17. Rocket League


« – » . Katamari – , , . . , , Rocket League.

Rocket League pick-up-and-play, ( ), . Unreal Engine 3, , - , . 2015 5 , , , . , , , , . Rocket League , — .



, , , «» . , . , Unreal 3, Rocket League . .

, Rocket League , , . : Fraps , ( ), , 4v4, , , .

, , , , , . , , . (Aquadome, , , - / ) . 4 (, 5 DIRT: Rally benchmark), , 99- time under.



Rocket League : Low, Medium, High High FXAA. ; . 1920x1080 4K FPS.

MSI GTX 1080 Gaming 8G Performance
1080p





4K





ASUS GTX 1060 Strix 6G Performance
1080p





4K





Sapphire Nitro R9 Fury 4G Performance
1080p





4K





Sapphire Nitro RX 480 8G Performance
1080p





4K




Ryzen NVIDIA, . , , Ryzen Rocket League NVIDIA, Threadripper. , , Intel, , Rocket League , SMT-off 1950X. Time Under AMD, 1950X .


18. Grand Theft Auto


Grand Theft Auto 14 2015 , AMD, NVIDIA . GTA , , Advanced Game Engine Rockstar DirectX 11. , , , , , , .



. : , – 90 . , , — , , . , . , .

GTA , , . , / / / . MSAA, , -, . , , , , , ( , GPU , , R7 240 4 ).

, 1920x1080, Very High , 4K High . , , 99- time-under .

MSI GTX 1080 Gaming 8G Performance
1080p





4K





ASUS GTX 1060 Strix 6G Performance
1080p





4K





Sapphire Nitro R9 Fury 4G Performance
1080p





4K





Sapphire Nitro RX 480 8G Performance
1080p





4K





, Threadripper Ryzen, .


19. ,


Ein Threadripper mit einem Prozessorkühlsystem, das für eine Wärmeableitung von 180 W TDP (Thermal Design Power) ausgelegt ist, ist ein großer Fortschritt nach früheren AMD-Lösungen, die im Bereich von 40 bis 95 W arbeiten, oder nach Intel-Plattformen, auf denen die meisten Prozessoren über TDP verfügen bis zu 95 Watt und High-End 140 Watt. Vergessen wir jedoch nicht, dass AMD bereits einen Prozessor mit 220 W TDP herausgebracht hat - den FX-9590 mit 5 GHz, der ursprünglich das ganze Jahr über als Produkt exklusiv für OEMs verkauft wurde, um sicherzustellen, dass die Benutzer über genügend Leistung verfügen Kühlung. Am Ende wurde es als Endprodukt mit einem Flüssigkeitskühler und zwei Lüftern veröffentlicht.

AMDs 5-GHz-Turbo-CPU im Einzelhandel: Der FX-9590 und der ASRock 990FX Extreme9 Review

Somit ist der 180W TPD für AMD noch kein neues Konzept. Für diesen Test habe ich die AMD-Flüssigkeitskühlung verwendet, die zu der Zeit mit dem FX-9590 erhalten wurde, da sie für eine Leistung von mindestens 220 Watt ausgelegt war. (AMD lieferte auch den Thermaltake 3x120-Kühler zusammen mit Threadripper, aber die Installation auf unserem Prüfstand war viel schwieriger.)

Um die Leistung zu testen, führen wir Prime95 mindestens 60 Sekunden lang aus und verwenden dann die Software, um die auf dem Chip integrierten Leistungssensoren abzufragen und die Ergebnisse zu erhalten. Abhängig von der CPU können wir Daten für den gesamten Chip, den Kern, den DRAM, den Uncore oder die integrierte GPU empfangen. Es ist wichtig, dass unser Tool über das neueste Update verfügt, da die Register für den Empfang dieser Daten bekannt sein müssen. Normalerweise ist diese Art des Ablesens des Energieverbrauchs im Vergleich zu invasiveren Methoden möglicherweise nicht genau genug. Sie ist schnell und kostengünstig für die Verwaltung von Skripten. Darüber hinaus bestimmen diese Daten, wann der Zentralprozessor die Leistungsgrenzen erreicht und die Lüftergeschwindigkeit erhöhen muss.

Schauen wir uns zunächst den vollen Stromverbrauch von Threadripper an.



Im Allgemeinen ist Threadripper auch im Leerlauf sehr unersättlich. Der größte Teil der Energie wird hier vom Speichercontroller und dem PCIe-Bus verbraucht, um den Grafikprozessor mit einer statischen Anzeige zu unterstützen. Die Tatsache, dass der 1950X DDR4-3200-Speicher weitere 13 W + aus der CPU bezieht, zeigt, wie sich der Speichercontroller auf den Gesamtstromverbrauch auswirkt. Für alle Chips zeichnen wir 2 Watt Leistung für die Kerne auf.

Wenn wir den Prozessor in einen Thread laden, startet er Uncore / Mesh sowie Speicher und wechselt in den maximalen Turbomodus. Je nachdem, wie der Prozessor ausgelegt ist, kann dies einen oder mehrere Kerne gleichzeitig laden - und obwohl nur ein Kern die Arbeit erledigt, erhöht der Rest dennoch den Energieverbrauch.



Die Ergebnisse zeigen, dass verschiedene Threadripper-Prozessoren wieder ungefähr das gleiche Ergebnis zeigen, deutlich mehr Ryzen-Prozessoren verbrauchen und den 10C / 8C-CPUs von Broadwell-E bzw. Haswell-E entsprechen. Der 1950X, der auf dem DDR4-3200 läuft, verbraucht immer noch zusätzliche + 13 Watt, aber es ist interessant, dass der Energieverbrauch der Skylake-X-Kerne auf ungefähr den gleichen Wert gestiegen ist. Es scheint, dass die in Skylake-X verwendete MoDe-X-Verbindung ebenfalls viel Strom verbraucht.

Im nächsten Test laden wir den Prozessor mit der maximalen Anzahl von Threads für dieses Chipdesign. Dieser Ansatz bietet maximale Last für alle Kerne, einen Speichercontroller und eine Verbindung.



Alle Threadripper-Prozessoren erreichten 177 Watt, knapp unter 180 Watt TDP, und Skylake-X-Prozessoren übertrafen ihre angegebenen 140 Watt TDP. Das 1950X im Spielemodus scheint etwas weniger Strom zu verbrauchen, was möglicherweise auf den Start von DRAM in NUMA zurückzuführen ist.

Bei einigen Chips können wir nur den Stromverbrauch der Kerne sehen. Und bei Volllast haben wir interessante Ergebnisse erzielt:



Ein Schlüsselelement in dieser Grafik ist der 1950X, der auf dem DDR4-3200 ausgeführt wird. Da ein schnellerer DRAM erfordert, dass der Speichercontroller mehr Strom verbraucht, bleibt weniger Strom für die Prozessorkerne übrig, was zu einer niedrigeren Turbofrequenz führen kann. Während ein schnellerer Speicher in speicherabhängigen Szenarien eine bessere Leistung garantieren kann, kann die Kernelfrequenz daher niedriger sein, was zu einer schlechteren Gesamtleistung führt. Dies ist eine interessante Beobachtung, daher haben wir die Kernleistung 1950X für den DDR4-2400 und den DDR4-3200 berechnet.



In diesem Diagramm ist die Kernnummer auf der vertikalen Achse der Kern, in dem die Leistung gemessen wurde, und in der Horizontalen die Anzahl der geladenen Kerne, zwei Threads gleichzeitig.
Zunächst sehen wir, dass dieses Single-Core-Gerät 20,77 Watt verbraucht, wenn zwei Threads denselben Kern laden. Ab dem Moment, in dem die Hälfte der Kerne des Chips geladen ist, fällt der Indikator auf 19 Watt, dann auf 17 Watt, 16 Watt und bis zu 11 Watt. Wie wir sehen, verbrauchen die Kerne beim Laden von 8 Kernen selbst 89 Watt - und wenn wir den Verbrauch des DRAM-Controllers addieren, ist das Ergebnis sicherlich größer als das des Ryzen-Prozessors. Wenn wir jedoch mehr als 10 Kerne laden, passiert etwas Seltsames: Der Gesamtstromverbrauch der Kerne sinkt von 120 Watt auf 116 Watt und auf 102 Watt, wenn 24 Threads ausgeführt werden. Dies zeigt an, dass die zweite Schicht der Siliziummatrix weniger Energie pro Kern verbraucht. Dann steigt der Verbrauch wieder an, wobei ein voll beladener Chip jedem Kern etwa 8,2 Watt gibt.

Das Umschalten auf den DDR4-3200-Speicher zeigt ein ähnliches Szenario:



Zuerst erhält ein Kern bis zu 21 Watt, und dann, wenn neue Kerne mit etwa 4 Kernen / 8 Threads geladen werden, stellen wir einen geringeren Verbrauch fest - 15 Watt pro Kern beim DDR4-3200 (vergleiche mit 16 Watt pro Kern beim DDR4-2400). Im weiteren Verlauf beobachten wir eine leichte Schwankung bei 24-26 Durchflüssen und als Ergebnis bei Volllast den Verbrauch von 114 W durch alle Kerne, was 20 W weniger ist als bei DDR4-2400.

Nicht alle Daten für den Spielemodus wurden ordnungsgemäß abgerufen, daher werden wir es nicht wagen, aus den Ergebnissen tiefe Schlussfolgerungen zu ziehen, obwohl es sich lohnt, eine interessante Bemerkung zu machen. Wenn das System im Spielemodus eine kleine Anzahl von Threads benötigt, z. B. 2 bis 8, müssen diese Threads auf verschiedenen CCX-Systemen ausgeführt werden, da SMT deaktiviert ist. Im Erstellermodus sind diese Streams in 1 bis 4 Kernen auf einer CCX gruppiert und verbrauchen weniger Strom. Für DDR4-2400 bedeutet dies 65 Watt im Creator-Modus für 8 Threads (4 Kerne) im Vergleich zu 89 Watt im Spielemodus für 8 aktive Kerne.


20. Analyse des Erstellermodus und des Spielmodus


Wie auf Seite 3 dieses Testberichts angegeben, bietet AMD zwei Modi: den Erstellermodus mit allen aktivierten Kernen und der UMA-Architektur (Uniform Memory Access) und den Spielemodus, in dem eine der Matrizen deaktiviert und die Architektur an die NUMA (Non-Uniform Memory Architecture) angepasst wird. . Die Idee ist, dass Sie im Creator-Modus über alle Streams und Bandbreiten verfügen, während sich der Spielemodus auf die Kompatibilität mit Spielen konzentriert, die nicht für die Arbeit mit so vielen Kernen bereit sind, und gleichzeitig die Geschwindigkeit der Datenübertragung zum Speicher und vom Kernel erhöht zum Kern und Aufrechterhaltung der Strömungen innerhalb derselben Siliziumschicht.

Beide Methoden haben ihre positiven und negativen Seiten. Und obwohl sie durch Drücken einer Taste in Ryzen Master und anschließendes Neustarten umgeschaltet werden können, wählen die meisten Benutzer, die an diesen Einstellungen interessiert sind, den gewünschten Modus wahrscheinlich einmal aus und vergessen ihn (und beachten Sie hier, dass beim Zurücksetzen des BIOS auch die Einstellungen. ..)




21. Schlussfolgerung


In diesem Test haben wir einige wichtige Themen in Bezug auf Prozessoren mit einer großen Anzahl von Kernen untersucht: Leistung, Frequenz und "Fütterung des Tieres". Das Starten des Prozessors ist wie eine umgekehrte Diät - Sie müssen so viele Daten wie möglich eingeben, um zumindest etwas in die Ausgabe zu bekommen und zu verstehen, was „unter der Haube“ verborgen ist.

AMD und Intel verfolgen unterschiedliche Ansätze, um das Ziel zu erreichen. Wir sehen eine Multi-Matrix-Lösung gegenüber einer monolithischen Lösung. Kernelkomplexe und Infinity Fabric vs. Mesh basierend auf MoDe-X. Einheitlicher Speicherzugriff versus ungleichmäßiger Speicherzugriff. Beide kämpfen für hohe Frequenzen und geringen Stromverbrauch. AMD unterstützt ECC und mehr PCIe-Lanes, während Intel einen vollständigeren Chipsatz und spezielle Anweisungen für den AVX-512 bereitstellt. Beide Wettbewerber kämpfen um den High-End-Markt für Prosumer und Workstations, der zu leistungsstarken Multitasking-Szenarien beiträgt, um das Potenzial ihrer Prozessoren auszuschöpfen.



Folgendes sehen wir in der Spezifikation: Im Vergleich zum Core i9-7900X verfügt der AMD Ryzen Threadripper 1950X über 6 weitere Kerne sowie zusätzliche 16 PCIe-Leitungen und ECC-Unterstützung zum gleichen Preis. Im Vergleich zum kommenden 16-Kern-Core i9-7960X hat Threadripper 1950X immer noch einen Vorteil: 16 PCIe-Leitungen, ECC-Unterstützung, viel billiger als sein Konkurrent.

Der 1920X-Prozessor bietet dem Benutzer mehr Kerne, ECC-Unterstützung und mehr als die doppelte Anzahl von PCIe-Lanes im Vergleich zum Core i7-7820X für einen Unterschied von 100 US-Dollar. Einfach ausgedrückt, wenn es Hardware gibt, die PCIe-Lanes erfordert, hat AMD etwas zu bieten.



Bei Leistungstests gibt es verschiedene Aspekte für die Beschreibung unserer Ergebnisse. AMD bleibt in Bezug auf IPC-Rohdaten immer noch zurück, zeigt jedoch gute Frequenzergebnisse. Intel gewinnt immer noch bei Single-Thread-Aufgaben, insbesondere bei Aufgaben, die von der DRAM-Verzögerung abhängen. AMD meldet sich, wenn für die Aufgabe ernsthafte Threads erforderlich sind. Oft ist die Speicherzuweisung nicht so problematisch, wie es scheint. Wenn der Benutzer eine skalierbare Arbeitslast hat, gibt AMD dem Kernel die Möglichkeit, ihn so breit wie möglich zu skalieren.



Obwohl das Threadripper-Design möglicherweise besser für stark belastete Arbeitsaufgaben geeignet ist, wird das Spielen aufgrund seiner hohen Frequenz im Vergleich zu Ryzen 7 Teil der „Gleichung“. Im Standard-Kreativmodus liegt die Spieleleistung von Threadripper bestenfalls in der Mitte: Nur wenige Spiele können alle diese Streams verwenden, und die variable DRAM-Verzögerung bedeutet, dass die Kernel manchmal grob gesagt über einander stolpern und versuchen, "zu sprechen" und vorherzusagen, wann Die Arbeit wird erledigt sein. Um dieses Problem zu lösen, bietet AMD einen Spielmodus an, der die Anzahl der Kerne reduziert und die Speicherzuordnung im DRAM fokussiert, die dem Kern am nächsten liegt (zum Nachteil der maximalen DRAM-Bandbreite). Dies hat den größten Einfluss auf die minimale Bildrate und nicht auf die durchschnittliche FPS und betrifft 1080p mehr als 4K, was möglicherweise das Gegenteil der Erwartungen eines gehobenen Spielers ist. Der Spielemodus wirkt sich nicht auf einige Spiele aus, während er in anderen möglicherweise neue Möglichkeiten eröffnet.

Wenn ich sagen würde, dass Threadripper-Prozessoren im Allgemeinen keine Prozessoren sind, würde dies das technische Publikum irritieren. Die richtigere Antwort ist nicht der beste Spielprozessor. Aber AMD deckt all dies von der anderen Seite ab: Der Prozessor ermöglicht es dem Benutzer, alles gleichzeitig abzuspielen, zu streamen, anzusehen und zu verarbeiten.

Sie müssen viel und sofort tun, um maximal 16 Kerne zu füllen, was bedeutet, dass AMD für diejenigen, die dies tun, ein potenzieller Gewinner ist. Für diejenigen, die Hardcore-Bandbreite, Transcodierung, Decodierung benötigen; Rendering wie Blender, Cinema 4D oder Raytracing ist ein großartiger Prozessor. Für Besitzer mehrerer GPUs oder Fans von Multi-Storage oder für diejenigen, die sechs PCIe 3.0 x8-FPGAs in das System integrieren möchten, bietet AMD ein gutes Produkt.



Unabhängig davon, wie cool 16 Kerne in einem Consumer-Prozessor aussehen (und in diesem Sinne sieht der gesamte Threadripper cool aus - im Stil des Hardcore der 90er Jahre), sind Threadripper-Threads bei Consumer-Lasten alles andere als immer nützlich. Nur wenige bekannte Workloads können den Chip vollständig auslasten: Die Videokodierung ist das beste Beispiel. Der Rest kann einfach nicht mehr als ein paar Threads verwenden. Diese Tatsache ist hauptsächlich auf die Tatsache zurückzuführen, dass Intels Quad-Core-Chips in den letzten 8 Jahren ein Beispiel für Hochleistungs-Consumer-Prozessoren waren. Amdahls ärgerliches Gesetz ist jedoch immer in der Nähe und die Anzahl der Kerne in Prozessoren wächst weiter.

Hier gibt es einen unvorhersehbaren Faktor - dies ist der Bereich, in dem AMD Vorreiter ist: ungleichmäßige Verteilung der Kerne. NUMA war bisher noch nie kundenorientiert, weshalb AMD mit den in unserem Test diskutierten Problemen konfrontiert ist.

Das Vorhandensein mehrerer Modi ist eine sehr kluge Wahl, zumal es dort eine Menge Software gibt, die NUMA nicht „kennt“, aber die CPU gut laden kann, wenn NUMA aus der Gleichung abgeleitet wird und der Prozessor als vollständig monolithisches Gerät betrachtet wird. Etwas unangenehm ist jedoch die Tatsache, dass das Umschalten der Modi einen Neustart erfordert. Sie können eine gute Rendite erzielen, indem Sie den Modus wechseln. Dies erfordert jedoch zusätzliche Bewegung. Auf lange Sicht wird dieses Problem durch NUMA-fähigen Code behoben und automatisch Speicher mit der geringsten Latenz verwendet. Aber auch in diesem Fall hat AMD nicht nur eine Lösung, sondern auch ein Problem geschaffen, da NUMA selbst in der idealen Version eine Reihe von Programmierproblemen verursachen wird und es unwahrscheinlich ist, dass jedes Programm es in Zukunft korrekt verwenden kann.

Vor diesem Hintergrund ist ein Prozessor mit NUMA derzeit im Consumer-Bereich etwas redundant. Es ist sehr gut für bestimmte extreme Belastungen, aber nicht so gut ausbalanciert wie Ryzen. Wenn Sie den Überschuss verwerfen, bedeutet dies, dass Threadripper im Vergleich zu Ryzen nicht immer einen spürbaren Leistungsschub erzielt. Und dies ist keine Besonderheit von AMD - Intel HEDT-Produkte erforderten lange Zeit die Wahl zwischen der Anzahl der Kerne und der Single-Threaded-Top-Level-Leistung, aber die Berechnung der CPU-Leistung wurde mit Threadripper noch schwieriger. Es gibt Schwierigkeiten, einen Prozessor auf so viele Kerne zu skalieren, und Threadripper trägt diese Last. Daher ist es für Verbraucher (und dies ist der Markt, auf den der Prozessor ausgerichtet ist) wie nie zuvor wichtig, ihre geplanten Arbeitslasten zu berücksichtigen. Benötigen Sie eine schnellere Handbremscodierung oder ein flüssigeres Gameplay? Kannst du genug Kerne auf Threadripper werfen, um das Biest zu beschäftigen, oder brauchst du nur gelegentlich mehr als die vorhandenen 8 Ryzen-Kerne?



AMD versprach, dass der Socket mindestens zwei Generationen lang verwendet werden kann. Daher sollte die Threadripper 2000-Serie, sobald sie angezeigt wird, sofort nach der Aktualisierung des BIOS verfügbar sein. Interessanterweise kann AMD angesichts der Sockelgröße und der Matrixkonfiguration diese beiden "toten" Siliziumpakete leicht in "echte" Siliziumpakete verwandeln und 32 Kerne anbieten. (Obwohl diese zusätzlichen Kerne einen Engpass bei Problemen mit der Zugriffsgeschwindigkeit darstellen).

Dies ist der Krieg der Kerne. Wir nähern uns dem ersten Chip, mit dem Kessel weniger als zwölf Parsec laufen kann (siehe Star Wars - ca. übersetzt).

Als Werbung. Am Vorabend der Winterferien sind Werbeaktionen noch relevanter! Beeilen Sie sich, um das Neujahrsangebot zu nutzen und erhalten Sie 25% Rabatt auf die erste Zahlung, wenn Sie 3 oder 6 Monate bestellen!

Dies sind nicht nur virtuelle Server! Dies sind VPS (KVM) mit dedizierten Laufwerken, die nicht schlechter als dedizierte Server sein können, und in den meisten Fällen - besser! Wir haben VPS (KVM) mit dedizierten Laufwerken in den Niederlanden und den USA (Konfigurationen von VPS (KVM) - E5-2650v4 (6 Kerne) / 10 GB DDR4 / 240 GB SSD oder 4 TB HDD / 1 Gbit / s 10 TB zu einem einzigartig niedrigen Preis - ab 29 USD / Monat verfügbar gemacht (Optionen mit RAID1 und RAID10 sind verfügbar) , verpassen Sie nicht die Gelegenheit, eine Bestellung für einen neuen virtuellen Servertyp aufzugeben , bei dem alle Ressourcen Ihnen gehören, wie bei einem dedizierten Server, und der Preis mit einer viel produktiveren Hardware viel niedriger ist!

Wie man die Infrastruktur des Gebäudes baut. Klasse mit Dell R730xd E5-2650 v4 Servern für 9.000 Euro für einen Cent? Dell R730xd 2 mal günstiger? Nur wir haben 2 x Intel Dodeca-Core Xeon E5-2650v4 128 GB DDR4 6 x 480 GB SSD 1 Gbit / s 100 TV von 249 US-Dollar in den Niederlanden und den USA!

Source: https://habr.com/ru/post/de409491/


All Articles