"Finde die fünf Unterschiede." Skalierbarer und Generierungsunterschied - Neue Testreihe



Weniger als zwei Jahre nach der Ankündigung stellte Intel die zweite Generation von Intel Xeon Scalable-Prozessoren für die neue Cascade Lake-Architektur vor. Offiziell - 2. April. Das Unternehmen selbst nennt es den größten Start in seiner Geschichte, der strategisch sehr wichtig für ihn ist. Lassen Sie uns herausfinden, was an diesen neuen Skalierbaren so besonders ist.

Was war noch übrig?



Die Prozessoren Cascade Lake bzw. Cascade Lake SP gehören wie ihre Vorgänger Skylake immer noch zur Plattform Purley, jetzt die zweite Generation - Purley Refresh. Sie sind voll kompatibel mit Skylake auf Steckerebene, Chipsätzen und Motherboards, die von der ersten Generation geerbt wurden. Aber mit Nuancen - zum Beispiel das neue BIOS.
Die Prozesstechnologie hat sich nicht geändert. Die gleichen 14 nm jedoch mit Optimierungen.

Das allgemeine Benennungs- und Benennungsschema für die Serien Platin, Gold, Silber, Bronze ist gleich geblieben. Es stimmt, es gibt mehr "Suffixe". Neue Y, N, V ​​und S wurden zu den vorhandenen L, M und T hinzugefügt. Die Nummerierung der zweiten Position (Hunderte) hat sich in der Nummerierung geändert: Jetzt anstelle von Einheit - zwei, dh Gold 6240 wird der Nachfolger sein, zum Beispiel Gold 6140.

Ansonsten haben sich die grundlegenden Eigenschaften und Funktionen nicht geändert. Die Anzahl der Kerne und Cache-Größen halten Positionen: bis zu 28 und 1 MB L2 pro Kern + bis zu 38,5 MB insgesamt L3. Die Anzahl und der Typ der PCI-E-Leitungen sind dieselben wie zuvor - 48 Leitungen der Version 3.0. Die Skalierbarkeit ist dieselbe: Bis zu 3 UPI-Leitungen pro 10,4 GT / s und bis zu 8 (nahtlose) Sockel im System.

Was hast du hinzugefügt?


Im Allgemeinen gibt es viele verschiedene Mikro-Updates, aber ich würde diese aus mehr oder weniger bedeutenden herausgreifen.

Erstens hat Cascade Lake im vergangenen Jahr Hardware-Patches gegen sensationelle Schwachstellen eingeführt . Intel führte Software- und Hardwarelösungen für die Optionen 2 (Spectre), 3, 3a und 4 (Spectre NG), L1TF (Foreshadow) ein. Für Spectre Variant 1 wird nur noch der Software-Patch angeboten. Das heißt, alles, was bereits in der Intel Core i9-Reihe enthalten ist. Und so sieht es in einer Pressemitteilung aus:

  • Option 1. Der Schutz erfolgt über OS und VMM (Virtual Machine Monitor).
  • Option 2. Hardware Branch Prediction Hardening (Verhinderung zukünftiger Angriffe durch diese Methode) + mittels OS und VMM
  • Option 3. Hardware-Härtung
  • Option 3a. Hardware
  • Option 4. Hardware + OS / VMM
  • L1TF. Dank Hardware Hardening Option 3 bereits geschlossen

Zweitens wurde die Unterstützung für DDR4-2933-Speicher angezeigt. Aber mit Vorbehalt: Nur für die Gold- und Platin-Leitungen (Bronze und Silber funktionieren immer noch mit DDR4-2400) und mit nur einem DIMM pro Kanal - in einer Konfiguration mit zwei DIMMs pro Kanal verringert sich die Frequenz auf 2666 MT / s.

Drittens wurde Intel Optane DC Persistent Memory (DCPM) uraufgeführt. Die klarste Formulierung darüber, was es ist, wurde von Tiskoma erhalten, also zitiere ich:
"Intel Optane DC Persistent Memory (DCPM) ist eine neue Technologieklasse, die die Konzepte" Speicher und Speicher "für die Verwendung in Rechenzentren kombiniert."

Sie erinnern sich vielleicht, dass Intel zuvor die Intel Memory Drive-Technologie für Xeon Skylake eingeführt hat: Hypervisor (Xen) + Optane NVMe-Module. Wir hatten sogar Tests zu diesem Thema, aber die Ergebnisse waren nicht inspirierend und wir beschlossen, auf eine beeindruckendere Lösung zu warten. Es scheint gewartet zu haben =)

Das Herzstück der neuen Lösung von Intel sind DCPMMs, die DIMMs optisch ähnlich sind und mit ihnen elektrisch und mechanisch kompatibel sind. Sie arbeiten mit einer Geschwindigkeit von 2666 MT / s und haben eine Kapazität von 128/256/512 GB. Auf der logischen Ebene verwenden sie das DDR4-T-Protokoll (Transaction), das laut Intel von JEDEC genehmigt wurde, in der Praxis jedoch nur in Cascade Lake-Speichercontrollern unterstützt wird. Das heißt, sie installierten einen energieunabhängigen Speicher, der mithilfe der 3D-XPoint-Technologie hergestellt wurde, auf dem DDR4-DIM4-Anschluss, der den weit verbreiteten NAND-Flash in Bezug auf Intel wie Geschwindigkeit und Lebensdauer erneut um drei Größenordnungen (1000-fach) übertrifft.

Die Lösung erwies sich als sehr interessant und äußerst zweideutig: Natürlich gibt es Betriebsfunktionen (nicht ohne), Preis und Anwendungen. Wir werden uns jedoch nicht auf diese Killer-Funktion für diese Prozessorreihe konzentrieren - eine detailliertere Geschichte darüber geht weit über den Rahmen des heutigen Artikels hinaus. Sobald die Tests in allen möglichen Betriebsarten dieser Technologie fertig sind, rollen Sie sofort das longrid aus :-)

Viertens wurden die Technologien Intel Resource Director Technology (RDT), Speed ​​Select (SST) und Intel DL Boost über die Fähigkeiten gepumpt.

Ich werde mit RDT beginnen. Es handelt sich um Mechanismen einer recht feinen Überwachung und Kontrolle der Ausführung von Anwendungen und der Verwendung von Ressourcen. Das Stück ist nicht neu, aber in dieser Linie haben sie ihre Hände gut darauf gelegt und im Detail gearbeitet. Das Fazit ist, dass eine Anwendung mit einer höheren Priorität pünktlich alles bekommt, was sie braucht. Natürlich wegen "Verletzung der Rechte" anderer Anwendungen.

Jetzt SST. Hier ist es dasselbe, aber auf der Ebene der Kerne: Es ermöglicht Ihnen, eine Gruppe von Kernen fest zu unterscheiden, die eine erhöhte Priorität gegenüber anderen haben. Der Auftritt ist diesmal kein Debüt, aber ziemlich spektakulär.

Und zum Nachtisch Intel DL Boost. Die Innovation betrifft einen neuen Befehlssatz, der zuvor als Vector Neural Network Instructions (VNNI) bekannt war. Gizmo für KI oder besser gesagt für ein flexibleres Training von Deep-Learning-Netzwerken. In der Tat ein weiteres Add-On über den AVX-512.

Und schließlich der fünfte. Nach alter Tradition gibt es mehr Frequenzen, mehr Kerne für Intel-Aktualisierungen :-) Sowohl die Grundfrequenzen als auch die Frequenzen im Boost sind um 200-300 MHz gewachsen. Mit einigen Ausnahmen wurden zwei Kerne pro Prozessor hinzugefügt. Die Menge des unterstützten Arbeitsspeichers hat zugenommen.

Unabhängig davon ist es erwähnenswert, dass Intel daran gearbeitet hat, die Verwendung von Caches und RAM zu optimieren, um wahrscheinlich die negativen Auswirkungen von Patches aufgrund von Schwachstellen der Spectre- und Meltdown-Familie zu minimieren.

Weitere Details zur Architektur des Cascade Lake finden Sie auf Wikichip . Ich empfehle es zu lesen. Und jetzt - traditionelles Testen.

Testen


Die Tests umfassten acht skalierbare Intel Xeon-Prozessoren:

  • erste Generation - Silber 4110, Silber 4114, Gold 6130, Gold 6140
  • zweite Generation - Silber 4210, Silber 4214, Gold 6230 und Gold 6240.



Die Leistungsmerkmale der Plattformen

Alle Prozessoren haben die gleiche Grundkonfiguration.

  • Plattform: Intel Corporation S2600WFT (BIOS SE5C620.86B.02.01.0008.031920191559)
  • Rom:
    • 16 GB Samsung DDR4-2933 - 12 Einheiten (eine für jeden Kanal) für Gold 6230- und 6240-Prozessoren
    • 16 GB Samsung DDR4-2666 - 12 Einheiten (eine für jeden Kanal) für Gold 6130- und 6140-Prozessoren
    • 16 GB Samsung DDR4-2400 - 12 Einheiten (eine für jeden Kanal) für Silver-Prozessoren beider Generationen
  • SSD: Intel DC S4500 480 GB - 2 Teile in RAID1
  • Konfiguration mit zwei Prozessoren

Softwareteil: CentOS Linux 7 x86_64 (7.6.1810)
Kernel: 3.10.0-957.12.2.el7.x86_64
Optimierungen bezüglich der Standardinstallation eingeführt: Kernel-Startoptionen Elevator = Noop Selinux = 0 hinzugefügt
Das Testen wird mit allen Patches von Spectre-, Meltdown- und Foreshadow-Angriffen durchgeführt, die auf diesen Kernel zurückportiert wurden.

Die Liste der Tests, die wir durchführen werden:

  1. Geekbench
  2. Sysbench
  3. Phoronix Test Suite

Detaillierte Testbeschreibung
Geekbench-Test

Ein Paket von Tests, die im Single-Threaded- und Multi-Threaded-Modus durchgeführt wurden. Das Ergebnis ist ein Leistungsindex für beide Modi. In diesem Test werden zwei Hauptindikatoren betrachtet:

  • Single-Core-Score - Single-Threaded-Tests.
  • Multi-Core Score - Multithread-Tests.

Maßeinheiten: abstrakte "Papageien". Je mehr Papageien, desto besser.

Sysbench-Test

Sysbench - ein Paket von Tests (oder Benchmarks) zur Bewertung der Leistung verschiedener Computersubsysteme: Prozessor, RAM, Datenspeicherung. Der Test ist für alle Kerne multithreaded. In diesem Test habe ich einen Indikator gemessen: CPU-Geschwindigkeitsereignisse pro Sekunde - die Anzahl der vom Prozessor pro Sekunde ausgeführten Operationen. Je höher der Wert, desto produktiver das System.

Phoronix Test Suite

Die Phoronix Test Suite ist eine sehr umfangreiche Testsuite. Fast alle hier vorgestellten Tests sind Multithread-Tests. Nur zwei davon sind eine Ausnahme: Single-Threaded-Tests Himeno und LAME MP3 Encoding.

In diesen Tests ist es umso besser, je höher die Punktzahl ist.

  1. Multithread-Test für John the Ripper-Passwörter. Nehmen Sie den Blowfish-Krypto-Algorithmus. Misst die Anzahl der Operationen pro Sekunde.
  2. Der Himeno-Test ist ein linearer Poisson-Drucklöser nach der Jacobi-Punkt-Methode.
  3. 7-Zip-Komprimierung - 7-Zip-Test mit p7zip mit integrierter Leistungstestfunktion.
  4. OpenSSL ist eine Reihe von Tools, die die Protokolle SSL (Secure Sockets Layer) und TLS (Transport Layer Security) implementieren. Misst die Leistung von RSA 4096-Bit OpenSSL.
  5. Apache Benchmark - Der Test misst, wie viele Anforderungen pro Sekunde ein bestimmtes System bei der Ausführung von 1.000.000 Anforderungen aushalten kann, während 100 Anforderungen gleichzeitig ausgeführt werden.

Und in diesen Fällen ist es besser, wenn weniger - in allen Tests wird die Zeit gemessen, die zum Messen benötigt wird.

  1. C-Ray testet die CPU-Leistung anhand von Gleitkommaberechnungen. Dieser Test ist multithreaded (16 Threads pro Kern), schießt 8 Strahlen von jedem Pixel zur Glättung und erzeugt ein 1600x1200-Bild. Die Testlaufzeit wird gemessen.
  2. Parallele BZIP2-Komprimierung - Der Test misst die Zeit, die zum Komprimieren einer Datei (.tar-Paket des Linux-Kernel-Quellcodes) mithilfe der BZIP2-Komprimierung benötigt wird.
  3. Codedaten codieren. Der LAME MP3-Codierungstest wird in einem einzelnen Stream durchgeführt. Die zur Durchführung des Tests benötigte Zeit wird gemessen.
  4. Zeitgesteuerte GCC-Kompilierung. Zeigt an, wie lange es dauert, den GNU GCC-Compiler (Version 8.2.0) zu erstellen. Einheiten sind Sekunden.

Bei diesem Test habe ich den ffmpeg-Test entfernt, weil er die Gesamtzahl der Kerne, die moderne Goldmedaillen in einer Konfiguration mit zwei Prozessoren haben, nicht mehr angemessen weitergibt.

Testergebnisse






Im Geekbench-Test in Single-Threaded- und Multi-Threaded-Versionen umgeht der neue Scalable die alten in jeder Hinsicht. In einem Single-Threaded-Test von 3% bis 6%, in einem Multi-Threaded-Test von 6% bis 13% und der Apotheose - Silver 4210 ist bis zu 33% besser als Silver 4110.



Im Sysbench-Test beträgt der Unterschied 22% bis 37%. Die Mindestlücke zwischen Gold 6140 und Gold 6240 beträgt 7% zugunsten des neuen.



Im Test überholt John The Ripper Silver 4210 Silver 4110 um 41%, und zwischen Silver 4214 und Silver 4114 beträgt der Unterschied fast 30% - natürlich zugunsten des ersten. Jetzt Gold. Gold 6230 ist 16% schneller als Gold 6130. Die Mindestlücke zwischen Gold 6140 und Gold 6240 beträgt 7,6%.



Silver 4210 überholt Silver 4110 um 29% und Silver 4214 um 23%. Der Abstand zwischen den Goldpaaren beträgt 20% bzw. 8%.



Im Single-Threaded-Himeno-Test sehen Sie einen Nettoanstieg von 200-300 MHz - von 2,2% auf 6% zugunsten der neuen Generation.



Der Compress-7zip-Test kopiert das Ergebnis des John The Ripper: Blowfish-Tests fast vollständig. Eine schöne Lücke zwischen Silver 4110 und Silver 4210: 4210 ist fast 35% schneller als beim Vorgänger. Silber 4214 und Gold 6230 sind 18% bzw. 20% besser als 4114 bzw. 6130. Die Mindestlücke zwischen Gold 6140 und Gold 6240: Die neue Lücke ist 4,7% besser als zuvor.



Im Compress-pbzip2-Test ähnelt das Bild dem Compress-7zip-Test. Von den signifikanten Unterschieden hat sich der Abstand zwischen Gold 6130 und Gold 6230 verringert, hier sind es 5,6%.



Im Single-Threaded-Encode-MP3-Test sehen wir erneut den Unterschied von 200-300 MHz. Von 4% bis 7% - der Scalable der zweiten Generation ist in diesem Test so viel besser als der erste.



Im OpenSL-Test beträgt die größte Lücke zwischen Silver 4110 und Silver 4210 41%. Zwischen 4114 und 4214 - 29%. Gold hat weniger. Zwischen Gold 6130 und 6230 - 23%. Und im Paar Gold 6140 und 6240 - 4,6%. Ich stelle fest, dass Gold 6240 nur 0,78% besser ist als Gold 6230.



Im Apache-Test ist Silber 4210 um 40% besser als Silber 4110, Silber 4214 überholt Silber 4114 um 36%, Gold 6230 ist um 21% besser als Gold 6130 und Gold 6240 besteht diesen Test besser als Gold 6140 um 29%. Ich werde mich besonders auf Silber 4210, Silber 4214 und Gold 6230 konzentrieren: Gold 6230 ist 3% besser als Silber 4210 und 1,5% besser als Silber 4214. Das heißt, die Lücke ist minimal. Gold 6240 ist 13% besser als Gold 6230.



Im GCC-Test überholt die neue Generation ihre Vorgänger um etwa 19%, 16%, 11% bzw. 9,5%.



Was ist das Ergebnis?

Wir beobachten eine signifikante Lücke zwischen Silver 4110 und Silver 4210 - die neue Generation ist in Multithread-Tests von etwa 20% bis 40% besser als die vorherige. Vielen Dank, Frequenzen und Kerne.
Es gibt bereits weniger Unterschiede zwischen Silver 4114 und Silver 4214: Testmaximum - im Apache-Test erreicht es 36%.

Ferner wird der Spalt enger. Gold 6230 überholt Gold 6130 im Bereich von 11% im GCC-Test bis 23% im OpenSSL-Test.

Und schließlich die minimale Lücke zwischen dem Gold 6140- und dem Gold 6240-Paar: Das neue ist laut den Ergebnissen der meisten Tests 3% -10% vor dem vorherigen. Eine Ausnahme bildet der Apache-Test: Der Unterschied beträgt 28% - weniger Kerne, mehr Grundfrequenz (Apache ist im Allgemeinen ein sehr interessanter Test).

Und jetzt gehen wir zu weiteren Tests über. Aber zuerst ein kurzer Hintergrund.

RAM-Test


Die neuen skalierbaren Intel Xeon-Prozessoren Gold 62xx unterstützen jetzt einen neuen Typ von DDR4-2933-RAM. Wir haben uns logischerweise gefragt: Wie stark wirkt sich die RAM-Frequenz auf die Gesamtsystemleistung aus? Ausgehend von der Annahme, dass Plus zu Plus immer etwas Positives ergibt, wurde allgemein angenommen, dass sich ein neuer Prozessor in Kombination mit neuem Speicher als großartig erweisen wird. Aber es ist eine Sache anzunehmen und eine andere experimentell zu verifizieren.

Für den Test haben wir den Gold 6240-Prozessor in einer Konfiguration mit zwei Prozessoren verwendet. Die Leistungsmerkmale der Plattform und der Softwarekomponente haben sich nicht geändert. Wir werden diesen Speicher testen: DDR4-2400, DDR4-2666 und DDR4-2933.

Immer froh, wenn es alles gibt, was Sie brauchen, um Hypothesen zu testen =) Und jetzt schauen wir mal, was daraus geworden ist.

RAM-Testergebnisse


Wenn es zu gut ist, ist es schon schlecht. Aus diesem Grund habe ich beschlossen, die Idee, alle Diagramme zu zeichnen, aufzugeben und die Ergebnisse in Tabellen zu bringen - bequemer und schneller, wenn auch weniger klar. Charts werden meiner Meinung nach auch, aber nur die interessantesten sein.









"Entweder machen wir etwas falsch oder eines von zwei Dingen."

Das Zitat der Pilot-Brüder erwies sich nach Abschluss des Speichertests als sehr nützlich, wenn auch leicht umschrieben ...

Wie bei allen Tests haben wir zehn Messungen durchgeführt und Durchschnittswerte für diese ausgewählt. Wie Sie sehen können, variieren die Zeugnisse ebenso stark wie die Zeugnisse der Bürgerin Krolikova aus dem Film Shirley-Myrli.

In Tests zeigen Phoronix 50 bis 50 hohe Ergebnisse Konfigurationen mit RAM 2400 und 2933 MHz. Geekbench hat 2933-Speicher mit den Parametern Memory Score_Single und Memory Score_Multi verglichen, aber das Gesamtergebnis ist überraschend.

Aus Annahmen - die Auswirkung einer höheren Frequenz auf die Latenz. Und hier kommt das Gleichgewicht zwischen Geschwindigkeit und Reaktionszeit. Aber um ehrlich zu sein, bin ich mir nicht sicher ... Wenn Sie etwas dazu zu sagen haben, frage ich in den Kommentaren.

Das letzte Mal war ich davon überzeugt, dass die Nichtnutzung aller Kanäle des Prozessorspeichers einen größeren Einfluss auf die Testergebnisse hat. Beim nächsten Prozessortest werden wir diesen Effekt definitiv berücksichtigen und ich werde Ihnen sagen, was und wie.

Ein kleiner Schritt für den Menschen, aber ein großer Schritt für die Menschheit


Wie Genosse Kamnoedov (ich liebe den Strugatsky) sagen würde, "in einer solchen Akzeptanz" positioniert Intel eine neue Reihe von Xeon Scalable-Prozessoren. Am Anfang des Artikels sagte ich, dass die Veröffentlichung des neuen Scalable für Intel selbst ein wichtiger strategischer Schritt ist. Jetzt werde ich erklären.

Einerseits leitete der neue Scalable ein globales Upgrade der Rechenzentrumsplattform ein. Und schon in der zweiten Jahreshälfte warten einige interessante Ankündigungen auf uns. Andererseits sind alle Innovationen nicht zufällig - dies ist eine Antwort auf die aktuellen Anforderungen der Branche. Und eine recht anständige Antwort. Nicht genug Speicher? Hier ist der beständige Optane DC-Speicher. Gesuchte Hardware-Priorisierung von Prozessen und Kernen? Bitte haben Sie SST und RDT gepumpt. Haben Sie von einer professionellen Ausbildung von Netzwerken geträumt? :-) Hier unterschreiben Sie eine neue Anleitung für AI. Für Intel kann man sich nur freuen.

Obwohl mir persönlich scheint, dass diese Version eine Wunschliste enthält, die Intel beim letzten Mal nicht implementiert hat. Und natürlich musste etwas mit Hardware-Löchern gemacht werden, deren Suche nach verschiedenen Spezialisten bereits zu einer Art Unterhaltung geworden ist. Alles, was Intel dem Benutzer mit Spectrum-Meltowna-Löchern weggenommen hat, kehrte er jetzt zurück und sparte den Preis.

Darüber hinaus kommt AMD aus allen Richtungen, deren Entscheidungen von den Spectrum-Meltdowns viel weniger beeinflusst wurden und die Intel in letzter Zeit wie auf dem Desktop besonders „rockten“ (ich hätte gerne eine solche Jugendlichkeit in einem so respektablen Alter). und leicht im Serversegment. Übrigens ist es in Bezug auf Letzteres sehr interessant zu sehen, wie sich der neue AMD Epyc Rome zeigen wird, da mich die aktuelle Generation von Epyc persönlich nicht gleichgültig gelassen hat.

Aber zurück zu Scalable.

Was ist das Endergebnis für einen Benutzer, der nicht durch KI und geschulte Netzwerke belastet ist? Eindeutig offensichtliche Produktivitätssteigerung aufgrund einer größeren Anzahl von Kernen, höheren Grundfrequenzen und Frequenzen im Turbo-Boost. Und wenn für Goldverarbeiter verschiedener Generationen dieser Anstieg maximal 23% erreicht - beide sind gut -, dann erreicht er für Silber in einigen Tests 40%. Angesichts des fast unveränderten Wertes ist der Unterschied recht angenehm, obwohl ich wie immer mehr will =)

Wenn Sie sich auf die Aussage von Intel verlassen, dass dies nur der Anfang ist, ist selbst ein Skeptiker wie ich neugierig, was uns in Zukunft interessieren wird.

Beim Testen haben wir Server verwendet, die auf skalierbaren Intel Xeon-Prozessoren basieren: Silver 4110, Silver 4114, Silver 4210 , Silver 4214 , Gold 6130, Gold 6140, Gold 6230 , Gold 6240 .

Bis zum 25. Juli können Server mit dem neuen Xeon Scalable auf der 1dedic.ru- Website mit einem Rabatt von 25% für 1 Monat unter Verwendung des NEW_SCALABLE-Aktionscodes bestellt werden . Der Aktionscode wird am 26. Juli 2019 um Mitternacht gebrannt.

Für jeden dedizierten Server 10% Rabatt bei Zahlung für das Jahr.

Von Trashwind , Senior Systemadministrator der FirstDEDIC-Betriebsabteilung, für Sie getestet und geschrieben

Source: https://habr.com/ru/post/de457496/


All Articles