Biostar Racing P1: Von einfach zu komplex

Bei einem Miniaturcomputer wie Biostar Racing P1 zählt jeder Megahertz. Dies wird durch Kompaktheit und geringen Stromverbrauch bestimmt. Hier ist der Intel Atom x5-Z8350-Prozessor installiert . Und von ihm müssen Sie keine besonderen Leistungsnachweise erwarten. Insbesondere angesichts der fehlerhaften Schreibleistung des Cache auf L1-Ebene.

Trotzdem wird dieser Verbraucher, der nicht mehr klebt, sondern auch kein Laptop ist, immer noch seinen Verbraucher finden. Die Garantie besteht aus vier Kernen einer scheinbar einfachen CPU. Sollten sie irgendwelche Hoffnungen haben?

In einem früheren Artikel haben wir die Ergebnisse von Cache-Tests analysiert, die in einem einzelnen Thread durchgeführt wurden. Dies gibt einen Überblick über die "isolierte" Leistung eines einzelnen Kernels. Was wird die integrierte Bewertung eines Multi-Core-Prozessors sein? Aktivieren Sie daher im NCRB-Dienstprogramm das Kontrollkästchen Parallele Operationen verwenden und führen Sie eine ähnliche Reihe von Messungen durch.

Abb. 1 . Szenarioauswahl für Multithread-Plattformtests mit dem NCRB-Dienstprogramm

Multithread-L1-Cache-Test


Im Intel Atom x5-Z8350-Prozessor ist der Cache der ersten Ebene eine private Ressource für jeden der vier Kerne. Dies bedeutet, dass bei der Verarbeitung eines Datenblocks, dessen Größe kleiner als die Größe L1 ist (in unserem Beispiel 24 Kilobyte), jeder Kern seinen eigenen Cache-Speicher verwendet. Beim Zugriff gibt es praktisch keine Konkurrenz, was bedeutet, dass wir eine mehrfache Leistungssteigerung entsprechend der Anzahl erwarten können Kerne. Der übliche Ausdruck "Du wirst nicht kämpfen" kennzeichnet dieses Messszenario ziemlich genau.

Abb. 2 . Ein Diagramm der Lesegeschwindigkeit eines Datenblocks gegenüber seiner Größe für 4 gleichzeitig arbeitende Prozessorkerne; Nachbarschaft X = Größe L1
Gegenargumente können Faktoren wie das Verringern der Obergrenze des dynamischen Übertaktens bei der Implementierung eines bestimmten Szenarios des Stromverbrauchs und des thermischen Modus sowie das Begrenzen der Prozessorzeit, die das Betriebssystem der Anwendung in einer Multitasking-Umgebung zuweist, umfassen.

Denken Sie daran, dass die Spitzenleistung in einem Single-Threaded-Test (siehe " Biostar Racing P1: Cold Exhaust ") etwas über 30 GBPS betrug. Bei Verwendung von 4 Kernen erhalten wir ein Ergebnis von ungefähr 107 GBPS, was ziemlich nahe am theoretischen Wert von 120 GBPS liegt.

Abb. 3 . Ein Diagramm der Abhängigkeit der Schreibgeschwindigkeit eines Datenblocks von seiner Größe für das gleichzeitige Arbeiten von 4 Prozessorkernen; Nachbarschaft X = Größe L1
Bei der Untersuchung von L1 ist der linke Teil des Diagramms wichtig, der einem Block von bis zu 24 KB entspricht. Hier sehen wir zwei Leistungsfraktionen: den schnellen Abschnitt für kleine Transaktionen (mehr als 105 GBPS) und den langsamen Abschnitt für Daten, die größer als 6,4 KB sind, aber dennoch in das Nadelöhr des L1-Cache „passen“. Beim ersten ist alles klar: Wie beim Lesetest liegt er nahe am Vierfachwert für einen Kern von 120 GBPS. Warum ist das erneute Schreiben von Daten in L1 ein Fehler? Das kann man nur erraten.

Wahrscheinlich haben Intel-Ingenieure, die eine wirtschaftliche Version des Prozessors entworfen haben, den Fokus des Daten-Caching von L1 auf L2 verlagert. Das Caching von Anweisungen der Stufe 1 ist immer noch effizient, und das Atom x5-Z8350 ist damit einverstanden. Unter den Bedingungen eines Mangels an Ressourcen verwendet der Prozessor geizig rücksichtslos statischen Speicher, um Datenströme zu bedienen, und verlässt sich mehr auf die Fähigkeiten der zweiten Cache-Ebene.

Hier kommt der allgemein akzeptierte Ansatz zum Erstellen eines Lastprofils zur Verarbeitung von Transaktionen in Echtzeit in den Sinn. Der allgemein akzeptierte Standard ist das Verhältnis von Lesen zu Schreiben im Verhältnis von 70% zu 30%. Dies korreliert ungefähr mit dem Volume, das für die „schnelle“ Aufzeichnung dem verbleibenden Speicherplatz im L1-Cache zugewiesen ist. Kann man auf dieser Basis davon ausgehen, dass Intel Atom-Prozessoren speziell auf die Verarbeitung von Streaming-Informationen abzielt, beispielsweise auf Medieninhalte?

Offensichtlich ist die Zurückhaltung des Prozessors beim Aufzeichnen von Caching von Vorteil, wenn kein erneuter Zugriff auf die neu aufgezeichneten Informationen erfolgt: Das Zwischenspeichern von "unnötigen" Daten verstopft den Speicher und zwingt "notwendige" Daten aus ihm heraus. Auf den ersten Blick ist das Schreiben in den Speicher, das beim Entpacken von Medieninhalten ausgeführt wird, ein Vorgang, dessen Cache nicht rentabel ist. Wenn Sie sich weigern, zwischenzuspeichern, geht im Gegenteil der Zugriff auf zuvor aufgezeichnete Daten verloren.

Multithread-L2-Cache-Test


Der Cache der zweiten Ebene mit einer Gesamtkapazität von 2 Megabyte ist in zwei gleiche Teile von 1 MB unterteilt, von denen jeder eine Gruppe von zwei Kernen bedient. Dies bedeutet, dass in einem Multithread-Test jeder Kern 512 Kilobyte L2-Cache hat, im Gegensatz zu 1 Megabyte in einem Single-Thread-Test. Daher sollte im Diagramm der Abhängigkeit der Verarbeitungsgeschwindigkeit des Blocks von seiner Größe der Wendepunkt in der Nähe von X = 512 KB und nicht X = 1024 KB erwartet werden, wie dies beim Einzelthread-Test der Fall war (siehe " Biostar Racing P1: Kaltabgas "). Die berücksichtigten topologischen Merkmale des L2-Cache wirken sich auch auf die Skalierung der Zugriffsgeschwindigkeit auf ihn aus.

Abb. 4 . Ein Diagramm der Lesegeschwindigkeit eines Datenblocks gegenüber seiner Größe für 4 gleichzeitig arbeitende Prozessorkerne; Nachbarschaft X = Größe L2
Die Leistung L2 charakterisiert einen Plotabschnitt, der die doppelte Ungleichung 24 KB <X <512 KB erfüllt, was einem Datenblock entspricht, der nicht mehr in L1 passt, aber dennoch in L2 passt.

Abb. 5 . Ein Diagramm der Abhängigkeit der Schreibgeschwindigkeit eines Datenblocks von seiner Größe für das gleichzeitige Arbeiten von 4 Prozessorkernen; Nachbarschaft X = Größe L2
Denken Sie daran, dass die Lesegeschwindigkeit von L2 in einem Single-Threaded-Test etwa 11,5 GBPS beträgt. Das Skalierungsergebnis beträgt ca. 39 GBPS. Sehr schön! Die Single-Threaded-L2-Schreibgeschwindigkeit beträgt ca. 12 GBPS. Das Skalierungsergebnis beträgt ca. 31 GBPS.

Anstelle eines Lebenslaufs


Wir können ein gutes Maß an Multithread-Leistung der untersuchten Plattform angeben. Es wurde erwartet, dass die Architektur des Intel Atom x5-Z8350-Prozessors, der den privaten L1-Cache und den teilweise gemeinsam genutzten L2 definiert, die Ergebnisse der Benchmarks beeinflusst.

Abb. 6 . Überwachen der CPU-Auslastung unter Windows 10: Der Moment, in dem die Kernellast auf 100 Prozent ansteigt, entspricht dem Zeitpunkt, zu dem der Test ausgeführt wurde
Wenn Sie einen Multithread-Test ausführen, erhöht sich die Auslastung jedes der vier Prozessorkerne auf 100 Prozent. Was passiert mit Temperaturen und Stromverbrauch?

Abb. 7 . Überwachung der Temperatur und des Stromverbrauchs mit dem Dienstprogramm AIDA64
Das Ergebnis wurde mit dem beliebten Diagnose- und Informationsdienstprogramm AIDA64 ungefähr 20 Minuten nach Beginn des Multithread-NCRB-Tests erhalten.

Wichtige Vorsicht


Wenn Sie versuchen, die obigen Experimente auf Ihrem Computer zu wiederholen, müssen Sie die Daten sichern, die Effizienz des Prozessorkühlsystems, die Zuverlässigkeit der Stromversorgung und den Impulsregler Vcore sicherstellen. Ein Stresstest kann ein übertaktetes oder instabiles System beschädigen. Und am besten experimentieren Sie mit staatseigenen Geräten.

Source: https://habr.com/ru/post/de415451/


All Articles