Sur un ordinateur miniature comme Biostar Racing P1, chaque mégahertz compte. Ceci est dicté par la compacité et la faible consommation d'énergie. Le
processeur Intel Atom x5-Z8350 est en place ici. Et vous n'avez pas à vous attendre à des records de performance spéciaux de sa part. Surtout, compte tenu des performances d'écriture défaillantes du cache de niveau L1.
Néanmoins, ce consommateur «ne colle plus, mais pas non plus un ordinateur portable» trouvera toujours son consommateur. La garantie est de quatre cœurs d'un CPU apparemment simple. Devraient-ils avoir des espoirs?
Dans un
article précédent, nous avons analysé les résultats des tests de cache effectués dans un seul thread, ce qui donne une idée des performances "isolées" d'un seul noyau. Quelle sera l'évaluation intégrée d'un processeur multicœur? Par conséquent, cochez la case
Utiliser les opérations parallèles dans l'utilitaire NCRB et effectuez une série de mesures similaire.
Fig 1 .
Sélection d'un scénario de test multi-thread de la plate-forme à l'aide de l'utilitaire NCRBTest de cache L1 multithread
Dans le processeur Intel Atom x5-Z8350, le cache de premier niveau est une ressource privée de chacun des quatre cœurs. Cela signifie que lors du traitement d'un bloc de données dont la taille est inférieure à la taille L1 (dans notre exemple, il est de 24 kilo-octets), chaque cœur utilise sa propre mémoire cache, il n'y a pratiquement pas de concurrence lors de l'accès, ce qui signifie que nous pouvons nous attendre à une augmentation multiple des performances en fonction du nombre noyaux. L’expression courante «vous ne combattrez pas» caractérise assez précisément ce scénario de mesure.
Fig 2 .
Un graphique de la vitesse de lecture d'un bloc de données par rapport à sa taille pour 4 cœurs de processeur fonctionnant simultanément; quartier X = taille L1Les contre-arguments peuvent inclure des facteurs tels que la réduction de la limite supérieure de l'overclocking dynamique lors de la mise en œuvre d'un scénario donné de consommation d'énergie et de mode thermique, ainsi que la limitation du temps processeur alloué par le système d'exploitation à l'application dans un environnement multitâche.
Rappelons que les performances maximales dans un test à un seul filetage (voir "
Biostar Racing P1: Cold Exhaust ") étaient un peu plus de 30 GBPS. En utilisant 4 cœurs, nous obtenons un résultat d'environ 107 Go / s, ce qui est assez proche de la valeur théorique de 120 Go / s.
Fig 3 .
Un graphique de la dépendance de la vitesse d'écriture d'un bloc de données sur sa taille pour travailler simultanément 4 cœurs de processeur; quartier X = taille L1Lors de l'examen de L1, la partie gauche du graphique correspondant à un bloc de jusqu'à 24 Ko est importante. Ici, nous voyons deux fractions de performances: la section rapide sur les petites transactions (plus de 105 Go / s) et la section lente pour les données qui est supérieure à 6,4 Ko, mais qui reste «adaptée» au chas de l'aiguille du cache L1. Tout est clair avec le premier: il est, comme dans le cas du test de lecture, proche de la valeur quadruple pour un coeur de 120 GBPS. Pourquoi l'écriture de données dans L1 est-elle à nouveau un échec? On ne peut que le deviner.
Probablement, les ingénieurs d'Intel, concevant une version économique du processeur, ont déplacé le focus de la mise en cache des données de L1 à L2. La mise en cache des instructions de niveau 1 est toujours efficace et l'Atom x5-Z8350 convient parfaitement. Dans les conditions d'un manque de ressources, le processeur dépense de façon imprudente la mémoire statique pour servir les flux de données, en s'appuyant davantage sur les capacités du deuxième niveau de cache.
C'est là que l'approche généralement acceptée pour créer un profil de charge pour traiter les
transactions en temps réel vient à l'esprit. La norme généralement acceptée est le rapport lecture / écriture dans un rapport de 70% à 30%. Cela correspond approximativement au volume alloué pour l'enregistrement «rapide» de l'espace restant dans le cache L1. Est-il possible de supposer sur cette base qu'Intel cible en particulier les processeurs Atom pour traiter les informations de streaming, par exemple le contenu multimédia?
Évidemment, la retenue du processeur dans l’enregistrement de la mise en cache est bénéfique s’il n’y a pas de nouvel accès aux informations nouvellement enregistrées: la mise en cache des données «inutiles» obstrue la mémoire, forçant les données «nécessaires» à en sortir. À première vue, l'écriture dans la mémoire effectuée lors du déballage du contenu multimédia est une opération qui n'est pas rentable à mettre en cache. Si vous refusez de mettre en cache, l'accès aux données précédemment enregistrées, au contraire, sera perdu.
Test de cache L2 multithread
Le cache du deuxième niveau, d'une capacité totale de 2 mégaoctets, est divisé en deux parties égales de 1 Mo, chacune desservant un groupe de deux cœurs. Cela signifie que dans un test multi-thread, chaque cœur a 512 kilo-octets de cache L2, contre 1 mégaoctet dans un seul thread. Par conséquent, sur le graphique de la dépendance de la vitesse de traitement du bloc sur sa taille, le point d'inflexion doit être prévu au voisinage de X = 512 Ko, et non X = 1024 Ko, comme ce fut le cas dans le test à filetage unique (voir "
Biostar Racing P1: échappement à froid "). Les caractéristiques topologiques considérées du cache L2 affectent également la mise à l'échelle de la vitesse d'accès à celui-ci.
Fig 4 .
Un graphique de la vitesse de lecture d'un bloc de données par rapport à sa taille pour 4 cœurs de processeur fonctionnant simultanément; quartier X = taille L2La performance L2 caractérise une portion de tracé satisfaisant la double inégalité 24 Ko <X <512 Ko, ce qui correspond à un bloc de données qui ne rentre plus dans L1, mais rentre toujours dans L2.
Fig 5 .
Un graphique de la dépendance de la vitesse d'écriture d'un bloc de données sur sa taille pour travailler simultanément 4 cœurs de processeur; quartier X = taille L2Rappelons que la vitesse de lecture de L2 dans un test monothread est d'environ 11,5 GBPS. Le résultat de la mise à l'échelle est d'environ 39 GBPS. Très sympa! La vitesse d'écriture L2 à un seul thread est d'environ 12 Go / s. Le résultat de la mise à l'échelle est d'environ 31 Go / s.
Au lieu d'un CV
Nous pouvons affirmer un bon niveau de performance multi-thread de la plateforme étudiée. L'architecture du processeur Intel Atom x5-Z8350, qui définit le cache privé L1 et le L2 partiellement partagé, devait affecter les résultats des benchmarks.
Fig 6 .
Surveillance de l'utilisation du processeur sous Windows 10: le moment où la charge du noyau augmente à 100% correspond au moment où le test a été exécutéLorsque vous exécutez un test multithread, la charge de chacun des quatre cœurs de processeur augmente à 100%. Qu'arrive-t-il aux températures et à la consommation d'énergie?
Fig 7 .
Surveillance de la température et de la consommation d'énergie à l'aide de l'utilitaire AIDA64Le résultat a été obtenu à l'aide du célèbre utilitaire de diagnostic et d'information AIDA64 environ 20 minutes après le début du test NCRB multithread.
Attention importante
En essayant de répéter les expériences ci-dessus sur votre ordinateur, vous devez sauvegarder les données, vous assurer de l'efficacité du système de refroidissement du processeur, de la fiabilité de l'alimentation et du contrôleur d'impulsions Vcore. Un test de résistance peut endommager un système surcadencé ou instable.
Et il est préférable d'expérimenter sur des équipements appartenant à l'État.