❎ 👷🏼 👩🏻‍🎓 Biostar Racing P1: de fácil a complejo 🤙🏾 👨‍👦‍👦 👓

En una computadora en miniatura como Biostar Racing P1 cada megahercio cuenta. Esto está dictado por la compacidad y el bajo consumo de energía. El procesador Intel Atom x5-Z8350 está en su lugar aquí. Y no tiene que esperar registros especiales de rendimiento de él. Especialmente, dado el rendimiento de escritura fallido del caché de nivel L1.

Sin embargo, este consumidor "ya no se queda, pero tampoco es una computadora portátil" todavía encontrará a su consumidor. La garantía es de cuatro núcleos de una CPU aparentemente simple. ¿Deberían tener alguna esperanza?

En un artículo anterior, analizamos los resultados de las pruebas de caché realizadas en un solo subproceso, lo que da una idea del rendimiento "aislado" de un solo núcleo. ¿Cuál será la evaluación integrada de un procesador multinúcleo? Por lo tanto, configure la casilla de verificación Usar operaciones paralelas en la utilidad NCRB y realice una serie similar de mediciones.

Higo 1 . Selección de un escenario para pruebas multiproceso de la plataforma utilizando la utilidad NCRB

Prueba de caché L1 multiproceso

En el procesador Intel Atom x5-Z8350, el caché de primer nivel es un recurso privado de cada uno de los cuatro núcleos. Esto significa que al procesar un bloque de datos cuyo tamaño es menor que el tamaño L1 (en nuestro ejemplo, es de 24 kilobytes), cada núcleo usa su propia memoria caché, prácticamente no hay competencia al acceder, lo que significa que podemos esperar un aumento múltiple en el rendimiento de acuerdo con el número núcleos La frase común "no pelearás" caracteriza con bastante precisión este escenario de medición.

Higo 2 . Un gráfico de la velocidad de lectura de un bloque de datos versus su tamaño para 4 núcleos de procesador que funcionan simultáneamente; barrio X = talla L1
Los contraargumentos pueden incluir factores como la reducción del límite superior del overclocking dinámico cuando se implementa un escenario determinado de consumo de energía y modo térmico, así como la limitación del tiempo del procesador asignado por el sistema operativo a la aplicación en un entorno multitarea.

Recuerde que el rendimiento máximo en una prueba de subproceso único (consulte " Biostar Racing P1: Escape en frío ") fue un poco más de 30 GBPS. Usando 4 núcleos, obtenemos un resultado de aproximadamente 107 GBPS, que es bastante cercano al valor teórico de 120 GBPS.

Higo 3 . Un gráfico de la dependencia de la velocidad de escritura de un bloque de datos en su tamaño para trabajar simultáneamente 4 núcleos de procesador; barrio X = talla L1
Al examinar L1, es importante la parte izquierda del gráfico correspondiente a un bloque de hasta 24 KB. Aquí vemos dos fracciones de rendimiento: la sección rápida en transacciones pequeñas (más de 105 GBPS) y la sección lenta para datos que es más grande que 6.4KB, pero que todavía "encajan" en el ojo de la aguja del caché L1. Todo está claro con el primero: como en el caso de la prueba de lectura, está cerca del valor cuádruple para un núcleo de 120 GBPS. ¿Por qué escribir datos en L1 nuevamente es un error? Uno solo puede adivinar sobre esto.

Probablemente, los ingenieros de Intel, al diseñar una versión económica del procesador, cambiaron el enfoque del almacenamiento en caché de datos de L1 a L2. El almacenamiento en caché de instrucciones de nivel 1 sigue siendo eficiente, y el Atom x5-Z8350 está bien con eso. En las condiciones de falta de recursos, el procesador gasta imprudentemente la memoria estática para servir flujos de datos, confiando más en las capacidades del segundo nivel de caché.

Aquí es donde viene a la mente el enfoque generalmente aceptado para construir un perfil de carga para procesar transacciones en tiempo real . El estándar generalmente aceptado es la relación entre lectura y escritura en la proporción del 70% al 30%. Aproximadamente esto se correlaciona con el volumen asignado para la grabación "rápida" en el espacio restante en el caché L1. ¿Es posible suponer sobre esta base que Intel está apuntando a los procesadores Atom en particular para procesar información de transmisión, por ejemplo, contenido multimedia?

Obviamente, la moderación del procesador en el almacenamiento en caché de grabación es beneficioso si no se vuelve a acceder a la información recién grabada: el almacenamiento en caché de datos "innecesarios" obstruye la memoria, forzando la extracción de datos "necesarios". A primera vista, la escritura en la memoria realizada al desempacar contenido multimedia es una operación que no es rentable almacenar en caché. Si se niega a almacenar en caché, perderá el acceso a los datos previamente grabados.

Prueba de caché L2 multiproceso

El caché del segundo nivel, con una capacidad total de 2 megabytes, se divide en dos partes iguales de 1 MB, cada una de las cuales sirve a un grupo de dos núcleos. Esto significa que en una prueba de subprocesos múltiples, cada núcleo tiene 512 kilobytes de caché L2, a diferencia de 1 megabyte en uno de un solo subproceso. Por lo tanto, en el gráfico de la dependencia de la velocidad de procesamiento del bloque en su tamaño, se debe esperar el punto de inflexión cerca de X = 512 KB, y no X = 1024 KB, como fue el caso en la prueba de un solo hilo (ver " Biostar Racing P1: escape frío "). Las características topológicas consideradas del caché L2 también afectan la escala de la velocidad de acceso al mismo.

Higo 4 . Un gráfico de la velocidad de lectura de un bloque de datos versus su tamaño para 4 núcleos de procesador que funcionan simultáneamente; barrio X = talla L2
El rendimiento L2 caracteriza una parte de la trama que satisface la doble desigualdad de 24 KB <X <512 KB, que corresponde a un bloque de datos que ya no cabe en L1 pero que todavía cabe en L2.

Higo 5 . Un gráfico de la dependencia de la velocidad de escritura de un bloque de datos en su tamaño para trabajar simultáneamente 4 núcleos de procesador; barrio X = talla L2
Recuerde que la velocidad de lectura de L2 en una prueba de subproceso único es de aproximadamente 11.5 GBPS. El resultado de escala es de aproximadamente 39 GBPS. Muy bonito! La velocidad de escritura L2 de un solo subproceso es de aproximadamente 12 GBPS. El resultado de escala es de aproximadamente 31 GBPS.

En lugar de un curriculum vitae

Podemos establecer un buen nivel de rendimiento multiproceso de la plataforma en estudio. Se esperaba que la arquitectura del procesador Intel Atom x5-Z8350, que define el caché privado L1 y el L2 parcialmente compartido, afectara los resultados de los puntos de referencia.

Higo 6 . Supervisión de la utilización de la CPU con Windows 10: el momento en que la carga del núcleo aumenta al 100 por ciento corresponde al momento en que se ejecutó la prueba
Cuando ejecuta una prueba de subprocesos múltiples, la carga de cada uno de los cuatro núcleos de procesador aumenta al 100 por ciento. ¿Qué pasa con las temperaturas y el consumo de energía?

Higo 7 . Monitoreo de temperatura y consumo de energía utilizando la utilidad AIDA64
El resultado se obtuvo utilizando la popular herramienta de diagnóstico e información AIDA64 aproximadamente 20 minutos después del inicio de la prueba NCRB multiproceso.

Precaución importante

Al intentar repetir los experimentos anteriores en su computadora, necesita hacer una copia de seguridad de los datos, asegurarse de la eficiencia del sistema de enfriamiento del procesador, la confiabilidad de la fuente de alimentación y el controlador de pulso Vcore. Una prueba de esfuerzo puede dañar un sistema overclockeado o inestable. ~~Y es mejor experimentar con equipos de propiedad estatal.~~

Biostar Racing P1: de fácil a complejo

Prueba de caché L1 multiproceso

Prueba de caché L2 multiproceso

En lugar de un curriculum vitae

Precaución importante

More articles: