Monstruos después de las vacaciones: AMD Threadripper 2990WX 32-Core y 2950X 16-Core

Parte 1Parte 2Parte 3Parte 4

Nueva pila de productos AMD



La mitad del reino para un alto rendimiento. Cuando se trata del procesamiento de datos, el ancho de banda se convierte en un factor clave: después de todo, cuanto más tiempo tenga el usuario para hacer, más proyectos se completarán y, en consecuencia, aumentará el número de contratos. Los usuarios de estaciones de trabajo a menudo descubren cuellos de botella en el sistema y les gusta lanzar recursos para resolver un problema, ya sea núcleos, memoria o aceleración de gráficos. El Threadripper de segunda generación, conocido como Threadripper 2, va más allá de los viejos límites de la proporción de núcleos y precio: 2990WX proporciona 32 núcleos y 64 hilos por solo $ 1799. Hay otro 2950X con 16 núcleos y 32 hilos, establece un nuevo precio mínimo de $ 899 Verificamos los dos.

Revisión AMD Threadripper 2990WX 32-Core y 2950X 16-Core


Desde que AMD lanzó su primera Ryzen de primera generación con ocho núcleos contra cuatro núcleos de Intel, ha habido una larga discusión sobre cuántos núcleos tiene sentido. La respuesta a esta pregunta depende completamente de la carga de trabajo: cuántas herramientas diferentes espera usar el usuario al mismo tiempo. Dado que el mercado de estaciones de trabajo cubre una amplia gama de usuarios "heterogéneos" (y, a pesar de la necesidad de velocidad), proporcionar una opción única y conveniente para todos es simplemente poco realista.

La primera generación de Threadripper de AMD, lanzada en 2017, ha llevado a los procesadores de 16 núcleos a las masas. Anteriormente disponible solo en plataformas de servidor, los nuevos componentes fueron calificados como muy competitivos frente a las ofertas de 10 núcleos. AMD utilizó su plataforma de servidor con pequeños ajustes para atacar a los competidores y a su líder Halo.

Los propios productos de estación de trabajo de Intel, anteriormente conocidos como E5-2687W y basados ​​en servidores de doble socket, eran, simplemente, servidores. Después de lanzar su última plataforma de escritorio de alto rendimiento con hasta 18 núcleos, Intel lanzó la serie Xeon W, reemplazando los componentes E5-W de la generación anterior. Hasta 18 núcleos por ~ $ 2,500, aunque su uso requirió conjuntos de chips y placas base especiales.



Hoy, AMD lanza oficialmente el Threadripper de segunda generación. Los nuevos procesadores ingresan al mercado de manera extremadamente agresiva: al ofrecer una microarquitectura Zen + mejorada, obtenemos un aumento del 3% en el rendimiento de IPC; Se utiliza la tecnología de proceso de 12 nm, que a su vez aumenta la frecuencia y reduce el consumo de energía. ¡AMD ataca el mercado con la cantidad de núcleos! Los procesadores de 12 y 16 núcleos no solo son reemplazados por nuevos modelos Zen + a frecuencias más altas, sino que la compañía ofrece 24 y 32 núcleos en un procesador que cuesta hasta $ 1,799. 32 núcleos por $ 1,799 versus 18 núcleos por casi $ 2,500: un buen golpe para los competidores, ¿verdad?

Cómo AMD admite 32 núcleos


Para ser llamado procesador de 32 núcleos, la línea de procesadores de servidor de primera generación de AMD, llamada EPYC, usa cuatro conjuntos de silicio de ocho núcleos cada uno. Estos componentes tienen ocho canales de memoria y 128 carriles PCIe 3.0 para diversos fines. Al lanzar el Threadripper de primera generación, AMD deshabilitó dos de estos arreglos de silicio, dando solo 16 núcleos, cuatro canales de memoria y 60 carriles PCIe. El producto final estaba dirigido a consumidores minoristas.

Para proporcionar a los usuarios 32 núcleos, AMD usa el mismo silicio EPYC de 32 núcleos, pero lo actualiza a Zen + a 12 nm para una mayor frecuencia y menor potencia. Está ligeramente recortado para compatibilidad con la primera generación: cuatro canales de memoria y 60 carriles PCIe. Aunque AMD está posicionando el producto como un procesador actualizado de primera generación con una gran cantidad de núcleos, en lugar de una versión de servidor simplificada. Este enfoque se explica fácilmente por la segmentación del producto. Esta es una táctica que ambas compañías ya han utilizado para lanzar una línea de productos ampliada.



Como resultado, una de las formas de percibir los nuevos chips de segunda generación de 32 y 24 núcleos es de doble módulo: la mitad del chip tiene acceso a recursos completos, similar al producto de la primera generación, mientras que la otra mitad del chip duplica los mismos recursos informáticos, pero tiene un retraso de memoria adicional y PCIe en comparación con la primera mitad. Para cualquier usuario que esté desconcertado por la potencia de procesamiento en lugar de la memoria o PCIe, AMD es la mejor solución.

En nuestra revisión, veremos que esta construcción bimodal tiene un impacto significativo en el rendimiento, tanto bueno como malo, nuevamente, depende del tipo de carga de trabajo.

Nueva pila AMD


AMD ingresa oficialmente al mercado con cuatro procesadores de deshilachado de segunda generación. Dos de ellos reemplazarán directamente los productos de la primera generación: el 2950X de 16 núcleos para reemplazar el 1950X de 16 núcleos, y el 2920X de 12 núcleos al 1920X de 12 núcleos. Dos nuevos procesadores no serán de doble módulo, solo dos de los cuatro cristales de silicio del paquete están activos (la configuración de 16 núcleos parece 8 + 0 + 8 + 0, la de 12 núcleos parece 6 + 0 + 6 + 0). En la parte inferior de la pila estará la primera generación del 1900X de 8 núcleos (4 + 0 + 4 + 0), que ofrece memoria de cuatro canales y 60 carriles PCIe.



Dos nuevos procesadores están representados por 2990WX de 32 núcleos y 2970WX de 24 núcleos. Incluirán cuatro núcleos por complejo (8 + 8 + 8 + 8) y tres núcleos por complejo (6 + 6 + 6 + 6), respectivamente, tienen la naturaleza de memoria y PCIe de dos módulos ya descrita. La marca está cambiando, ahora es WX, presumiblemente para Workstation eXtreme. Esto pone al producto en la misma línea de marketing con la familia Radeon Pro WX.



AMD Ryzen Threadripper 2990WX es un nuevo superproducto con 32 núcleos y 64 hilos, con una frecuencia base de 3.0 GHz y una frecuencia de turbocompresor superior de 4.2 GHz. El tiempo de inactividad del procesador es de 2.0 GHz. En las pruebas, vimos 2.0 GHz en cada núcleo sin carga.

Otro producto de la serie WX es el 2970WX: desactiva un núcleo por complejo y ofrece un total de 24 núcleos. Con las mismas frecuencias que el 2990WX, y con el mismo TDP, carriles PCIe y soporte de memoria, este procesador se lanzará en octubre a un precio de $ 1299. Con menos núcleos cargados, podemos esperar que este procesador funcione en turbo con más frecuencia. que un hermano mayor de 32 núcleos.



En cuanto a la serie X, el TR 2950X es un reemplazo de 16 núcleos. El procesador aprovecha al máximo las frecuencias rápidas que puede proporcionar el nuevo proceso de 12 nm: la frecuencia base de 3.5 GHz y el turbo 4.4 GHz ponen de rodillas al producto de la generación anterior. De hecho, el 2950X parece un AMD Ryzen bien overclockeado. Una ventaja considerable a un precio reducido: en lugar de $ 999, los usuarios ahora pueden obtener un procesador de 16 núcleos por $ 899. El 2950X se lanzará a fines de mes, el 31 de agosto.

Y finalmente, mencionamos el 2920X, que reemplazó al 1920X, y ofrece las mismas mejoras que otros procesadores en la línea. Como en el caso del 2950X, las frecuencias están bien aumentadas en comparación con el año pasado, la frecuencia base es de 3.5 GHz y el turbo es de 4.3 GHz. Toda esta belleza en un paquete con un diseño térmico de 180 vatios. El 2920X se lanzará en octubre por un precio minorista de $ 649.

Nucleolo a nucleolo, o compromisos de diseño


El enfoque de AMD para estos grandes procesadores es tomar una pequeña unidad de repetición, como un complejo de 4 núcleos o un cristal de silicio de 8 núcleos (que incluye dos complejos), y poner varios en un procesador. "A la salida", el número requerido de núcleos e hilos. Entre los beneficios se encuentran muchos bloques replicados, como canales de memoria y carriles PCIe. La desventaja es la forma en que estos núcleos y la memoria deben comunicarse entre sí.

En el diseño estándar de silicio monolítico (único), cada núcleo está ubicado en el interconector interno con un controlador de memoria y puede ir a la memoria principal con un bajo retraso. El tipo de cambio entre los núcleos y el controlador de memoria suele ser bastante bajo, y el mecanismo de enrutamiento (anillo o rejilla) puede determinar el ancho de banda, la latencia y la escalabilidad. El rendimiento final suele ser un compromiso entre estos factores.

En un diseño con varios cristales, en el que cada sello tiene acceso no solo a una memoria específica localmente, sino también a otra memoria usando un salto, nos enfrentamos a una arquitectura de memoria desigual. Se conoce como diseño NUMA. En este caso, el rendimiento puede verse limitado por este retraso de memoria anormal. Por lo tanto, el software debe ser "consciente de NUMA" para optimizar tanto la latencia como el rendimiento. No olvide que las transiciones adicionales entre la matriz y los controladores de memoria requieren cierta potencia informática.

Nos encontramos con esto antes en la primera generación de Threadripper (la presencia de dos matrices de silicio activas en el paquete). Si los datos requeridos estaban en la memoria local de otro silicio, se necesitaba un salto. Con la segunda generación de Threadripper, este salto se vuelve mucho más difícil.



A la izquierda está el diseño 1950X / 2950X con dos conjuntos de silicio activos. Cada matriz tiene acceso directo a 32 carriles PCIe y dos canales de memoria, que suman hasta 64/4 carriles PCIe y cuatro canales de memoria. A su vez, los núcleos que funcionan con memoria / PCIe y están conectados a su matriz funcionan más rápido que cuando se utilizan recursos conectados a otra matriz.

El 2990WX y el 2970WX tienen dos silicio "inactivo" habilitado, pero no tienen acceso directo adicional a la memoria o PCIe. No hay memoria "local" o conexión para estos núcleos: cada acceso a la memoria principal requiere una transición adicional. Además, hay interconectores de matriz a matriz adicionales basados ​​en AMD Infinity Fabric (IF) que consumen energía.

La razón por la que estos núcleos adicionales no tienen acceso directo reside en la plataforma: la plataforma TR4 para procesadores Threadripper utiliza memoria de cuatro canales y 60 ranuras PCIe. Si las otras dos matrices incluyen memoria local y PCIe, se requerirán nuevas placas base y dispositivos de memoria.

Los usuarios pueden preguntar si podemos cambiar el diseño para que cada cristal de silicio tenga un canal de memoria y un conjunto de 16 carriles PCIe. Es probable. Sin embargo, la plataforma es algo limitada en cómo se controlan los pines y las rutas en los zócalos y las placas base. El firmware espera dos canales de memoria para cada silicio, además de esto, hay razones relacionadas con la fuente de alimentación. Las placas base actuales en el mercado simplemente no están configuradas de esa manera. Este hecho tendrá un gran impacto en el rendimiento, así que tenlo en cuenta cuando lleguemos a las pruebas.
Vale la pena señalar que esta es la segunda generación de Threadripper y la plataforma de servidor de AMD, EPYC, son hermanos. Ambos tienen el mismo diseño de procesador y socket, pero EPYC incluye todos los canales de memoria (ocho) y todos los carriles PCIe (128):



Y si Threadripper 2 pierde rendimiento debido a la presencia de varios núcleos sin acceso directo a la memoria, entonces EPYC tiene memoria directa disponible. El procesador requiere más potencia, pero ofrece una configuración más uniforme del tráfico desde el núcleo a la red.

Volviendo a Threadripper 2, es importante entender cómo se cargará el chip. AMD ha confirmado que, en su mayor parte, el programador primero cargará los núcleos que están directamente conectados a la memoria antes de usar otros núcleos. Resulta que cada núcleo tiene un "peso" de prioridad, basado en el rendimiento, el rendimiento térmico y la potencia. Se da prioridad a los más cercanos a la memoria. La prioridad de los núcleos disminuye a medida que se llenan debido a la ineficiencia térmica.

Impulso de precisión 2


Los tiempos de turbo exactos para cada nuevo procesador ahora estarán determinados por la funcionalidad de escala de frecuencia de voltaje AMD usando Precision Boost 2. Esta característica, que examinamos en detalle en la revisión Ryzen 7 2700X, se basa en la potencia disponible para determinar la frecuencia, en lugar de una tabla de referencia discreta de voltajes y frecuencias basado en la carga. Dependiendo de las capacidades iniciales del sistema, la frecuencia y el voltaje se cambiarán dinámicamente para usar más potencia potencial disponible en cualquier momento de la carga del procesador.



Un procesador puede usar más potencia de la que permite una tabla de búsqueda fija, lo que debería ser adecuado para todos los procesadores en un modelo dado.

Precision Boost 2 funciona junto con XFR2 (eXtreme Frequency Range), que responde al rango de temperatura disponible. Si hay un presupuesto térmico adicional proporcionado por un buen enfriador, el procesador puede usar más energía antes de alcanzar el límite térmico y obtener una frecuencia adicional. AMD afirma que un buen refrigerador en un ambiente fresco puede aumentar la potencia de cómputo en más del 10% en algunas pruebas, gracias al uso de la tecnología XFR2. Para demostrar este "plus" al lanzar Threadripper 2 en medio del período más caluroso de Europa, AMD fue difícil. Europa es conocida por ignorar los aires acondicionados en todo el mundo, y cuando la temperatura ambiente supera los 30ºC, los aumentos de productividad son limitados. Una revisión escandinava puede mostrar mejores resultados que una revisión de los trópicos.

En última instancia, esto complica la prueba de Threadripper 2. Con la mesa turbo, el rendimiento está estrechamente vinculado a las características de cada elemento de silicio, lo que hace que el consumo de energía sea la única gradación. Con PB2 y XF2, no hay dos procesadores que funcionen igual.

Afortunadamente para nosotros, hicimos la mayoría de nuestras pruebas en un hotel con aire acondicionado gracias a la Cumbre de innovación centrada en datos de Intel, que tuvo lugar una semana antes del lanzamiento de los procesadores.

Impulso de precisión sobremarcha


Los nuevos procesadores son compatibles con la función Precision Boost Overdrive, que cubre áreas clave como la potencia, la corriente de diseño térmico y la corriente de diseño eléctrico. Si alguna de estas tres áreas "demuestra" el potencial no utilizado, el sistema intentará aumentar tanto la frecuencia como el voltaje para aumentar el rendimiento. PBO es una combinación de overclocking "estándar", que acelera todos los núcleos al mismo tiempo, con la posibilidad de aumentar la frecuencia en un núcleo para obtener una ganancia de rendimiento en cargas de trabajo medias. PBO ahorra energía cuando el procesador deja de funcionar y funciona con un rendimiento estándar. Precision Boost Overdrive se activa con Ryzen Master.

AMD define estas "tres áreas clave" de la siguiente manera:

  • Energía del paquete (CPU) o PPT: el consumo de energía máximo permitido de un zócalo depende de la fuente de alimentación del zócalo;
  • Corriente de diseño térmico o TDC: corriente máxima suministrada por el regulador de voltaje de la placa base después de alcanzar una temperatura estable;
  • Corriente de diseño eléctrico o EDC: corriente máxima suministrada por el regulador de voltaje de la placa base en el estado pico.

Al ampliar estos límites, PBO amplía las capacidades de PB2, lo que a su vez le permite cargar el sistema de la manera más eficiente posible.



StoreMI


Junto con los nuevos procesadores Ryzen Threadripper 2, los usuarios tienen acceso a la solución de software StoreMI. Le permite crear un almacenamiento en niveles personalizado combinando DRAM, SSD y HDD en un solo espacio de almacenamiento. La implementación del software asigna datos dinámicamente utilizando hasta 2 GB de DRAM, hasta 256 GB de SSD (NVMe o SATA) y un disco duro giratorio. Este enfoque proporciona las mejores capacidades de lectura y escritura, con falta de espacio en un disco de alta velocidad.



Inicialmente, AMD ofreció este software como complemento de la plataforma Ryzen APU por $ 20, y luego de forma gratuita (hasta 256 GB SSD) para usuarios de los procesadores de la serie Ryzen 2000. La oferta ahora se extiende a Threadripper. AMD demuestra cómo idealmente el software proporciona tiempos de arranque un 90% más rápidos.

Aliméntame: Infinity Fabric necesita más potencia


Cuando el movimiento de datos entre núcleos y controladores de memoria cambió de una topología de anillo a una malla o chiplet, la comunicación entre núcleos se volvió mucho más complicada. De ahora en adelante, cada núcleo o su entorno debe actuar como un enrutador y determinar la mejor ruta para los datos si se requieren varios "saltos" para lograr el objetivo previsto. Como vimos con la malla MoDe-X de Intel al lanzar Skylake-X, debe evitar simultáneamente la competencia para aumentar el rendimiento y reducir la longitud de los conductores para reducir la potencia. Resulta que en tales sistemas, la tecnología de comunicación internuclear comienza a consumir mucha energía, a veces más que los propios núcleos.

Para describir la potencia del chip, todos los procesadores de consumo tienen una potencia nominal de diseño "TDP" o térmica. Intel y AMD miden este valor de manera diferente según las cargas de trabajo y las temperaturas. Técnicamente, TDP es la energía térmica que el enfriador debe disipar cuando el procesador está completamente cargado (y generalmente se determina a la frecuencia base, no a la frecuencia turbo de todos los núcleos). El consumo de energía real puede ser mayor, dependiendo de las pérdidas debidas al suministro de energía o la disipación térmica a través del tablero, pero para la mayoría de las situaciones, el TDP y el consumo de energía en general se consideran iguales.

Esto significa que las clasificaciones TDP en procesadores modernos como 65W, 95W, 105W, 140W, 180W, y ahora 250W deberían mostrar aproximadamente el consumo de energía pico. Sin embargo, no toda esta energía puede ir a aumentar la frecuencia en los núcleos. Parte de ella se usará en controladores de memoria, en E / S, en gráficos integrados (si hay uno en el chip). Resulta que las conexiones internucleares se están convirtiendo en un participante de pleno derecho en el consumo de energía. Queremos saber cuánto consumen.

Para comprender el alcance, comencemos con algo sencillo y conocido por la mayoría de los usuarios. Los procesadores Intel Coffee Lake más nuevos, como el Core i7-8700K, utilizan el llamado diseño de bus de anillo. Estos procesadores usan un anillo para conectar cada uno de los núcleos y el controlador de memoria: si necesita mover los datos, caen en el anillo y se mueven hasta llegar a su destino. El sistema de interacciones internucleares se denomina históricamente "Uncore" y puede interactuar con núcleos que operan a diferentes frecuencias y potencia de escala según sea necesario. La distribución de energía es la siguiente:



A pesar del TDP de 95 W, este procesador a frecuencias base consume aproximadamente 125 W a plena carga, que es mucho más que su TDP (también determinado a la frecuencia base). Estamos interesados ​​en algo más: la relación entre el consumo de Uncore y la potencia total. uncore 4% , 7-9%. « 10%».

- : Intel Skylake-X. Intel «mesh» (), MoDe-X. , , .



, , 14 . mesh , , Intel, .



, uncore mesh 20% , 25-30% . .

AMD . crossbar. , . . «»», Infinity Fabric (IF).



IF , . , , Ryzen 7 2700X, TDP 105 .



AMD . -, , IF 43% . 4% i7-8700K 19% i9-7980XE. 43% 25%.

-, , IF , ~ 17,6 ~ 25,7 . Intel , ~ 13,8 40 .

Ryzen Threadripper 2950X — 16- Threadripper, .



, IF. Uncore + .



Infinity Fabric 59% . ( CCX), CCX , die-to-die - .

, IF, 34 43 , 25% , 2700X.

2990WX. , IF , IF-:



. , DRAM. AMD IF-, . - , IF- . - .



. Infinity Fabric 56,1 76,7 , 73% . 2950 34 , , IF. .

, , 2990WX TDP 250 , 180 . , . , IF , 36%, 35% 40% . , , , 25% 2700X 2950X.

, , EPYC 7601, , ? Zen , EPYC IO, , Uncore .



, 2990WX, , . uncore .



, 74,1 , IF 66,2 89%! , 66,2 90 . 90 180 TDP!

Lo anterior lleva a una conclusión interesante: si comparamos académicamente los méritos de un núcleo con otro, ¿deberíamos considerar la contribución del poder de Uncore? Para un análisis real, ciertamente sí, ¿pero para uno puramente académico? Déjame profetizar:

después de la batalla por el número de núcleos, la próxima batalla será por interconexión. Bajo consumo, escalabilidad y alto rendimiento: escalar un nodo de procesador no es nada si Uncore representa el 90% de la potencia total del chip.

Gracias por quedarte con nosotros. ¿Te gustan nuestros artículos? ¿Quieres ver más materiales interesantes? Apóyenos haciendo un pedido o recomendándolo a sus amigos, un descuento del 30% para los usuarios de Habr en un análogo único de servidores de nivel de entrada que inventamos para usted: toda la verdad sobre VPS (KVM) E5-2650 v4 (6 núcleos) 10GB DDR4 240GB SSD 1Gbps de $ 20 o cómo dividir el servidor? (las opciones están disponibles con RAID1 y RAID10, hasta 24 núcleos y hasta 40GB DDR4).

3 meses gratis al pagar un nuevo Dell R630 por un período de seis meses - 2 x Intel Deca-Core Xeon E5-2630 v4 / 128GB DDR4 / 4x1TB HDD o 2x240GB SSD / 1Gbps 10 TB - desde $ 99.33 al mes , solo hasta el final de agosto, ordene puede estar aquí

Dell R730xd 2 veces más barato? ¡Solo tenemos 2 x Intel Dodeca-Core Xeon E5-2650v4 128GB DDR4 6x480GB SSD 1Gbps 100 TV desde $ 249 en los Países Bajos y los Estados Unidos! Lea sobre Cómo construir un edificio de infraestructura. clase utilizando servidores Dell R730xd E5-2650 v4 que cuestan 9,000 euros por un centavo?

Source: https://habr.com/ru/post/es421147/


All Articles