Larga vida a los overclockers: cómo la refrigeración líquida comenzó a dominar en los centros de datos

"Las computadoras de alta velocidad no pueden funcionar sin aire"



Hay un momento en la película Iron Man 2 cuando Tony Stark ve una vieja película de su difunto padre, donde dice: "Estoy limitado por la tecnología de mi tiempo, pero un día puedes resolverlo". Y luego cambiarás el mundo ". Es fantástico, pero la idea que expresa es bastante real. Las ideas de los ingenieros a menudo están muy adelantadas a su tiempo. Siempre ha habido dispositivos en Star Trek, pero el resto del mundo ha tenido que trabajar durante décadas para crear tabletas y libros electrónicos.

El concepto de refrigeraci√≥n l√≠quida encaja perfectamente en esta categor√≠a. La idea en s√≠ ha existido desde la d√©cada de 1960, pero se mantuvo radical en comparaci√≥n con una opci√≥n mucho m√°s barata y segura para la refrigeraci√≥n por aire. Pasaron m√°s de 40 a√Īos hasta que la refrigeraci√≥n l√≠quida comenz√≥ a desarrollarse un poco en la d√©cada de 2000, e incluso entonces era principalmente una prerrogativa de los entusiastas de las PC que buscaban dispersar sus CPU m√°s all√° de los l√≠mites recomendados por Intel y AMD.

Hoy en día, los sistemas de refrigeración líquida están ganando popularidad. Tal sistema para PC se puede comprar por menos de $ 100, y la producción artesanal dirigida a aplicaciones industriales y centros de datos (como CoolIT, Asetek, Green Revolution Computing, Ebullient) ofrece refrigeración líquida () para servidores. Los ZhO se usan principalmente en supercomputadoras, informática de alta velocidad u otras situaciones en las que se requiere una gran cantidad de energía de la computadora, y los procesadores funcionan con casi el 100% de carga, pero estas opciones se están volviendo más comunes.

Hay dos tipos populares de ZhO: enfriamiento directo de chips e inmersión. Con enfriamiento directo, el radiador se conecta a la CPU, como un enfriador estándar, pero en lugar de eso, se conectan dos tubos. Uno viene con agua fría, un disipador térmico que absorbe el calor de la CPU, y el otro deja caliente. Luego se enfría y vuelve a la CPU en un circuito cerrado que se asemeja al flujo sanguíneo.

Durante el enfriamiento por inmersi√≥n, el equipo se llena con l√≠quido que, obviamente, no debe conducir electricidad. Este enfoque es m√°s similar a las piscinas de enfriamiento de los reactores nucleares. El enfriamiento sumergible sigue siendo una opci√≥n m√°s avanzada y requiere refrigerantes m√°s caros que una conexi√≥n directa, donde puede usar agua com√ļn. Adem√°s, siempre existe el riesgo de fugas. Por lo tanto, con mucho, la opci√≥n m√°s popular es la conexi√≥n directa.

Como uno de los principales ejemplos, tome Alphabet. Cuando esta empresa matriz de Google presentó el AI TensorFlow 3.0 en mayo de 2018, el director Sundar Pichai dijo que estos chips eran tan potentes que "por primera vez, tuvimos que instalar refrigeración líquida en los centros de datos". Alphabet tuvo que pagar este precio por un aumento de ocho veces en la productividad.

Por otro lado, Skybox Datacenters anunci√≥ recientemente planes para crear una gran supercomputadora con 40,000 servidores de DownUnder GeoSolutions (DUG), dise√Īada para la exploraci√≥n de petr√≥leo y gas. Este proyecto producir√° 250 petaflops de potencia inform√°tica, m√°s que cualquier otro existente, y se espera que los servidores se enfr√≠en por fluido cuando se sumerjan en tanques llenos de fluido diel√©ctrico.

En cualquier caso, "la refrigeraci√≥n l√≠quida es la refrigeraci√≥n del futuro, y siempre lo ser√°", dijo Craig Pennington, vicepresidente de dise√Īo, operador del centro de datos de Equinix. "Parece obvio que este es el enfoque correcto, pero nadie lo ha aplicado".

¬ŅC√≥mo ha pasado JO del arte esot√©rico a la vuelta de la inform√°tica a un m√©todo casi universalmente aceptado en los centros de datos modernos? Como todas las tecnolog√≠as, esto sucedi√≥ en parte como resultado de la evoluci√≥n, prueba y error, y una gran cantidad de soluciones de ingenier√≠a. Sin embargo, para ZhO, los centros de datos de hoy deber√≠an agradecer a los primeros overclockers que son h√©roes an√≥nimos de este m√©todo.


El panel de control del sistema de procesamiento de datos IBM System 360

¬ŅQu√© queremos decir con refrigeraci√≥n l√≠quida?


La refrigeraci√≥n l√≠quida se convirti√≥ en una idea popular en 1964 cuando IBM estudi√≥ el tema de la refrigeraci√≥n sumergible para el mainframe System 360. Era uno de los mainframes de la compa√Ī√≠a; Las series 700 y 7000 existieron durante m√°s de diez a√Īos, y System / 360 "comenz√≥ la era de la compatibilidad con computadoras, permitiendo por primera vez que diferentes m√°quinas de la l√≠nea de productos trabajen juntas", seg√ļn escriben en IBM. El concepto era simple: el agua enfriada ten√≠a que fluir a trav√©s de un dispositivo que la enfriaba a una temperatura inferior a la temperatura ambiente, y luego el agua se alimentaba directamente al sistema. El circuito utilizado por IBM ahora se conoce como enfriamiento posterior cuando el disipador t√©rmico est√° montado detr√°s de la unidad central. El dispositivo aspiraba aire caliente de la unidad central con ventiladores, y luego este aire se enfriaba con agua, al igual que un radiador enfr√≠a el motor de un autom√≥vil.

Desde entonces, los ingenieros han perfeccionado este concepto b√°sico y han surgido dos formas dominantes de FV: inmersi√≥n y contacto directo. La inmersi√≥n es lo que es; La electr√≥nica est√° en un ba√Īo l√≠quido que, por razones obvias, no puede ser agua. El l√≠quido no debe conducir electricidad, es decir, ser un aislante (empresas como 3M incluso desarrollan espec√≠ficamente l√≠quidos para esto).

Pero el buceo tiene muchos problemas y desventajas. Solo se puede acceder al servidor ubicado en el l√≠quido desde arriba. Por lo tanto, los puertos externos deben ubicarse all√≠. La ubicaci√≥n del servidor de gabinetes de 1U en un bastidor no ser√≠a pr√°ctico, por lo que el servidor no puede colocarse secuencialmente. Un diel√©ctrico, y generalmente uno mineral, es peque√Īo, muy costoso y dif√≠cil de limpiar en caso de fuga. Se requerir√°n discos duros especiales, y la alteraci√≥n del centro de datos requerir√° importantes inversiones. Por lo tanto, como en el caso de la supercomputadora mencionada anteriormente, la inmersi√≥n se realiza mejor en un nuevo centro de datos, en lugar de rehacer el antiguo.

El contacto directo de JO, en cambio, es que el radiador (o intercambiador de calor) está en el chip, como un radiador normal. En lugar de un ventilador, usa dos tuberías de agua: una que trae agua fría para enfriar y la segunda que sopla agua caliente calentada por contacto con el radiador. Esta forma de ZhO se convirtió en la más popular, fue adoptada por fabricantes como HP Enterprise, Dell EMC e IBM, así como por fabricantes de gabinetes Chatsworth Systems y Schneider Electric.

El enfriamiento directo usa agua, pero es muy sensible a su calidad. No se debe usar agua del grifo sin filtrar. Solo mira tu grifo o ducha. Nadie necesita la acumulación de calcio en los servidores. Al menos el enfriamiento directo requiere agua destilada pura y, a veces, su mezcla con anticongelante. La fabricación de dicho refrigerante es una ciencia en sí misma.

Enlace de Intel


¬ŅC√≥mo pasamos de los radiadores de IBM a los modernos y extravagantes sistemas de enfriamiento? De nuevo, gracias a los overclockers. A principios de siglo, la refrigeraci√≥n l√≠quida comenz√≥ a ganar popularidad entre los overclockers de PC y los aficionados que ensamblaron sus computadoras que quer√≠an aumentar su velocidad m√°s all√° de los l√≠mites oficiales. Sin embargo, era un arte esot√©rico sin dise√Īos est√°ndar. Todos hicieron algo diferente. La persona que reuni√≥ todo esto ten√≠a que ser tan generosa que el ensamblaje de los productos de IKEA pareciera una completa tonter√≠a. La mayor√≠a de los sistemas de enfriamiento ni siquiera encajaban en los gabinetes.

A principios de 2004, la situaci√≥n comenz√≥ a cambiar debido a cambios internos en las pol√≠ticas de Intel. Un ingeniero del centro de dise√Īo de Hillsboro, Oregon, donde se dise√Īan la mayor√≠a de los chips de la compa√Ī√≠a, a pesar de tener su sede en Santa Clara, California, ha estado trabajando en un proyecto especial de enfriamiento durante varios a√Īos. El proyecto le cost√≥ a la compa√Ī√≠a $ 1 mill√≥n y ten√≠a como objetivo crear un enfriador l√≠quido para procesadores Intel. Desafortunadamente, Intel estaba a punto de cerrarlo.

El ingeniero esperaba un resultado diferente. Para salvar el proyecto, se le ocurri√≥ esta idea en Falcon Northwest, una compa√Ī√≠a con sede en Portland que construy√≥ complementos de juegos para computadoras. "La raz√≥n fue porque la compa√Ī√≠a pens√≥ que el enfriamiento por l√≠quido alentaba a las personas a hacer overclock y esta actividad estaba prohibida en ese momento", dijo Kelt Reeves, presidente de Falcon Northwest. Y en esta posici√≥n, Intel ten√≠a su propia l√≥gica. En ese momento, los minoristas sin principios de Asia estaban vendiendo PCs overclockeadas bajo la apariencia de otras m√°s potentes, y con una refrigeraci√≥n deficiente, y a los ojos del p√ļblico, esto de alguna manera se convirti√≥ en un problema de Intel. Por lo tanto, la compa√Ī√≠a se opuso al overclocking.

Sin embargo, este ingeniero de Oreg√≥n cre√≠a que si lograba encontrar clientes y un mercado para ese refrigerador, Intel rendir√°. (Adem√°s, el producto Intel resultante fue mucho mejor en calidad que lo que estaba disponible en el mercado, nos dijo Reeves). Por lo tanto, despu√©s de cierta persuasi√≥n interna y negociaciones entre las compa√Ī√≠as, Intel permiti√≥ a Falcon vender sistemas de enfriamiento, en particular porque Intel ya los produc√≠a en miles. El √ļnico inconveniente fue que Falcon no pod√≠a mencionar que Intel estaba involucrado. Falcon estuvo de acuerdo, y pronto se convirti√≥ en el primer fabricante en suministrar sistemas de PC todo en uno completamente sellados.

Reeves se√Īal√≥ que esta soluci√≥n de ZhO de vanguardia no era particularmente f√°cil de usar. Falcon tuvo que cambiar la carcasa para que se ajustara al radiador e inventar una placa de enfriamiento para el agua. Pero con el tiempo, los fabricantes de refrigeradores, como ThermalTake y Corsair, aprendieron lo que Intel estaba haciendo y comenzaron a realizar mejoras consistentes. Desde entonces, han aparecido varios productos y fabricantes, por ejemplo, CoolIT y Asetek, que fabricaron espec√≠ficamente ZhO para centros de datos. Algunos de sus productos, por ejemplo, tuber√≠as que no se rompen, no se agrietan y no tienen fugas con una garant√≠a de hasta siete a√Īos, finalmente se otorgaron bajo licencia a los fabricantes de sistemas de refrigeraci√≥n para el usuario final, y dicho intercambio de tecnolog√≠a en ambas direcciones se ha convertido en la norma.

Y a medida que este mercado crece en diferentes direcciones, incluso Intel finalmente cambió de opinión. Ahora anuncia capacidades de overclocking para los procesadores de las series K y X, y ni siquiera le importa vender refrigeradores regulares junto con la CPU superior para los jugadores.

"ZhO ya es una tecnología probada: todo el mundo lo está haciendo por parte del consumidor", dijo Reeves. Intel ha dejado de suministrar refrigeradores regulares con las CPU más potentes, porque necesitan JO; ya ha sido probado y se ha recibido una bendición de Intel. No creo que haya alguien que diga que las soluciones completas para esto no son lo suficientemente confiables ".


Enfriamiento por inmersión en el centro de datos. Las cajas están llenas de fluido dieléctrico que fluye a través de las tuberías.


Refrigeración líquida de Skybox Datacenters con inmersión. Los intercambiadores de calor se sumergen con equipos informáticos y el fluido dieléctrico no sale del tanque. Un circuito de agua pasa por las habitaciones y se acerca a cada intercambiador de calor.

Hechos a favor de la practicidad del enfriamiento líquido.


Durante mucho tiempo, los centros de datos tradicionales proporcionaron un piso elevado con peque√Īas aberturas a trav√©s de las cuales el aire fr√≠o se elev√≥, absorbido por los servidores. Esto se llamaba CRAC, o aire acondicionado de la sala de computadoras. El problema es que ahora no es suficiente soplar aire fr√≠o a trav√©s de las aberturas en el piso.

La raz√≥n principal del reciente auge del enfriamiento l√≠quido es la necesidad. Los procesadores de hoy se calientan demasiado y los servidores est√°n demasiado cerca para que el aire los enfr√≠e eficientemente, incluso Google dice. La capacidad calor√≠fica del agua es 3300 veces mayor que la del aire, y un sistema de enfriamiento de agua puede bombear 300 litros de agua por minuto, en comparaci√≥n con 20 metros c√ļbicos de aire por minuto.

En pocas palabras, el agua puede enfriarse de manera mucho m√°s eficiente y en un espacio mucho m√°s peque√Īo. Por lo tanto, despu√©s de muchos a√Īos de intentar reducir el consumo de energ√≠a, los fabricantes de procesadores pueden dispersar la energ√≠a y torcer el voltaje para obtener el m√°ximo rendimiento, sabiendo que la refrigeraci√≥n l√≠quida puede manejar esto.

"Se nos pide que enfr√≠emos los chips cuyo consumo de energ√≠a pronto superar√° los 500 vatios", dijo Jeff Lyon, director de CoolIT. - Algunos procesadores que a√ļn no han ingresado al mercado consumir√°n 300 vatios cada uno. Todo esto se est√° desarrollando a pedido de AI y machine learning. La velocidad de enfriamiento simplemente no es suficiente ".

Lyon dijo que CoolIT est√° considerando expandir el sistema de enfriamiento a conjuntos de chips, sistemas de control de potencia, chips de red y memoria. "No habr√° nada radical al tratar con la memoria", agreg√≥. - Hay opciones de RAM con empaque avanzado, que consumen 18 vatios por DIMM. Un DIMM t√≠pico consume 4-6 vatios. Entre los sistemas con una gran cantidad de memoria, encontramos servidores con 16 o incluso 24 DIMM instalados, lo que significa mucho calor ‚ÄĚ.

Uno por uno, los fabricantes se enfrentan a tales solicitudes. Equinix observa c√≥mo la densidad promedio crece de 5 kW a 7-8 kW, y ahora a 15-16 kW, con algunos equipos que ya muestran una densidad de 40 kW. ‚ÄúEntonces, la cantidad total de aire que necesita ser bombeada se vuelve demasiado grande. No suceder√° instant√°neamente, pero en los pr√≥ximos a√Īos habr√° una adopci√≥n fundamental de refrigeraci√≥n l√≠quida ‚ÄĚ, dijo Pennington de Equinix.

Un poco sobre enfriamiento por inmersión


Green Revolution Cooling se centra en el enfriamiento por inmersi√≥n, y su director Peter Poulin dice que desde una perspectiva de eficiencia energ√©tica, el enfriamiento por inmersi√≥n es mejor que el enfriamiento directo por dos razones. Primero, los ventiladores se eliminan de todos los servidores. Solo esto reduce el consumo de energ√≠a en un 15% en promedio. Y un cliente de la compa√Ī√≠a lo redujo en un 30%.

Hay otra ventaja indirecta para eliminar a los fan√°ticos: el silencio. A pesar del hecho de que a menudo se usan ventiladores muy peque√Īos en los servidores, los servidores son terriblemente ruidosos, y estar en el centro de datos es desagradable debido al calor y al ruido. La refrigeraci√≥n l√≠quida hace que estos lugares sean mucho m√°s agradables para trabajar.

Otra ventaja es que se requiere muy poca energía para soportar el sistema de enfriamiento por inmersión. Solo hay tres partes móviles: una bomba para hacer circular un refrigerador, una bomba para moverla a una torre de enfriamiento y un ventilador de torre de enfriamiento. Después de reemplazar el aire refrigerado por líquido, el consumo de electricidad puede caer al 5% de lo que se gastó en aire acondicionado. "Se obtiene una gran reducción en el consumo de energía, lo que le permite hacer muchas otras cosas", dijo Poulnin. "Dependiendo del consumidor, el centro de datos puede ser más eficiente energéticamente o reducir las emisiones de carbono asociadas con la construcción de centros de datos".

Hechos a favor de la eficiencia energética del enfriamiento líquido


El consumo de energ√≠a ha sido durante mucho tiempo una preocupaci√≥n para la industria del centro de datos (la Agencia de Protecci√≥n Ambiental de EE. UU. Ha estado rastreando esta cifra durante al menos diez a√Īos). Los centros de datos actuales son grandes empresas que consumen aproximadamente el 2% de toda la electricidad global y liberan tanto CO2 como la industria de las aerol√≠neas. Por lo tanto, el inter√©s en este tema no se desvanece. Afortunadamente, la refrigeraci√≥n l√≠quida reduce las facturas de electricidad.

Los primeros ahorros se deben a la desconexi√≥n del aire acondicionado en el centro de datos. El segundo es la eliminaci√≥n de los fan√°ticos. Cada rack de servidores tiene muchos ventiladores que emiten aire, pero su n√ļmero se puede reducir a un n√ļmero peque√Īo o a cero, dependiendo de la densidad.

Y con la tecnolog√≠a de "enfriamiento en seco", en la que no hay congelaci√≥n, puede lograr ahorros a√ļn mayores. Inicialmente, el enfriamiento conectado directamente condujo el agua a trav√©s de un refrigerador, que la enfri√≥ a 15‚Äď25 grados Celsius. Pero al final, result√≥ que los refrigeradores l√≠quidos, que pasaban agua a trav√©s de una larga secuencia de tuber√≠as y ventiladores, tuber√≠as fr√≠as calentadas por agua caliente y difusi√≥n t√©rmica natural, tambi√©n enfr√≠an el agua a una temperatura suficiente.

"Debido a que este proceso es tan efectivo, no tiene que preocuparse por enfriar el agua a una temperatura baja", dice Pennington. - El agua tibia a√ļn elimina efectivamente todo el calor de los servidores. No necesita un ciclo de compresi√≥n, solo puede usar enfriadores secos ".

Los enfriadores secos tambi√©n ahorran agua. Un gran centro de datos que usa refrigeradores puede consumir millones de litros de agua por a√Īo, pero un centro de datos con enfriadores secos no consume agua. Esto ahorra energ√≠a y agua, lo que puede ser muy √ļtil si el centro de datos se encuentra dentro de la ciudad.

"No consumimos mucha agua", dijo Pennington. - Si dise√Īas todo cuidadosamente, obtienes un sistema cerrado. El agua no se vierte y no se vierte, solo necesita agregar agua aproximadamente una vez al a√Īo para mantener los tanques llenos. No agrega agua constantemente a su autom√≥vil, este es el caso con nosotros ".

La aceptación sigue a la efectividad


Un ejemplo del mundo real: Dell, al cambiar a refrigeraci√≥n l√≠quida, ha aumentado la eficiencia energ√©tica ( PUE ) en un 56%, seg√ļn Brian Payne, vicepresidente de gesti√≥n de productos y marketing de PowerEdge Dell EMC.PUE es la relaci√≥n entre la energ√≠a que se debe gastar para enfriar el sistema y la energ√≠a necesaria para operar el sistema [de hecho, esta es la relaci√≥n entre la energ√≠a total utilizada por el centro de datos y la energ√≠a gastada directamente en alimentar la infraestructura de TI / aprox. perev]. PUE de 3 significa que se gasta 2 veces m√°s energ√≠a en enfriar un sistema que en energ√≠a del sistema, y ‚Äč‚ÄčPUE = 2 significa que tanto la energ√≠a como el enfriamiento se consumen por igual. PUE no puede ser igual a 1, ya que el enfriamiento es necesario, pero los operadores de centros de datos est√°n obsesionados con tratar de acercar la cifra a 1.0 como sea posible.

Además de mejorar PUE, el aumento de la potencia informática que reciben los clientes de Dell puede ser de hasta un 23%, y esto no sobrecarga el sistema más allá de toda medida. "En función de las inversiones en infraestructura necesarias, predecimos el rendimiento anual del sistema", dice Payne. - Lo compararía con la compra de un acondicionador de aire más eficiente en energía para el hogar. Invierte un poco, pero con el tiempo siente los beneficios de las facturas de electricidad ".

Como un adherente completamente diferente del enfriamiento l√≠quido, tome el centro de supercomputadoras en Ohio, OSC. Este cl√ļster emplea 1800 nodos. Despu√©s de cambiar a JO, como dijo Doug Johnson, arquitecto jefe de sistemas, el centro alcanz√≥ PUE = 1.5. OSC utiliza un circuito externo, por lo que el agua se elimina del edificio y se enfr√≠a a temperatura ambiente, que en promedio es de 30 ¬į C en verano y mucho menos en invierno. Las virutas alcanzan los 70 ¬į C, e incluso si el agua se calienta hasta 40 ¬į C, sigue siendo mucho m√°s fr√≠a que las virutas y cumple su prop√≥sito.

Como muchos de los primeros en adoptar la nueva tecnolog√≠a, para OSC todo es nuevo. Hace cinco a√Īos, el centro no usaba ZhO en absoluto, y hoy ocupa el 25%. El centro espera que en tres a√Īos la barra crecer√° al 75%, y despu√©s de unos a√Īos cambiar√°n completamente a ZhO. Pero incluso en el estado actual, seg√ļn Johnson, enfriar el centro requiere cuatro veces menos energ√≠a que antes de la transici√≥n a ZhO, y en general, esta soluci√≥n redujo el consumo total de energ√≠a en 2/3. "Creo que el porcentaje aumentar√° cuando comencemos a integrar la GPU en el sistema de enfriamiento".

Desde el punto de vista del cliente, se necesita tiempo y energía para evaluar una nueva tecnología, por eso una gran empresa como Dell acordó trabajar con CoolIT para anunciar ZhO. No es sorprendente que, en primer lugar, entre las preocupaciones de los clientes siga existiendo la posibilidad de fugas. Sin embargo, a pesar de todas las fluctuaciones, resulta que en este momento tienen pocas opciones si quieren lograr el mejor rendimiento.

"Siempre ha habido miedo a las filtraciones", dice Lyon de CoolIT. - La situación ha cambiado, y ahora simplemente no hay otras opciones. Las computadoras de alta velocidad no pueden hacer exactamente eso ".

Source: https://habr.com/ru/post/442576/


All Articles