Los sistemas de IA optimizan el enfriamiento del centro de datos

Hace un año, los centros de datos mundiales consumían el 2% de toda la electricidad generada en el planeta. Según los analistas, esta cifra crecerá al 5% en 2020. Además, aproximadamente la mitad de toda esta energía se gasta en refrigeración. Estos costos están diseñados para reducir los sistemas de IA.

Hoy hablaremos sobre los últimos desarrollos en esta área.


/ foto The National Archives (Reino Unido) CC

Proyecto de Google


En 2016, DeepMind y Google desarrollaron un sistema de inteligencia artificial que monitorea los componentes individuales del centro de datos. Ella dio a los administradores en el centro de datos recomendaciones sobre cómo optimizar el consumo de energía de los servidores. La solución permitió reducir los costos de energía para la operación de los sistemas de enfriamiento en un 40% y reducir el coeficiente PUE en un 15%.

Según los operadores del centro de datos, las sugerencias de los algoritmos de la máquina fueron útiles en el trabajo, pero tomó demasiado tiempo procesarlas. Por lo tanto, Dan Fuenffinger (Dan Fuenffinger), uno de los ingenieros de Google, propuso transferir completamente el control inteligente de los sistemas de aire acondicionado. Esto debería haber aliviado a los operadores del centro de datos, ya que solo tendrían que ajustar y controlar todo el proceso.

Durante los siguientes dos años, la compañía mejoró su sistema de inteligencia artificial y ahora gestiona completamente el enfriamiento de las salas de servidores. Por ejemplo, el algoritmo de la máquina "adivinó" que en invierno, el aire frío enfría el agua en los enfriadores con mayor fuerza, y aprovechó esto para optimizar el consumo de energía. Esto redujo los costos de energía en otro 30%.

Google cree que su desarrollo y sus análogos en el futuro ayudarán a los propietarios de centros de datos a reducir el costo de los sistemas de enfriamiento al menos a la mitad y reducir las emisiones de CO2 a la atmósfera.

Como funciona


Miles de sensores físicos monitorean todo el sistema de enfriamiento en el centro de datos de la compañía. Los datos de ellos van a la entrada del sistema de inteligencia artificial implementado en la nube. Esta es una red neuronal de cinco capas ocultas con 50 neuronas en cada una.

Funciona con 19 parámetros diferentes, incluida la carga total en los servidores, el número de bombas de agua corriente, la humedad exterior e incluso la velocidad del viento. Cada cinco minutos, el sistema lee las lecturas de los sensores (esto es aproximadamente 184 mil muestras; el 70% de ellas fueron necesarias para entrenar la red, y el 30% restante se usó para la verificación cruzada ) y las usa para optimizar el valor de PUE.

Ella construye una lista de pronósticos, cómo un cambio particular en el sistema afectará el consumo de energía del centro de datos y la temperatura en la sala de máquinas. Por ejemplo, un cambio en la temperatura del corredor "frío" puede causar fluctuaciones en la carga en los enfriadores, intercambiadores de calor y bombas, lo que, como resultado, conducirá a cambios no lineales en la productividad de los equipos.

De la lista compilada, se seleccionan las acciones más efectivas que reducirán el consumo de energía más que otras y no conducirán a un mal funcionamiento del centro de datos. Además, estas instrucciones se envían de regreso al centro de datos, donde el sistema de control local verifica nuevamente si cumplen con los requisitos de seguridad (y su implementación no tendrá consecuencias irreparables).

Dado que parte de la responsabilidad del buen funcionamiento de servicios como Google Search, Gmail y YouTube se transfirió a los sistemas de IA, los desarrolladores proporcionaron una serie de medidas de protección. Entre ellos se encuentran algoritmos para calcular el indicador de incertidumbre. Para cada uno de los miles de millones de acciones posibles, el sistema de IA evalúa la confiabilidad y elimina inmediatamente aquellas para las cuales este indicador resultó ser bajo (es decir, con una alta probabilidad de falla).

Otro método de protección fue la verificación en dos niveles. Las acciones óptimas calculadas por los algoritmos MO se comparan con el conjunto de políticas de seguridad prescritas por los operadores del centro de datos. Solo si todo está en orden, se realizan cambios en el funcionamiento de los sistemas de aire acondicionado.

Además, los operadores siempre están listos para desactivar el modo "automático" y tomar el control.

Desarrollos similares


Google no es el único en desarrollar soluciones de aprendizaje automático para administrar sistemas de enfriamiento en el centro de datos. Por ejemplo, Litbit está trabajando en la tecnología Dac para monitorear la potencia informática y el consumo de energía.


/ foto reynermedia CC

Para monitorear el estado del equipo, Dac usa sensores IoT. El sistema puede "escuchar" frecuencias ultrasónicas y "sentir" vibraciones anormales del piso. Al analizar estos datos, Dac determina si todo el equipo está funcionando correctamente. En caso de mal funcionamiento, el sistema notifica a los administradores, genera un ticket para soporte técnico e incluso apaga el hardware de forma independiente (en caso de emergencia).

Nlyte Software crea una solución similar, que se asoció con el equipo de IBM Watson IoT. Su sistema recopila datos sobre temperatura, humedad, consumo de electricidad, carga de equipos en el centro de datos y brinda asesoramiento a los ingenieros para optimizar los procesos de trabajo. La solución funciona con infraestructura en la nube y en las instalaciones.

La introducción de sistemas de inteligencia artificial en los centros de datos irá más allá de las soluciones habituales de DCIM (productos de software para el monitoreo de centros de datos). Entre los expertos en la industria de TI, existe la opinión de que pronto la mayoría de los procesos que tienen lugar en el centro de datos se automatizarán. Como resultado, los administradores en los centros de datos podrán concentrarse en otras tareas más importantes que afectan el crecimiento y el desarrollo de las empresas.



Contenido relacionado con PS del primer blog corporativo de IaaS:

Source: https://habr.com/ru/post/es420959/


All Articles