人工智能系统优化数据中心散热

一年前,世界数据中心消耗了地球上所有发电量的 2%。 据分析师称,这一数字到2020年将增长到5%。 而且,所有这些能量中约有一半用于冷却。 这些成本旨在减少AI系统。

今天,我们将讨论这方面的最新发展。


/图片国家档案馆(英国) CC

Google专案


在2016年,DeepMind和Google 开发了一个人工智能系统 ,该系统监视数据中心的各个组件。 她向数据中心的管理员提供了有关如何优化服务器功耗的建议。 该解决方案可将冷却系统运行的能源成本降低40%,并将PUE系数降低15%。

根据数据中心运营商的说法,机器算法的提示在工作中很有用,但是处理它们花费了太多时间。 因此,Google的工程师之一Dan Fuenffinger(Dan Fuenffinger) 提议完全转移空调系统的智能控制。 这应该减轻了数据中心的操作员的负担,因为那些操作员仅需微调和控制整个过程即可。

在接下来的两年中,该公司改进了AI系统,现在完全管理服务器机房冷却。 例如,机器算法“猜测”在冬天,冷空气可以更强地冷却冷却器中的水,并以此优化能耗。 这又将能源成本降低了30%。

Google相信,他们的发展及其未来的类似产品将帮助数据中心所有者将冷却系统的成本降低至少一半,并减少向大气中的二氧化碳排放量。

如何运作


成千上万的物理传感器监视着公司数据中心中的整个冷却系统。 来自它们的数据进入部署在云中的AI系统的输入。 这是一个由五个隐藏层组成的神经网络,每个层有50个神经元。

它使用19种不同的参数工作,包括服务器上的总负载,自来水泵的数量,室外湿度甚至风速。 系统每五分钟读取一次传感器的读数(大约18.4万个样本-其中70%用于训练网络,其余30%用于交叉检查 ),并使用它们来优化PUE值。

她建立了一个预测列表,说明系统中的特定变化将如何影响数据中心的能耗和机房温度。 例如,“冷”走廊温度的变化会导致冷却器,热交换器和泵上的负载波动,从而导致设备生产率的非线性变化。

从已编译列表中选择最有效的措施,这些措施将比其他措施减少更多的能源消耗,并且不会导致数据中心的故障。 此外,这些指令被发送回数据中心,在该中心,本地控制系统再次检查它们是否满足安全要求(其执行不会导致无法挽回的后果)。

由于将诸如Google搜索,Gmail和YouTube之类的服务的平稳运行的部分责任转移到了AI系统上,因此开发人员提供了许多保护措施。 其中包括用于计算不确定性指标的算法。 对于数十亿个可能的动作中的每一个,AI系统都会评估可靠性,并立即消除该指标证明为低(即出现故障的可能性很高)的那些可靠性。

另一种保护方法是两级验证。 将MO算法计算出的最佳操作与数据中心运营商规定的安全策略集进行比较。 仅当一切正常时,才对空调系统的运行进行更改。

此外,操作员随时准备关闭“自动”模式并进行控制。

类似的发展


Google并不是唯一一家开发用于管理数据中心冷却系统的机器学习解决方案的公司。 例如,Litbit正在研究Dac技术,以监视计算能力和能耗。


/照片reynermedia CC

为了监视设备状态,Dac 使用物联网传感器。 该系统可以“听到”超声波频率并“感觉”到地板异常振动。 通过分析此数据,Dac可以确定所有设备是否正常运行。 发生故障时,系统会通知管理员,生成技术支持票证,甚至可以独立关闭硬件(在紧急情况下)。

Nlyte Software创建了类似的解决方案,该解决方案与IBM Watson IoT团队合作。 他们的系统收集有关温度,湿度,电力消耗,数据中心设备负荷的数据,并为工程师提供有关优化工作流程的建议。 该解决方案适用于云和本地基础架构。

在数据中心引入AI系统超越常规的DCIM解决方案 (用于数据中心监视的软件产品)。 在IT行业的专家中,有一种观点认为,很快就会在数据中心中进行大多数流程的自动化。 结果,数据中心的管理员将能够专注于影响公司成长和发展的其他更重要的任务。



来自第一家公司IaaS博客的PS相关内容:

Source: https://habr.com/ru/post/zh-CN420959/


All Articles