Les systèmes d'IA optimisent le refroidissement du datacenter

Il y a un an, les centres de données mondiaux consommaient 2% de toute l'électricité produite sur la planète. Selon les analystes, ce chiffre passera à 5% d'ici 2020. De plus, environ la moitié de toute cette énergie est consacrée au refroidissement. Ces coûts sont conçus pour réduire les systèmes d'IA.

Aujourd'hui, nous parlerons des derniers développements dans ce domaine.


/ photo Les Archives Nationales (UK) CC

Projet Google


En 2016, DeepMind et Google ont développé un système d' intelligence artificielle qui surveille les composants individuels du centre de données. Elle a donné aux administrateurs du centre de données des recommandations sur la façon d'optimiser la consommation d'énergie des serveurs. La solution a permis de réduire les coûts énergétiques pour le fonctionnement des systèmes de refroidissement de 40% et de réduire le coefficient PUE de 15%.

Selon les opérateurs du centre de données, les indices d'algorithmes machine ont été utiles dans le travail, mais leur traitement a pris trop de temps. Par conséquent, Dan Fuenffinger (Dan Fuenffinger), l'un des ingénieurs de Google, a proposé de transférer complètement le contrôle intelligent des systèmes de climatisation. Cela aurait dû soulager les opérateurs du centre de données, car ceux-ci n'auraient qu'à affiner et contrôler l'ensemble du processus.

Au cours des deux prochaines années, la société a amélioré son système d'IA et gère désormais entièrement le refroidissement des salles de serveurs. Par exemple, l'algorithme de la machine a «deviné» qu'en hiver, l'air froid refroidit plus fortement l'eau des refroidisseurs, et en a profité pour optimiser la consommation d'énergie. Cela a réduit les coûts énergétiques de 30% supplémentaires.

Google estime que leur développement et ses analogues à l'avenir aideront les propriétaires de centres de données à réduire d'au moins la moitié des coûts des systèmes de refroidissement et à réduire les émissions de CO2 dans l'atmosphère.

Comment ça marche


Des milliers de capteurs physiques surveillent l'ensemble du système de refroidissement dans le centre de données de l'entreprise. Leurs données sont transmises à l'entrée du système d'IA déployé dans le cloud. Il s'agit d'un réseau neuronal de cinq couches cachées avec 50 neurones chacune.

Il fonctionne avec 19 paramètres différents, y compris la charge totale sur les serveurs, le nombre de pompes à eau en marche, l'humidité extérieure et même la vitesse du vent. Toutes les cinq minutes, le système lit les relevés des capteurs (cela représente environ 184 000 échantillons - 70% d'entre eux étaient nécessaires pour la formation du réseau et les 30% restants ont été utilisés pour le recoupement ) et les utilise pour optimiser la valeur PUE.

Elle construit une liste de prévisions, comment un changement particulier dans le système affectera la consommation d'énergie du centre de données et la température dans la salle des machines. Par exemple, un changement de la température du couloir «froid» peut entraîner des fluctuations de la charge sur les refroidisseurs, les échangeurs de chaleur et les pompes, ce qui entraînera des changements non linéaires de la productivité de l'équipement.

À partir de la liste compilée, les actions les plus efficaces sont sélectionnées qui réduiront la consommation d'énergie plus que d'autres et n'entraîneront pas de dysfonctionnements du centre de données. De plus, ces instructions sont renvoyées au centre de données, où le système de contrôle local vérifie à nouveau si elles répondent aux exigences de sécurité (et leur mise en œuvre n'entraînera pas de conséquences irréparables).

Étant donné qu'une partie de la responsabilité du bon fonctionnement de services tels que la recherche Google, Gmail et YouTube a été transférée aux systèmes d'IA, les développeurs ont prévu un certain nombre de mesures de protection. Parmi eux, des algorithmes de calcul de l'indicateur d'incertitude. Pour chacune des milliards d'actions possibles, le système AI évalue la fiabilité et élimine immédiatement celles pour lesquelles cet indicateur s'est avéré faible (c'est-à-dire avec une forte probabilité de défaillance).

Une autre méthode de protection était la vérification à deux niveaux. Les actions optimales calculées par les algorithmes MO sont comparées à l'ensemble des politiques de sécurité prescrites par les opérateurs du centre de données. Ce n'est que si tout est en ordre que des modifications sont apportées au fonctionnement des systèmes de climatisation.

De plus, les opérateurs sont toujours prêts à désactiver le mode «automatique» et à prendre le contrôle.

Développements similaires


Google n'est pas le seul à développer des solutions d'apprentissage automatique pour gérer les systèmes de refroidissement dans le centre de données. Par exemple, Litbit travaille sur la technologie Dac pour surveiller la puissance de calcul et la consommation d'énergie.


/ photo reynermedia CC

Pour surveiller l'état de l'équipement, Dac utilise des capteurs IoT. Le système peut «entendre» les fréquences ultrasoniques et «ressentir» les vibrations anormales du sol. En analysant ces données, Dac détermine si tous les équipements fonctionnent correctement. En cas de dysfonctionnement, le système avertit les administrateurs, génère un ticket pour le support technique et éteint même indépendamment le matériel (en cas d'urgence).

Une solution similaire est créée par Nlyte Software, qui a fait équipe avec l'équipe IBM Watson IoT. Leur système collecte des données sur la température, l'humidité, la consommation d'électricité, la charge des équipements dans le centre de données et donne des conseils aux ingénieurs sur l'optimisation des processus de travail. La solution fonctionne avec une infrastructure cloud et sur site.

L'introduction de systèmes d'IA dans les centres de données ira au-delà des solutions DCIM habituelles (produits logiciels pour la surveillance des centres de données). Parmi les experts de l'industrie informatique, certains estiment que la plupart des processus se déroulant dans le centre de données seront bientôt automatisés. En conséquence, les administrateurs des centres de données pourront se concentrer sur d'autres tâches plus importantes qui affectent la croissance et le développement des entreprises.



Contenu lié au PS du premier blog d'entreprise IaaS:

Source: https://habr.com/ru/post/fr420959/


All Articles