Vor einem Jahr
verbrauchten weltweite Rechenzentren 2% des gesamten auf dem Planeten erzeugten Stroms. Laut Analysten wird diese Zahl bis 2020 auf 5% steigen. Darüber hinaus wird etwa die Hälfte dieser Energie
für die Kühlung
aufgewendet . Diese Kosten sollen KI-Systeme reduzieren.
Heute werden wir über die neuesten Entwicklungen in diesem Bereich sprechen.
/ Foto Das Nationalarchiv (UK) CCGoogle-Projekt
Im Jahr 2016 haben DeepMind und Google
ein künstliches Intelligenzsystem
entwickelt , das die einzelnen Komponenten des Rechenzentrums überwacht. Sie gab Administratoren im Rechenzentrum Empfehlungen zur Optimierung des Stromverbrauchs von Servern. Die Lösung ermöglichte es, die Energiekosten für den Betrieb von Kühlsystemen um 40% und den
PUE- Koeffizienten um 15% zu senken.
Laut den Betreibern von Rechenzentren waren die Hinweise auf Maschinenalgorithmen bei der Arbeit nützlich, aber die Verarbeitung dauerte zu lange. Daher schlug Dan Fuenffinger (Dan Fuenffinger), einer der Ingenieure bei Google,
vor, die intelligente Steuerung von Klimaanlagen vollständig zu übertragen. Dies hätte die Betreiber des Rechenzentrums entlasten müssen, da diese nur den gesamten Prozess optimieren und steuern müssten.
In den nächsten zwei Jahren hat das Unternehmen sein KI-System verbessert und
verwaltet nun die Kühlung von Serverräumen vollständig. Beispielsweise „vermutete“ der Maschinenalgorithmus, dass kalte Luft im Winter das Wasser in den Kältemaschinen stärker abkühlt, und nutzte dies, um den Energieverbrauch zu optimieren. Dies
reduzierte die Energiekosten um weitere 30%.
Google geht davon aus, dass ihre Entwicklung und ihre Analoga in Zukunft den Eigentümern von Rechenzentren helfen werden, die Kosten für Kühlsysteme um mindestens die Hälfte zu senken und die CO2-Emissionen in die Atmosphäre zu reduzieren.
Wie funktioniert es?
Tausende physikalische Sensoren überwachen das gesamte Kühlsystem im Rechenzentrum des Unternehmens. Daten von ihnen gehen an die Eingabe des in der Cloud bereitgestellten KI-Systems. Dies ist ein neuronales Netzwerk aus fünf verborgenen Schichten mit jeweils 50 Neuronen.
Es
arbeitet mit 19 verschiedenen Parametern, einschließlich der Gesamtlast der Server, der Anzahl der laufenden Wasserpumpen, der Luftfeuchtigkeit im Freien und sogar der Windgeschwindigkeit. Alle fünf Minuten liest das System die Messwerte der Sensoren (dies sind ungefähr 184.000 Proben - 70% davon wurden für das Training des Netzwerks benötigt und die restlichen 30% wurden für die Gegenprüfung verwendet) und verwendet sie zur Optimierung des PUE-Werts.
Sie erstellt eine Liste mit Prognosen, wie sich eine bestimmte Änderung des Systems auf den Energieverbrauch des Rechenzentrums und die Temperatur im Maschinenraum auswirkt. Beispielsweise kann eine Änderung der Temperatur des „kalten“ Korridors zu Schwankungen der Belastung der Kältemaschinen, Wärmetauscher und Pumpen führen, was zu nichtlinearen Änderungen der Produktivität der Geräte führt.
Aus der zusammengestellten Liste werden die effektivsten Maßnahmen ausgewählt, die den Energieverbrauch stärker als andere senken und nicht zu Fehlfunktionen des Rechenzentrums führen. Außerdem werden diese Anweisungen an das Rechenzentrum zurückgesendet, wo das lokale Steuerungssystem erneut prüft, ob sie die Sicherheitsanforderungen erfüllen (und ihre Implementierung führt nicht zu irreparablen Konsequenzen).
Da ein Teil der Verantwortung für den reibungslosen Betrieb von Diensten wie Google Search, Google Mail und YouTube auf KI-Systeme übertragen wurde, haben die Entwickler eine Reihe von Schutzmaßnahmen vorgesehen. Darunter befinden sich Algorithmen zur Berechnung des Unsicherheitsindikators. Für jede der Milliarden möglichen Aktionen bewertet das KI-System die Zuverlässigkeit und eliminiert sofort diejenigen, für die sich dieser Indikator als niedrig herausgestellt hat (dh mit einer hohen Ausfallwahrscheinlichkeit).
Eine andere Schutzmethode war die zweistufige Überprüfung. Die von den MO-Algorithmen berechneten optimalen Aktionen werden mit den von den Rechenzentrumsbetreibern vorgeschriebenen Sicherheitsrichtlinien verglichen. Nur wenn alles in Ordnung ist, werden Änderungen am Betrieb der Klimaanlagen vorgenommen.
Darüber hinaus sind die Bediener immer bereit, den „automatischen“ Modus auszuschalten und die Kontrolle zu übernehmen.
Ähnliche Entwicklungen
Google ist nicht der einzige, der maschinelle Lernlösungen für die Verwaltung von Kühlsystemen im Rechenzentrum entwickelt. Zum Beispiel arbeitet Litbit an der Dac-Technologie, um die Rechenleistung und den Energieverbrauch zu überwachen.
/ Foto Reynermedia CCZur Überwachung des Gerätestatus
verwendet Dac IoT-Sensoren. Das System kann Ultraschallfrequenzen „hören“ und abnormale Bodenvibrationen „fühlen“. Durch die Analyse dieser Daten ermittelt Dac, ob alle Geräte ordnungsgemäß funktionieren. Im Falle einer Fehlfunktion benachrichtigt das System Administratoren, generiert ein Ticket für den technischen Support und schaltet die Hardware sogar unabhängig aus (im Notfall).
Eine ähnliche Lösung wird von Nlyte Software entwickelt, die
sich mit dem IBM Watson IoT-Team zusammengetan hat. Ihr System sammelt Daten zu Temperatur, Luftfeuchtigkeit, Stromverbrauch und Gerätelast im Rechenzentrum und gibt Ingenieuren Ratschläge zur Optimierung von Arbeitsprozessen. Die Lösung funktioniert sowohl mit der Cloud als auch mit der lokalen Infrastruktur.
Die Einführung von KI-Systemen in Rechenzentren geht über die üblichen
DCIM-Lösungen (Softwareprodukte für die Überwachung von Rechenzentren) hinaus. Experten aus der IT-Branche sind der Meinung, dass die meisten Prozesse im Rechenzentrum bald automatisiert werden. Dadurch können sich Administratoren in Rechenzentren auf andere, wichtigere Aufgaben konzentrieren, die sich auf das Wachstum und die Entwicklung von Unternehmen auswirken.
PS-bezogene Inhalte aus dem ersten Corporate IaaS-Blog: