Sistem AI mengoptimalkan pendinginan pusat data

Setahun yang lalu, pusat data dunia mengkonsumsi 2% dari seluruh listrik yang dihasilkan di planet ini. Menurut analis, angka ini akan tumbuh hingga 5% pada tahun 2020. Selain itu, sekitar setengah dari seluruh energi ini dihabiskan untuk pendinginan. Biaya ini dirancang untuk mengurangi sistem AI.

Hari ini kita akan berbicara tentang perkembangan terbaru di bidang ini.


/ foto Arsip Nasional (Inggris) CC

Proyek Google


Pada 2016, DeepMind dan Google mengembangkan sistem kecerdasan buatan yang memonitor komponen individu dari pusat data. Dia memberi administrator di rekomendasi pusat data tentang cara mengoptimalkan konsumsi daya server. Solusi ini memungkinkan untuk mengurangi biaya energi untuk pengoperasian sistem pendingin sebesar 40% dan mengurangi koefisien PUE sebesar 15%.

Menurut operator pusat data, petunjuk tentang algoritma mesin berguna dalam pekerjaan, tetapi butuh terlalu banyak waktu untuk memprosesnya. Oleh karena itu, Dan Fuenffinger (Dan Fuenffinger), salah satu insinyur di Google, mengusulkan untuk sepenuhnya mentransfer kontrol cerdas sistem pendingin udara. Ini seharusnya membebaskan operator dari pusat data, karena mereka hanya perlu menyetel dan mengontrol seluruh proses.

Selama dua tahun ke depan, perusahaan meningkatkan sistem AI-nya, dan sekarang sepenuhnya mengelola pendinginan ruang server. Sebagai contoh, algoritma mesin β€œmenebak” bahwa di musim dingin, udara dingin mendinginkan air di pendingin lebih kuat, dan memanfaatkan ini untuk mengoptimalkan konsumsi energi. Ini mengurangi biaya energi hingga 30%.

Google percaya bahwa pengembangan mereka dan analognya di masa depan akan membantu pemilik pusat data untuk mengurangi biaya sistem pendingin setidaknya setengah dan mengurangi emisi CO2 ke atmosfer.

Bagaimana cara kerjanya


Ribuan sensor fisik memantau seluruh sistem pendingin di pusat data perusahaan. Data dari mereka masuk ke input sistem AI yang digunakan di cloud. Ini adalah jaringan saraf lima lapisan tersembunyi dengan masing-masing 50 neuron.

Ia bekerja dengan 19 parameter berbeda, termasuk beban total pada server, jumlah pompa air yang mengalir, kelembaban luar ruangan dan bahkan kecepatan angin. Setiap lima menit, sistem membaca pembacaan sensor (ini sekitar 184 ribu sampel - 70% dari mereka diperlukan untuk melatih jaringan, dan 30% sisanya digunakan untuk pengecekan silang ) dan menggunakannya untuk mengoptimalkan nilai PUE.

Dia membuat daftar perkiraan, bagaimana perubahan tertentu dalam sistem akan mempengaruhi konsumsi energi pusat data dan suhu di ruang mesin. Misalnya, perubahan suhu koridor "dingin" dapat menyebabkan fluktuasi beban pada pendingin, penukar panas, dan pompa, yang, sebagai akibatnya, akan menyebabkan perubahan non-linear dalam produktivitas peralatan.

Dari daftar yang disusun, tindakan paling efektif dipilih yang akan mengurangi konsumsi energi lebih banyak daripada yang lain dan tidak akan menyebabkan kegagalan fungsi pusat data. Selanjutnya, instruksi ini dikirim kembali ke pusat data, di mana sistem kontrol lokal sekali lagi memeriksa apakah mereka memenuhi persyaratan keamanan (dan implementasinya tidak akan menyebabkan konsekuensi yang tidak dapat diperbaiki).

Karena beberapa tanggung jawab untuk kelancaran operasi layanan seperti Google Search, Gmail dan YouTube dipindahkan ke sistem AI, pengembang menyediakan sejumlah langkah perlindungan. Diantaranya adalah algoritma untuk menghitung indikator ketidakpastian. Untuk setiap miliaran tindakan yang mungkin dilakukan, sistem AI menilai keandalan dan segera menghilangkan hal-hal yang indikatornya ternyata rendah (yaitu, dengan probabilitas kegagalan yang tinggi).

Metode perlindungan lain adalah verifikasi dua tingkat. Tindakan optimal yang dihitung oleh algoritma MO dibandingkan dengan seperangkat kebijakan keamanan yang ditentukan oleh operator pusat data. Hanya jika semuanya beres, perubahan dilakukan pada pengoperasian sistem pendingin udara.

Selain itu, operator selalu siap untuk mematikan mode "otomatis" dan mengambil kendali.

Perkembangan serupa


Google bukan satu-satunya yang mengembangkan solusi pembelajaran mesin untuk mengelola sistem pendingin di pusat data. Sebagai contoh, Litbit bekerja pada teknologi Dac untuk memantau daya komputasi dan konsumsi energi.


/ foto reynermedia CC

Untuk memantau status peralatan, Dac menggunakan sensor IoT. Sistem ini dapat "mendengar" frekuensi ultrasonik dan "merasakan" getaran lantai yang tidak normal. Dengan menganalisis data ini, Dac menentukan apakah semua peralatan beroperasi dengan benar. Jika terjadi kerusakan, sistem memberi tahu administrator, menghasilkan tiket untuk dukungan teknis, dan bahkan secara mandiri mematikan perangkat keras (dalam keadaan darurat).

Solusi serupa dibuat oleh Nlyte Software, yang bekerja sama dengan tim IBM Watson IoT. Sistem mereka mengumpulkan data tentang suhu, kelembaban, konsumsi listrik, beban peralatan di pusat data dan memberikan saran insinyur tentang mengoptimalkan proses kerja. Solusi ini bekerja dengan infrastruktur cloud dan on-premise.

Pengenalan sistem AI di pusat data akan melampaui solusi DCIM biasa (produk perangkat lunak untuk pemantauan pusat data). Di antara para ahli di industri TI, ada pendapat bahwa segera sebagian besar proses yang terjadi di pusat data akan otomatis. Akibatnya, administrator di pusat data akan dapat berkonsentrasi pada tugas lain yang lebih penting yang mempengaruhi pertumbuhan dan perkembangan perusahaan.



Konten Terkait PS dari Blog IaaS Perusahaan Pertama:

Source: https://habr.com/ru/post/id420959/


All Articles