📟 🚯 🧖🏽 Optimalisasi Arsitektur Kecerdasan Buatan: Perlombaan Dimulai 🛕 🐬 👨🏾‍⚖️

Seiring dengan meningkatnya arsitektur AI dan turunnya biaya, para ahli mengatakan bahwa semakin banyak perusahaan akan menguasai teknologi ini, yang akan memberikan dorongan untuk inovasi dan membawa dividen besar bagi perusahaan dan pengembang AI.

Aplikasi AI sering bekerja berdasarkan arsitektur yang sama sekali berbeda dari aplikasi perusahaan tradisional. Pada gilirannya, pemasok bersedia melakukan banyak hal untuk menyediakan komponen baru yang tumbuh dalam permintaan.

"Industri komputasi sedang mengalami perubahan besar - minat perusahaan dalam AI memberikan dorongan untuk inovasi yang akan membantu untuk menguasai dan menyebarkan AI pada skala apa pun," kata Keith Strier, pakar AI, konsultan di EY. Investor menginvestasikan banyak uang pada startup yang mengoptimalkan AI, dan produsen besar mulai menawarkan tidak hanya chip dan penyimpanan, tetapi juga layanan jaringan dan cloud yang diperlukan untuk penyebaran. "

.
Menurutnya, sekarang tugas utama direktur TI adalah memilih arsitektur kecerdasan buatan yang sesuai untuk kebutuhan perusahaan.

Streer mengatakan bahwa karena AI adalah matematika pada skala yang belum pernah terjadi sebelumnya, implementasi teknologi ini membutuhkan kondisi teknis dan alat keamanan yang sangat berbeda daripada beban kerja perusahaan yang sudah umum. Untuk memanfaatkan sepenuhnya AI, pemasok perlu menyediakan infrastruktur teknis, cloud, dan layanan lain yang diperlukan untuk AI, yang tanpanya kalkulasi rumit seperti itu mustahil dilakukan.

Tetapi kita sudah berada di jalan menuju hal ini, dan di masa depan akan ada arsitektur kecerdasan buatan yang lebih maju. Streer percaya bahwa menyediakan fleksibilitas, kekuatan, dan kecepatan arsitektur komputasi tidak hanya akan menjadi perusahaan kecil untuk pengembangan komputasi berkinerja tinggi, tetapi juga perwakilan lain dari industri komputasi berkinerja tinggi, termasuk startup untuk menciptakan microchip dan layanan cloud yang berupaya menetapkan standar tinggi untuk AI- komputasi.

Semakin banyak spesialis dan pengembang di bidang AI muncul, teknologi ini akan menjadi lebih mudah diakses, yang akan memberikan dorongan yang baik untuk inovasi dan membawa dividen yang nyata - bagi perusahaan dan pemasok.

Sementara itu, direktur TI harus membiasakan diri dengan kesulitan yang terkait dengan menciptakan arsitektur kecerdasan buatan untuk penggunaan perusahaan agar siap untuk menyelesaikannya.

Pengembangan chip

Kondisi yang paling penting untuk transisi dari arsitektur komputasi tradisional ke AI adalah pengembangan prosesor grafis, sirkuit terintegrasi logika yang dapat diprogram (FPGA) dan chip AI khusus. Proliferasi arsitektur berdasarkan GPU dan FPGA akan membantu meningkatkan produktivitas dan fleksibilitas sistem komputasi dan penyimpanan, yang akan memungkinkan penyedia solusi untuk menawarkan berbagai layanan canggih untuk AI dan aplikasi pembelajaran mesin.

"Ini adalah arsitektur chip yang merilis banyak fitur canggih dari beban [seperti pelatihan AI] dan membantu menerapkan tumpukan yang ditingkatkan untuk komputasi dan penyimpanan yang memberikan kinerja dan efisiensi yang tak tertandingi," kata Surya Varanasi, pendiri dan CTO dari Vexata Inc., penyedia solusi manajemen data.

Tetapi sementara sirkuit mikro baru tidak mampu sesuatu yang lebih kompleks. Untuk memilih arsitektur optimal untuk beban kerja AI, perlu untuk melakukan perhitungan skala besar yang membutuhkan throughput tinggi dan tidak dapat dilakukan tanpa penundaan. Kunci sukses di sini adalah jaringan berkecepatan tinggi. Tetapi banyak algoritma AI harus menunggu sampai set data berikutnya diketik, jadi Anda tidak boleh lupa akan keterlambatan tersebut.

Selain itu, ketika melintasi batas server atau mentransfer dari server ke penyimpanan, data melewati beberapa protokol. Untuk menyederhanakan proses ini, para ahli data dapat mencoba mencari data secara lokal sehingga satu server dapat memproses potongan data yang besar tanpa menunggu yang lain. Integrasi yang ditingkatkan antara GPU dan penyimpanan juga membantu menghemat uang. Vendor lain mencari cara untuk menyederhanakan desain server AI untuk memastikan kompatibilitas sehingga server yang sama dapat digunakan untuk beban kerja yang berbeda.

Memori non-volatile untuk memproses beban kerja AI

Inti dari banyak solusi berbasis GPU adalah drive terpasang langsung (DAS), yang sangat mempersulit pembelajaran terdistribusi dan pembentukan kesimpulan logis untuk AI. Akibatnya, memasang dan mengelola jalur data ini untuk pembelajaran yang mendalam menjadi tugas yang kompleks dan memakan waktu.

Untuk mengatasi masalah ini, non-volatile memory (NVM) cocok, yang pada awalnya dirancang untuk menyediakan konektivitas berkualitas tinggi antara solid-state drive (SSD) dan server perusahaan tradisional. Sekarang jenis memori ini sering dimasukkan dalam matriks I / O untuk mengoptimalkan beban kerja AI.

Intinya adalah bahwa NVMe over Fabrics (NVMeF) - yang disebut antarmuka ini - akan membantu mengurangi biaya konversi antara protokol jaringan dan mengontrol karakteristik masing-masing jenis SSD. Ini akan memungkinkan CIO untuk membenarkan biaya aplikasi AI yang menggunakan set data besar.

Antarmuka NVMeF memiliki risiko, termasuk kebutuhan akan biaya tinggi untuk teknologi canggih. Selain itu, masih ada ketergantungan pada vendor NVMeF di industri ini, sehingga direktur TI harus mencoba untuk menghindari hubungan spesifik vendor saat memilih suatu produk.
Tetapi menerapkan NVMeF akan memungkinkan Anda untuk mengambil langkah lain ke arah mengoptimalkan arsitektur korporat kecerdasan buatan, Varanasi percaya.

“Terlepas dari kenyataan bahwa perluasan NVMe atas arsitektur Fabrics pada skala industri dapat memakan waktu satu atau setengah tahun lagi, kami sudah memiliki komponen utama, dan para pelopor sudah melaporkan hasil yang menjanjikan,” kata Varanasi.

CIO yang berminat mengembangkan aplikasi AI dapat mencoba membuat kumpulan penyimpanan bersama yang dioptimalkan untuk AI untuk NVMeF jika berhasil mengganti jaringan penyimpanan yang ada dalam jangka pendek. Tetapi jika Anda menunggu sampai NVMeF kompatibel kompatibel, Anda bisa kehilangan banyak.

Kurangi pergerakan data

Saat merencanakan berbagai tahap penyebaran AI, Anda perlu memberi perhatian khusus pada biaya pemindahan data. Proyek AI, termasuk yang memproses dan mengubah data, serta untuk algoritma pelatihan, membutuhkan data dalam jumlah besar.

Perangkat keras dan sumber daya manusia yang dibutuhkan untuk menyelesaikan tugas-tugas ini, serta waktu yang diperlukan untuk memindahkan data itu sendiri, dapat membuat proyek AI terlalu mahal. Jika CIO berhasil menghindari pemindahan data antar tahap, ada kemungkinan bahwa mereka akan mampu mengembangkan infrastruktur AI yang layak yang memenuhi kebutuhan ini, kata Haris Pozidis, Ph.D., manajer, spesialis teknologi akselerasi penyimpanan di IBM Research. Produsen sudah mengatasi masalah ini.

Sebagai contoh, IBM sedang bereksperimen dengan berbagai opsi optimasi perangkat keras dan perangkat lunak untuk mengurangi pergerakan data untuk aplikasi AI skala besar di laboratorium di Zurich. Optimalisasi semacam itu telah membantu 46 kali meningkatkan kinerja skrip uji alat analisis klik populer. Pozidis mengatakan bahwa pembelajaran terdistribusi dan akselerasi GPU adalah inti dari pekerjaan ini, yang meningkatkan dukungan untuk struktur data yang jarang.

Concurrency adalah komponen penting lainnya dalam mempercepat beban kerja AI. Untuk pelatihan terdistribusi, perlu untuk membuat perubahan pada tingkat perangkat keras dan perangkat lunak, yang akan meningkatkan efisiensi pemrosesan algoritma prosesor grafik paralel. Peneliti IBM telah menciptakan platform prototipe dengan paralelisme data, yang memungkinkan Anda untuk mengukur dan mempelajari sejumlah besar data yang melebihi jumlah memori pada satu mesin. Ini sangat penting untuk aplikasi skala besar. Platform baru yang dioptimalkan untuk pembelajaran komunikasi dan menyediakan lokalitas data telah membantu mengurangi pergerakan data.

Pada tingkat perangkat keras, peneliti IBM menggunakan NVMeF untuk meningkatkan interkonektivitas komponen GPU, CPU, dan memori pada server, serta antara server dan penyimpanan.

“Kinerja berbagai beban kerja AI dapat dibatasi oleh hambatan jaringan, bandwidth memori, dan bandwidth antara CPU dan GPU. Tetapi jika Anda menerapkan algoritma dan protokol koneksi yang lebih efisien di semua bagian sistem, Anda dapat mengambil langkah besar menuju pengembangan aplikasi AI yang lebih cepat, ”kata Pozidis.

Compound Computing

Saat ini, sebagian besar beban kerja menggunakan database yang telah dikonfigurasi sebelumnya yang dioptimalkan untuk arsitektur perangkat keras tertentu.

Chad Miley, wakil presiden produk dan solusi analitik di Teradata, mengatakan pasar bergerak menuju perangkat keras yang digerakkan oleh perangkat lunak, yang akan memungkinkan organisasi untuk secara cerdas mendistribusikan pemrosesan di seluruh GPU dan CPU tergantung pada tugas saat ini.

Kesulitannya terletak pada kenyataan bahwa perusahaan menggunakan mesin komputasi yang berbeda untuk mengakses opsi penyimpanan yang berbeda. Perusahaan besar lebih suka menyimpan data berharga yang memerlukan akses reguler, misalnya informasi tentang pelanggan, keuangan, rantai pasokan, produk, dan komponen lainnya, menggunakan lingkungan input-output berkinerja tinggi. Pada gilirannya, set data yang jarang digunakan, seperti pembacaan sensor, konten web dan multimedia, disimpan dalam penyimpanan cloud berbiaya rendah.

Salah satu tujuan dari komputasi komposit adalah menggunakan wadah untuk mengoptimalkan kinerja mesin virtual seperti mesin SQL, mesin grafik, pembelajaran mesin, dan mesin pembelajaran mendalam yang mengakses data yang didistribusikan di berbagai repositori. Penyebaran beberapa mesin komputasi analitis memungkinkan penggunaan model multiprosesor yang menggunakan data dari mesin yang berbeda dan, sebagai aturan, membawa hasil yang lebih baik.

Vendor TI seperti Dell Technologies, Hewlett Packard Enterprise, dan Liquid secara bertahap menjauh dari arsitektur tradisional yang menetapkan beban kerja pada tingkat komputasi. Sebaliknya, mereka berusaha untuk menetapkan beban kerja AI ke seluruh sistem yang terdiri dari unit pemrosesan pusat, GPU, memori dan perangkat penyimpanan. Untuk transisi seperti itu, perlu untuk menguasai komponen jaringan baru, yang meningkatkan kecepatan dan mengurangi penundaan saat menghubungkan berbagai komponen sistem.

Misalnya, banyak pusat data cloud menggunakan Ethernet untuk menghubungkan komponen komputasi dan penyimpanan, di mana penundaannya sekitar 15 mikrodetik. Jaringan komputer switched berkecepatan tinggi InfiniBand, yang digunakan di banyak infrastruktur konvergen, dapat mengurangi latensi hingga 1,5 mikrodetik. Liquid telah menciptakan seperangkat alat untuk menghubungkan node yang berbeda menggunakan PCI Express (PCIE), yang mengurangi penundaan hingga 150 nanodetik.

Selain itu, beberapa ahli menyarankan untuk menambah jumlah memori untuk GPU yang digunakan untuk menangani beban besar dengan koneksi cepat. Misalnya, DDR4 sering digunakan bersama dengan RAM, yang mengurangi penundaan hingga 14 nanodetik. Tapi ini hanya berfungsi untuk segmen kecil beberapa inci.

Little Marrek, pendiri dan pengembang layanan manajemen AI ClusterOne, percaya bahwa lebih banyak pekerjaan diperlukan untuk memastikan kompatibilitas beban kerja AI dalam lingkungan perangkat lunak. Terlepas dari kenyataan bahwa beberapa perusahaan sudah berusaha memastikan kompatibilitas dengan Docker dan Kubernetes, masih terlalu dini untuk menerapkan pendekatan yang sama pada GPU.

"Secara umum, menjalankan beban kerja GPU dan memonitornya tidak mudah," kata Marrek. "Tidak ada solusi universal yang akan memungkinkan pemantauan semua sistem."

Penyimpanan dan GPU

Pendekatan lain adalah dengan menggunakan prosesor grafis untuk melakukan pra-proses data untuk mengurangi jumlah yang dibutuhkan untuk jenis analisis tertentu, dan membantu mengatur data dan memberikan label kepada mereka. Ini akan memungkinkan Anda untuk menyiapkan kumpulan data yang sesuai untuk beberapa GPU yang terlibat dalam pemrosesan, sehingga algoritme dapat bekerja dari bagian dalam memori alih-alih mentransfer data dari penyimpanan melalui jaringan lambat.

"Kami menganggap penyimpanan, komputasi, dan memori sebagai komponen terpisah dari solusi, yang telah berkembang secara historis, dan oleh karena itu mencoba meningkatkan volume pemrosesan," kata Alex St. John, CTO dan pendiri Nyriad Ltd., sebuah perusahaan perangkat lunak penyimpanan yang muncul di hasil penelitian untuk teleskop radio terbesar di dunia - sebuah teleskop dengan antena array kilometer persegi (SKA).

Semakin besar jumlah data, semakin sulit untuk memindahkannya ke suatu tempat untuk diproses.

Teleskop SKA membutuhkan daya yang besar untuk memproses data sinyal radio real-time 160 TB, yang merupakan hambatan utama bagi para peneliti. Akibatnya, mereka memutuskan untuk meninggalkan penyimpanan RAID yang paling sering digunakan di pusat data dan menggunakan sistem file cluster paralel, seperti BeeGFS, yang menyederhanakan persiapan data untuk beban kerja AI.

Direktur TI yang bekerja pada strategi optimal untuk arsitektur kecerdasan buatan harus memberi perhatian khusus pada kegunaan. Jika pengembang, spesialis data, dan tim pengembangan dan operasi integrasi dapat dengan cepat menguasai teknologi baru, mereka dapat menginvestasikan waktu dan energi mereka untuk menciptakan logika bisnis yang sukses alih-alih menyelesaikan masalah penyebaran dan jalur data.

Selain itu, organisasi perlu mempertimbangkan dengan cermat berapa banyak upaya dan waktu yang diperlukan untuk membangun arsitektur AI baru ke dalam ekosistem yang ada.

“Sebelum menerapkan infrastruktur baru dan merencanakan beban kerja yang besar, CIO perlu mengevaluasi berapa banyak sumber daya yang dapat habis dibutuhkan,” kata Asaf Someh, pendiri dan CEO Iguazio.

Optimalisasi Arsitektur Kecerdasan Buatan: Perlombaan Dimulai

Pengembangan chip

Memori non-volatile untuk memproses beban kerja AI

Kurangi pergerakan data

Compound Computing

Penyimpanan dan GPU

More articles: