Kita berbicara tentang arsitektur baru dari pabrikan dan startup besar dunia - chip wafers, prosesor tensor dan perangkat berbasis grafik.
Temukan topik:
Foto - Jason Leung - UnsplashWaferscale untuk pembelajaran yang mendalam
Dalam produksi prosesor klasik, substrat silikon
dibagi menjadi beberapa kristal. Tetapi dalam kasus prosesor waferscale, wafer semikonduktor tidak dibagi - itu menjadi chip besar. Akibatnya, komponen lebih dekat satu sama lain, dan kinerja sistem meningkat.
Pendekatan ini diambil oleh para insinyur dari Cerebras Systems dan TSMC, mengembangkan sebuah chip untuk pembelajaran mendalam -
Cerebras WSE . Itu
ditunjukkan pada konferensi Hot Chips di akhir musim panas. Perangkat
ini adalah kristal persegi dengan sisi 21,5 cm, terdiri dari 1,2 triliun transistor, dikombinasikan dalam 400 ribu core. Core ini “berkomunikasi” satu sama lain menggunakan sistem Swarm berpemilik dengan bandwidth 100 Pbit / s.
Pengembang mengatakan bahwa chip
mengoptimalkan perhitungan dengan menyaring nol data dalam operasi matriks - mereka membuat dari 50 hingga 98% dari semua nilai. Akibatnya, mempelajari model pada Cerebras seratus kali lebih cepat daripada pada GPU klasik. Namun, NYTimes
bereaksi terhadap pernyataan seperti itu dengan skeptisisme yang sehat - para ahli independen belum menguji perangkat kerasnya.
Inti komputasi serebra dapat diprogram. Mereka dapat dioptimalkan untuk bekerja dengan jaringan saraf apa pun. Diharapkan bahwa chip baru akan menemukan aplikasi dalam sistem cloud dan aplikasi pembelajaran mesin: dari drone ke asisten suara. Belum diketahui kapan chip akan dijual, tetapi sejumlah perusahaan sudah mengujinya pada beban kerja.
Silicon Interconnect Fabric (Si-IF) adalah perangkat wafer skala lain untuk aplikasi MO. Ini
sedang dikembangkan di laboratorium Universitas California. Si-IF adalah perangkat yang menggabungkan lusinan GPU pada satu wafer silikon. Para pengembang telah memperkenalkan dua prototipe untuk 24 dan 40 GPU. Performa mereka 2,5 kali lebih tinggi dari kemampuan perangkat klasik. Mereka berencana untuk menggunakan sistem di pusat data.
Prosesor tensor
Pada Mei 2018, Google mengumumkan
TPU v3 , generasi ketiga dari prosesor
tensornya untuk bekerja dengan
perpustakaan pembelajaran mesin
TensorFlow . Sedikit yang
diketahui tentang karakteristik teknis perangkat baru. Versi produksi akan
diproduksi menggunakan teknologi proses 12 atau 16-nm. Kekuatan desain termal - 200 watt, kinerja - 105 TFLOPS saat bekerja dengan bfloat 16. Ini adalah sistem representasi titik mengambang 16-bit yang digunakan dalam pembelajaran mendalam.
Pada sejumlah tugas, kinerja Google TPU generasi kedua
melebihi kemampuan NVIDIA Tesla V100 lima kali lipat. Para insinyur mengatakan bahwa generasi ketiga delapan kali lebih kuat dari pendahulunya. Kami bahkan
harus menginstal cairan pendingin pada chip.
Foto - Cineca - CC BYKorporasi berencana untuk mentransfer sejumlah sistemnya ke prosesor tensor baru: asisten suara, layanan pemrosesan foto dan algoritma peringkat pencarian peringkat RankBrain. Perusahaan juga ingin membangun superkomputer scalable berbasis cloud berdasarkan TPU dan membuka akses mereka untuk para ilmuwan yang terlibat dalam studi sistem AI. Pada akhir musim semi, layanan
diluncurkan dalam mode beta.
Chip bekerja dengan grafik yang kompleks
Startup British Graphcore telah mengembangkan sebuah chip untuk tugas-tugas pembelajaran yang mendalam -
Colossus IPU (Unit Pemrosesan Intelijen). Ini berisi 1200 core dan satu set
fungsi transendental khusus. Setiap inti memproses enam utas. Besi dipasangkan dengan perangkat lunak Poplar. Ini mengkompilasi model dan dibangun berdasarkan grafik algoritmik multi-tahap kompleks mereka yang berjalan pada prosesor IPU. Pengujian sampel Graphcore pertama menunjukkan bahwa mereka memiliki kinerja seratus kali lebih banyak daripada GPU tradisional.
Startup
sudah mengirimkan kartu PCI-E berukuran penuh untuk server. Ini memiliki dalam komposisi dua chip IPU, dibuat sesuai dengan teknologi proses 16 nm dan terdiri dari 24 miliar transistor. Kekuatan komputasi perangkat semacam itu adalah 125 TFLOPS. Kartu dirancang untuk bekerja di pusat data penyedia IaaS dan mobil dengan autopilot. Para pendiri startup
mengatakan bahwa lebih dari seratus pelanggan bekerja dengan perangkat mereka, tetapi mereka tidak menyebutkan nama perusahaan tertentu.
Persaingan di bidang perangkat keras untuk pembelajaran mesin menjadi semakin serius. Para pemain baru memasuki pasar, menawarkan arsitektur inovatif, dan perusahaan-perusahaan terkemuka terus meningkatkan kapasitas solusi yang ada. Bagaimanapun, ini berperan ke tangan pemilik pusat data, insinyur ilmu data dan spesialis lainnya yang mengembangkan sistem kecerdasan buatan.
Program afiliasi 1cloud.ru . Pengguna cloud kami dapat memperoleh penghasilan dan mengurangi biaya menyewa infrastruktur virtual.

Misalnya, kami menawarkan layanan
Cloud Pribadi . Dengan bantuannya, Anda dapat menggunakan infrastruktur TI untuk proyek dengan kompleksitas apa pun.