Chips untuk ML - bicarakan produk baru

Kita berbicara tentang arsitektur baru dari pabrikan dan startup besar dunia - chip wafers, prosesor tensor dan perangkat berbasis grafik.

Temukan topik:



Foto - Jason Leung - Unsplash

Waferscale untuk pembelajaran yang mendalam


Dalam produksi prosesor klasik, substrat silikon dibagi menjadi beberapa kristal. Tetapi dalam kasus prosesor waferscale, wafer semikonduktor tidak dibagi - itu menjadi chip besar. Akibatnya, komponen lebih dekat satu sama lain, dan kinerja sistem meningkat.

Pendekatan ini diambil oleh para insinyur dari Cerebras Systems dan TSMC, mengembangkan sebuah chip untuk pembelajaran mendalam - Cerebras WSE . Itu ditunjukkan pada konferensi Hot Chips di akhir musim panas. Perangkat ini adalah kristal persegi dengan sisi 21,5 cm, terdiri dari 1,2 triliun transistor, dikombinasikan dalam 400 ribu core. Core ini “berkomunikasi” satu sama lain menggunakan sistem Swarm berpemilik dengan bandwidth 100 Pbit / s.

Pengembang mengatakan bahwa chip mengoptimalkan perhitungan dengan menyaring nol data dalam operasi matriks - mereka membuat dari 50 hingga 98% dari semua nilai. Akibatnya, mempelajari model pada Cerebras seratus kali lebih cepat daripada pada GPU klasik. Namun, NYTimes bereaksi terhadap pernyataan seperti itu dengan skeptisisme yang sehat - para ahli independen belum menguji perangkat kerasnya.

Inti komputasi serebra dapat diprogram. Mereka dapat dioptimalkan untuk bekerja dengan jaringan saraf apa pun. Diharapkan bahwa chip baru akan menemukan aplikasi dalam sistem cloud dan aplikasi pembelajaran mesin: dari drone ke asisten suara. Belum diketahui kapan chip akan dijual, tetapi sejumlah perusahaan sudah mengujinya pada beban kerja.

Silicon Interconnect Fabric (Si-IF) adalah perangkat wafer skala lain untuk aplikasi MO. Ini sedang dikembangkan di laboratorium Universitas California. Si-IF adalah perangkat yang menggabungkan lusinan GPU pada satu wafer silikon. Para pengembang telah memperkenalkan dua prototipe untuk 24 dan 40 GPU. Performa mereka 2,5 kali lebih tinggi dari kemampuan perangkat klasik. Mereka berencana untuk menggunakan sistem di pusat data.

Prosesor tensor


Pada Mei 2018, Google mengumumkan TPU v3 , generasi ketiga dari prosesor tensornya untuk bekerja dengan perpustakaan pembelajaran mesin TensorFlow . Sedikit yang diketahui tentang karakteristik teknis perangkat baru. Versi produksi akan diproduksi menggunakan teknologi proses 12 atau 16-nm. Kekuatan desain termal - 200 watt, kinerja - 105 TFLOPS saat bekerja dengan bfloat 16. Ini adalah sistem representasi titik mengambang 16-bit yang digunakan dalam pembelajaran mendalam.

Pada sejumlah tugas, kinerja Google TPU generasi kedua melebihi kemampuan NVIDIA Tesla V100 lima kali lipat. Para insinyur mengatakan bahwa generasi ketiga delapan kali lebih kuat dari pendahulunya. Kami bahkan harus menginstal cairan pendingin pada chip.


Foto - Cineca - CC BY

Korporasi berencana untuk mentransfer sejumlah sistemnya ke prosesor tensor baru: asisten suara, layanan pemrosesan foto dan algoritma peringkat pencarian peringkat RankBrain. Perusahaan juga ingin membangun superkomputer scalable berbasis cloud berdasarkan TPU dan membuka akses mereka untuk para ilmuwan yang terlibat dalam studi sistem AI. Pada akhir musim semi, layanan diluncurkan dalam mode beta.

Chip bekerja dengan grafik yang kompleks


Startup British Graphcore telah mengembangkan sebuah chip untuk tugas-tugas pembelajaran yang mendalam - Colossus IPU (Unit Pemrosesan Intelijen). Ini berisi 1200 core dan satu set fungsi transendental khusus. Setiap inti memproses enam utas. Besi dipasangkan dengan perangkat lunak Poplar. Ini mengkompilasi model dan dibangun berdasarkan grafik algoritmik multi-tahap kompleks mereka yang berjalan pada prosesor IPU. Pengujian sampel Graphcore pertama menunjukkan bahwa mereka memiliki kinerja seratus kali lebih banyak daripada GPU tradisional.

Startup sudah mengirimkan kartu PCI-E berukuran penuh untuk server. Ini memiliki dalam komposisi dua chip IPU, dibuat sesuai dengan teknologi proses 16 nm dan terdiri dari 24 miliar transistor. Kekuatan komputasi perangkat semacam itu adalah 125 TFLOPS. Kartu dirancang untuk bekerja di pusat data penyedia IaaS dan mobil dengan autopilot. Para pendiri startup mengatakan bahwa lebih dari seratus pelanggan bekerja dengan perangkat mereka, tetapi mereka tidak menyebutkan nama perusahaan tertentu.

Persaingan di bidang perangkat keras untuk pembelajaran mesin menjadi semakin serius. Para pemain baru memasuki pasar, menawarkan arsitektur inovatif, dan perusahaan-perusahaan terkemuka terus meningkatkan kapasitas solusi yang ada. Bagaimanapun, ini berperan ke tangan pemilik pusat data, insinyur ilmu data dan spesialis lainnya yang mengembangkan sistem kecerdasan buatan.


Program afiliasi 1cloud.ru . Pengguna cloud kami dapat memperoleh penghasilan dan mengurangi biaya menyewa infrastruktur virtual.

Misalnya, kami menawarkan layanan Cloud Pribadi . Dengan bantuannya, Anda dapat menggunakan infrastruktur TI untuk proyek dengan kompleksitas apa pun.

Source: https://habr.com/ru/post/id472230/


All Articles