
Pada 2019, Google akhirnya merilis peralatan TPU bermerek Coral yang dapat dibeli. Namun, jaringan cloud yang tidak begitu kuat untuk pelatihan seperti BigGAN dengan 100 petaflops / s, dan bahkan tidak seperti TPU TFlop / s v2 180 termurah, yang dapat disewa dengan harga $ 4,5 per jam. Perangkat TPU ini harus bekerja "di tepi", yaitu, memberikan kemungkinan menerapkan solusi pembelajaran mendalam untuk perangkat kecil tanpa akses ke Internet. Seberapa baik TPU itu yang bisa kita beli?
Dalam spesifikasi
produk saat ini, kecepatannya ditunjukkan sebagai 4 TOP (teraoperations per detik). Ini bukan perangkat standar yang mendukung operasi titik-mengambang 32-bit, karena
tensorflow-lite yang berjalan pada perangkat ini menggunakan aritmatika titik tetap 8-bit. Juga, Anda tidak akan menemukan di dalamnya bandwidth untuk memori, seperti pada cloud TPU atau GPU. Edge TPUs terhubung ke perangkat melalui USB 3.0 atau melalui bus mPCIe generasi ke-2, sehingga kecepatannya akan dibatasi hingga 500-640 MB / s. Tentu saja, karena hanya ada
8 MB SRAM pada perangkat seperti itu, maka tidak lebih dari 16 ms untuk mentransfer data ke atau dari perangkat, dan model yang kami uji untuk menulis artikel ini hanya memerlukan 10 ms. Anda tidak akan kekurangan memori, karena perangkat ini tidak dirancang untuk belajar dari awal. Namun, pada perangkat ini Anda dapat melatih lapisan terakhir dari model. Poin utama menggunakan TPU tepi adalah untuk membuat kesimpulan logis, dan itulah cara saya akan memeriksa kecepatan perangkat ini.
Perangkat yang paling tertutup seperti
Coral Edge TPU dirilis pada Maret 2019, dan dengan itu saya berhasil bermain-main. Ini adalah salah satu prototipe Coral, meskipun menurut dokumen itu memiliki kinerja yang persis sama dengan motherboard yang dirilis dengan mPCIe. Tidak ada masalah dengan USB 3.0, tetapi jika Anda tidak ingin bermain-main dengan dongle eksternal, Anda dapat memasukkan kartu M.2 Accelerator A + E ke dalam slot alih-alih kartu WiFi:
Kiri: kartu wifi saya di laptop. Kanan: M.2 A + E akselerator yang dihubungkan ke slot yang sama.Dan apa yang ada di dalam tepi TPU accelerator berukuran 30 mm x 65 mm dan seharga $ 75? Mungkinkah ada akselerator 30mm x 22 mm mPCIe seharga $ 35 dengan adaptor USB dan heatsink? Bisakah kita dengan lembut membuka sekotak plastik dan logam?
TPU tepi depan dan belakangKasing plastik dapat dibuka tanpa masalah, berkat radiator yang sangat kaku. Radiator itu sendiri dapat dilepas dengan membuka 4 sekrup.
Bagian belakang perangkat dengan penutup plastik dilepas, dengan dan tanpa radiator, dan radiator itu sendiriJawaban untuk pertanyaan di atas: tidak, tidak secara harfiah, tetapi papan sangat mirip:
Sisi kerja Coral Edge TPU. Di sebelah kanan adalah akselerator M2 A + E dan chip TPU terpisah pada koin satu senChip radiator mungkin TPU (lebih besar) dan memori. Setelah mengumpulkan Edge TPU kembali, saya melakukan tes kecepatan saya sendiri, meskipun
tes dari Google berbicara tentang kinerja 10 - dan bahkan 20 kali lipat lebih cepat dibandingkan dengan CPU.
Contoh dari situs Coral untuk pengenalan objek dapat dijalankan pada CPU dan TPU. Saya menghubungkan perangkat ini ke Acer Chromebook 11 saya dengan
Galium OS 2.1 , yang cukup mirip dengan Debian untuk menginstal tf-lite dan program untuk bekerja dengan TPU tanpa masalah. Model MobileNetV2 SSDLite untuk pengenalan objek membutuhkan waktu kurang dari 7 MB dan bekerja dengan 300x300 gambar. Pada TPU, satu gambar diproses dalam 20 ms (+10 ms untuk penyalinan gambar satu kali). Di laptop saya dengan CPU Intel Celeron 2.16GHz pada tahun 2014, gambar diproses dalam 1500 ms. Pada PC lain, dengan prosesor Intel Xeon 2,5 GHz CPU (yang 15 kali lebih cepat dari milik saya menurut cpubenchmark.net), gambar diproses dalam 130 ms (dengan konsumsi 210 W!). Menurut cpubenchmark.net, CPU tercepat yang tersedia akan 3 kali lebih cepat dari ini: dan itu masih akan lebih lambat daripada TPU tepi, yang, apalagi, jauh lebih murah dan lebih sedikit mengkonsumsi!
Proyek yang lebih menarik adalah pengenalan objek dalam aliran video dari kamera laptop saya. Pada prosesor Celeron,
contoh yang dipilih berhasil memproses kurang dari satu frame per detik. Pada TPU, ia memproses 20 frame per detik - artinya, ia bekerja secara real time. Dan hanya seperempat dari waktu yang dihabiskan untuk berkomunikasi dengan TPU, sisanya mengubah ukuran gambar dan menampilkan data akhir yang berurusan dengan CPU. Meskipun saya menginstal program untuk TPU untuk beroperasi pada frekuensi maksimum, saya tidak mendekati batasnya, sehingga heatsink TPU tidak memanas ke suhu yang tidak nyaman.
Contoh-contoh yang diberikan cukup mudah untuk diubah dan disesuaikan. Untuk mulai bekerja dengan perangkat, Anda hanya perlu menginstal lingkungan kerja TPU
melalui apt-get , lalu instal tf-lite melalui pip - dan Anda siap bekerja dengan contoh. Model dalam contoh ini sudah dikompilasi sebelumnya. Untuk tes kecepatan yang lebih masuk akal, Anda perlu melatih model dari awal, menjalankannya pada GPU dan CPU, mengubahnya menjadi tf-lite, dan menjalankannya pada CPU dan TPU.
Secara umum, saya senang dengan perangkat ini. Tampaknya mengejutkan bagi saya bahwa jaringan yang mengenali objek dalam gambar 300x300 bekerja pada netbook 2014 secara real time, dengan peningkatan hanya seharga $ 75 (atau bahkan $ 35 jika Anda menggunakan papan M.2). Tentu saja, TPU regional tidak akan menggantikan GPU untuk pelatihan dan bahkan untuk mengevaluasi model. Namun, saya melihat potensi besar di
papan , di mana satu TOPs berharga $ 10 dan mengkonsumsi 0,5 watt. Paling tidak 10 kali lebih murah daripada bekerja dengan GPU! Dan jauh lebih sedikit energi intensif. Ini adalah pilihan bagus untuk menunjukkan pekerjaan di suatu tempat di ladang. Jika tugas yang Anda minati ditunjukkan pada
label di situs web produk, maka chip ini akan berguna jika konsumsi daya yang rendah dan ukuran sistem yang kecil adalah prioritas Anda.