Contenu du TPU Google Coral Edge: tests de vitesse et d'analyse de l'appareil



En 2019, Google a finalement publié un équipement TPU de marque Coral qui peut être acheté. Cependant, ils ne sont pas des réseaux cloud aussi puissants pour la formation tels que BigGAN avec leurs 100 pétaflops / s, et même pas comme les TPU v2 à 180 TFlop / s les moins chers, qui peuvent être loués pour 4,5 $ par heure. Ces appareils TPU devraient fonctionner "en marge", c'est-à-dire offrir la possibilité de mettre en œuvre des solutions d'apprentissage en profondeur pour les petits appareils sans accès à Internet. Quelle est la qualité de ces TPU que nous pouvons acheter?

Dans la spécification des produits actuels, leur vitesse est indiquée comme 4 TOPs (téra-opérations par seconde). Ce ne sont pas des périphériques standard qui prennent en charge les opérations en virgule flottante 32 bits, car tensorflow-lite s'exécutant sur ces périphériques utilise l'arithmétique à virgule fixe 8 bits. De plus, vous ne trouverez pas en eux une telle bande passante pour la mémoire, comme sur un cloud TPU ou GPU. Les TPU Edge sont connectés aux périphériques via USB 3.0 ou via le bus mPCIe de 2e génération, de sorte que la vitesse sera limitée à 500-640 Mo / s. Bien sûr, comme il n'y a que 8 Mo de SRAM sur un tel appareil, il ne faudra pas plus de 16 ms pour transférer des données vers ou depuis l'appareil, et le modèle que nous avons testé pour écrire cet article n'a pris que 10 ms. Vous ne souffrirez pas d'un manque de mémoire, car ces appareils ne sont pas conçus pour apprendre à partir de zéro. Cependant, sur cet appareil, vous pouvez entraîner la dernière couche du modèle. Le point principal de l'utilisation de TPU de pointe est de tirer des conclusions logiques, et c'est ainsi que je vérifierai la vitesse de cet appareil.

L'appareil le plus fermé comme Coral Edge TPU est sorti en mars 2019, et c'est avec lui que j'ai réussi à jouer. C'est l'un des prototypes de Coral, bien que selon les documents, il ait exactement les mêmes performances que les cartes publiées avec mPCIe. Il n'y a aucun problème avec l'USB 3.0, mais si vous n'avez pas envie de jouer avec un dongle externe, vous pouvez mettre les cartes M.2 Accelerator A + E dans la fente au lieu de la carte WiFi:


À gauche: ma carte wifi dans un ordinateur portable. Droite: accélérateur M.2 A + E qui se branche dans le même emplacement.

Et qu'y a-t-il à l'intérieur de l'accélérateur TPU de bord mesurant 30 mm x 65 mm et coûtant 75 $? Pourrait-il y avoir un accélérateur mPCIe de 30 mm x 22 mm pour 35 $ avec un adaptateur USB et un dissipateur thermique? Pouvons-nous ouvrir doucement une boîte en plastique et en métal?


TPU avant et arrière

Le boîtier en plastique peut être ouvert sans aucun problème, grâce à un radiateur très rigide. Le radiateur lui-même peut être retiré en dévissant 4 vis.


L'arrière de l'appareil avec le couvercle en plastique retiré, avec et sans radiateur, et le radiateur lui-même

La réponse à la question ci-dessus: non, pas littéralement, mais les planches sont très similaires:


Le côté fonctionnel du Coral Edge TPU. Sur la droite se trouve l'accélérateur M2 A + E et une puce TPU séparée sur une pièce de un cent

Les puces de radiateur sont probablement en TPU (plus grandes) et en mémoire. Après avoir récupéré Edge TPU, j'ai effectué mes propres tests de vitesse, bien que les tests de Google parlent de performances 10 fois et même 20 fois plus rapides que le CPU.

Un exemple du site Coral pour la reconnaissance d'objets peut être exécuté à la fois sur le CPU et sur le TPU. Je connecte cet appareil à mon Acer Chromebook 11 avec Galium OS 2.1 , qui est assez similaire à Debian pour installer tf-lite et un programme pour travailler avec TPU sans aucun problème. Les modèles MobileNetV2 SSDLite pour la reconnaissance d'objets occupent moins de 7 Mo et fonctionnent avec des images 300 x 300. Sur le TPU, une image est traitée en 20 ms (+10 ms pour une copie d'image unique). Sur mon ordinateur portable équipé d'un processeur Intel Celeron 2,16 GHz en 2014, l'image est traitée en 1500 ms. Sur un autre PC, avec un processeur Intel Xeon 2,5 GHz (qui est 15 fois plus rapide que le mien selon cpubenchmark.net), l'image est traitée en 130 ms (avec une consommation de 210 W!). Selon cpubenchmark.net, le processeur le plus rapide disponible sera 3 fois plus rapide que cela: et il sera toujours plus lent que le TPU de pointe, qui, de plus, est beaucoup moins cher et consomme beaucoup moins!

Un projet plus intéressant est la reconnaissance d'objets dans le flux vidéo de la caméra de mon ordinateur portable. Sur le processeur Celeron, l' exemple sélectionné parvient à traiter moins d'une image par seconde. Sur TPU, il traite 20 images par seconde, c'est-à-dire qu'il fonctionne en temps réel. Et seulement un quart du temps est consacré à communiquer avec le TPU, le reste redimensionne les images et affiche les données finales avec lesquelles le processeur traite. Bien que j'aie installé le programme pour que le TPU fonctionne à la fréquence maximale, je ne suis pas venu près de ses limites, donc le radiateur TPU ne s'est pas réchauffé à une température inconfortable.

Les exemples donnés étaient assez faciles à changer et à ajuster. Pour commencer à travailler avec l'appareil, il vous suffit d'installer l'environnement de travail TPU via apt-get , puis d'installer tf-lite via pip - et vous êtes prêt à travailler avec des exemples. Les modèles de ces exemples sont déjà précompilés. Pour un test de vitesse plus plausible, vous devez entraîner le modèle à partir de zéro, l'exécuter sur le GPU et le CPU, le convertir en tf-lite et l'exécuter sur le CPU et le TPU.

En général, j'étais satisfait de cet appareil. Il me semble surprenant qu'un réseau qui reconnaît des objets dans des images 300x300 fonctionne sur un netbook 2014 en temps réel, avec une mise à niveau ne coûtant que 75 $ (ou même 35 $ si vous prenez la carte M.2). Bien sûr, le TPU régional ne remplacera pas le GPU pour la formation et même pour l'évaluation des modèles. Cependant, je vois un grand potentiel dans la carte , dans laquelle un TOP coûte 10 $ et consomme 0,5 watts. C'est au moins 10 fois moins cher que de travailler avec un GPU! Et beaucoup moins énergivore. C'est une excellente option pour démontrer le travail quelque part dans les champs. Si la tâche qui vous intéresse est indiquée sur l' étiquette sur le site Web du produit, cette puce sera utile si une faible consommation d'énergie et une petite taille du système sont votre priorité.

Source: https://habr.com/ru/post/fr482788/


All Articles