
في عام 2019 ، أطلقت Google أخيرًا معدات TPU التي تحمل علامة كورال والتي يمكن شراؤها. ومع ذلك ، لا توجد شبكات سحابة قوية جدًا للتدريب مثل BigGAN مع 100 petaflops / s ، ولا تحب حتى أقل تكلفة لـ 180 TFlop / s v2 TPUs ، والتي يمكن استئجارها مقابل 4.5 دولار في الساعة. يجب أن تعمل أجهزة TPU هذه "على الحافة" ، أي توفر إمكانية تنفيذ حلول التعليم العميق للأجهزة الصغيرة دون الوصول إلى الإنترنت. كيف جيدة هي تلك TPUs التي يمكننا شراء؟
في مواصفات
المنتجات الحالية ، يشار إلى سرعتها على أنها 4 قمم (عمليات teraoperations في الثانية). هذه ليست أجهزة قياسية تدعم عمليات
الفاصلة العائمة 32 بت ، حيث أن
tensorflow-lite الذي يعمل على هذه الأجهزة يستخدم حساب 8 نقاط ثابت. أيضًا ، لن تجد فيها عرض نطاق تردديًا للذاكرة ، كما هو الحال في سحابة TPU أو GPU. ترتبط أجهزة TPU الحافة بأجهزة USB 3.0 أو عبر ناقل mPCIe من الجيل الثاني ، وبالتالي ستقتصر السرعة على 500-640 ميجابايت / ثانية. بالطبع ، نظرًا لوجود
8 MB SRAM فقط على مثل هذا الجهاز ، لن يستغرق الأمر أكثر من 16 مللي ثانية لنقل البيانات إلى الجهاز أو منه ، واستغرق النموذج الذي اختبرناه لكتابة هذه المقالة 10 مللي ثانية فقط. لن تعاني من نقص الذاكرة ، لأن هذه الأجهزة ليست مصممة للتعلم من نقطة الصفر. ومع ذلك ، على هذا الجهاز يمكنك تدريب الطبقة الأخيرة من النموذج. النقطة الأساسية لاستخدام TPUs حافة هي بناء استنتاجات منطقية ، وهذه هي الطريقة التي سوف تحقق سرعة هذا الجهاز.
تم إصدار الأجهزة الأكثر إغلاقًا مثل
Coral Edge TPU في مارس 2019 ، وقد تمكنت من اللعب بها. هذا واحد من النماذج الأولية لـ Coral ، على الرغم من أنه وفقًا للوثائق ، فإنه يتمتع بنفس الأداء تمامًا مثل اللوحات الأم التي تم إصدارها باستخدام mPCIe. لا توجد مشكلات في USB 3.0 ، ولكن إذا كنت لا ترغب في العبث دونجل خارجي ، فيمكنك وضع بطاقات M.2 Accelerator A + E في الفتحة بدلاً من بطاقة WiFi:
اليسار: بطاقة واي فاي الخاصة بي في جهاز كمبيوتر محمول. اليمين: مسرع M.2 A + E الذي يتم توصيله بنفس الفتحة.وما هو داخل مسرع الحافة TPU بقياس 30 مم × 65 مم وبتكلفة 75 دولار؟ يمكن أن يكون هناك مسرع mPCIe 30 مم × 22 مم مقابل 35 دولار مع محول USB وغرفة التبريد؟ هل يمكننا فتح علبة من البلاستيك والمعدن بلطف؟
الحافة الأمامية والخلفية TPUيمكن فتح العلبة البلاستيكية دون أي مشاكل ، وذلك بفضل المبرد الصلب للغاية. يمكن إزالة الرادياتير نفسه عن طريق فك 4 براغي.
الجزء الخلفي من الجهاز مع إزالة الغطاء البلاستيكي ، مع وبدون المبرد ، والمبرد نفسهالإجابة على السؤال أعلاه: لا ، ليس حرفيًا ، لكن المجالس متشابهة جدًا:
جانب العمل من Coral Edge TPU. على اليمين يوجد مسرع M2 A + E وشريحة TPU منفصلة على عملة واحدة في المائةربما تكون شرائح المبرد TPU (أكبر) والذاكرة. بعد أن قمت بجمع Edge TPU للخلف ، قمت بإجراء اختبارات السرعة الخاصة بي ، على الرغم
من أن
اختبارات Google تتحدث عن أداء أسرع بمقدار 10 أضعاف مقارنة بوحدة المعالجة المركزية.
يمكن تشغيل مثال من موقع Coral للتعرف على الكائنات على كل من CPU و TPU. أقوم بتوصيل هذا الجهاز بجهاز Acer Chromebook 11 الخاص بك مع
Galium OS 2.1 ، والذي يشبه بما فيه الكفاية لـ Debian لكي أتمكن من تثبيت tf-lite وبرنامج للعمل مع TPU دون أي مشاكل. تستغرق طرز MobileNetV2 SSDLite للتعرف على الأشياء أقل من 7 ميغابايت وتعمل مع 300 × 300 صورة. على TPU ، تتم معالجة صورة واحدة في 20 مللي ثانية (+ 10 مللي ثانية لنسخ الصور لمرة واحدة). على جهاز الكمبيوتر المحمول مع وحدة المعالجة المركزية Intel Celeron 2.16 جيجا هرتز في عام 2014 ، تتم معالجة الصورة في 1500 مللي ثانية. على جهاز كمبيوتر آخر ، مع وحدة المعالجة المركزية Intel Xeon المعالج بسرعة 2.5 جيجاهرتز (وهو أسرع بـ 15 مرة من مثيلتي وفقًا cpubenchmark.net) ، تتم معالجة الصورة في 130 مللي ثانية (باستهلاك 210 واط!). وفقًا لـ cpubenchmark.net ، ستكون أسرع وحدة المعالجة المركزية المتاحة أسرع بثلاث مرات من هذا: وستظل أبطأ من تقنية TPU الحافة ، والتي ، علاوة على ذلك ، أرخص بكثير وتستهلك أقل بكثير!
مشروع أكثر إثارة للاهتمام هو التعرف على الكائنات في دفق الفيديو من كاميرا جهاز الكمبيوتر المحمول الخاص بي. في معالج Celeron ، يتمكن
المثال المحدد من معالجة أقل من إطار واحد في الثانية. على TPU ، يعالج 20 إطارًا في الثانية - أي أنه يعمل في الوقت الفعلي. ويقضي ربع الوقت فقط في التواصل مع TPU ، والباقي هو تغيير حجم الصور وعرض البيانات النهائية التي تتعامل معها وحدة المعالجة المركزية. على الرغم من أنني قمت بتثبيت برنامج TPU للعمل على الحد الأقصى للتردد ، إلا أنني لم أقترب من حدوده ، لذلك لم ترتفع درجة حرارة غرفة التبريد TPU إلى درجة حرارة غير مريحة.
كانت الأمثلة المقدمة سهلة بما فيه الكفاية للتغيير والضبط. لبدء العمل مع الجهاز ، تحتاج فقط إلى تثبيت بيئة عمل TPU
عبر apt-get ، ثم تثبيت tf-lite عبر نقطة - وأنت مستعد للعمل مع أمثلة. النماذج في هذه الأمثلة مُجمَّعة مسبقًا. لاختبار سرعة أكثر منطقية ، ستحتاج إلى تدريب النموذج من نقطة الصفر ، وتشغيله على وحدة معالجة الرسومات ووحدة المعالجة المركزية ، وتحويله إلى tf-lite ، وتشغيله على وحدة المعالجة المركزية و TPU.
بشكل عام ، لقد سررت بهذا الجهاز. يبدو من المدهش بالنسبة لي أن الشبكة التي تتعرف على الكائنات في صور 300 × 300 تعمل على نتبووك 2014 في الوقت الفعلي ، مع تكلفة تكلفتها 75 دولارًا فقط (أو حتى 35 دولارًا إذا كنت تأخذ لوحة M.2). بالطبع ، لن يحل الـ TPU الإقليمي محل وحدة المعالجة المركزية للتدريب وحتى لتقييم النماذج. ومع ذلك ، أرى إمكانات كبيرة في
اللوحة ، حيث تكلف قمم واحدة 10 دولارات وتستهلك 0.5 واط. أرخص 10 مرات على الأقل من العمل باستخدام وحدة معالجة الرسومات! وأقل بكثير كثافة الطاقة. هذا هو خيار كبير لإظهار العمل في مكان ما في الحقول. إذا كانت المهمة التي تهتم بها موضحة على
الملصق على موقع المنتج ، فستكون هذه الشريحة مفيدة إذا كان انخفاض استهلاك الطاقة وحجم صغير للنظام هو من أولوياتك.