تدعم بعض أحدث معالجات Intel عائلة AVX-512 من تعليمات المتجه . يتم تنفيذها في كتل 512 بت (64 بايت). ميزة دعم الأجهزة لمثل هذه التعليمات الكبيرة هي أن المعالج يعالج المزيد من البيانات في دورة ساعة واحدة.إذا تم تحميل الرمز بكلمات 64 بت (8 بايت) ، فمن الناحية النظرية ، إذا كنت لا تأخذ في الاعتبار عوامل أخرى ، يمكنك تسريع تنفيذه بثماني مرات إذا كنت تستخدم تعليمات AVX-512.يدعم امتداد AVX-512 لنظام أوامر x86 8 سجلات قناع ، وتنسيقات معبأة 512 بت للأعداد الصحيحة والكسرية والعمليات معهم ، وضبط التقريب الدقيق (يسمح لك بتجاوز الإعدادات العامة) ، وعمليات البث ، وقمع الأخطاء في العمليات ذات الأرقام الكسرية ، عمليات التجميع / التشتت ، العمليات الحسابية السريعة ، التشفير المدمج للتعويضات الكبيرة.تتضمن مجموعة AVX-512 الأولية ثماني مجموعات من التعليمات:- تعليمات الكشف عن الصراع AVX-512 (CDI)
- AVX-512 تعليمات أسية وتبادلية (ERI)
- تعليمات الجلب المسبق AVX-512 (PFI)
- AVX-512 ملحقات طول المتجه (VL)
- AVX-512 تعليمات البايت والكلمة (BW)
- تعليمات كلمة المرور المزدوجة AVX-512 (DQ)
- إضافة مضاعفة AVX-512 Integer تنصهر (IFMA)
- تعليمات معالجة البايت AVX-512 (VBMI)
يتم دعم عائلة AVX-512 في معالج Intel Xeon Phi (المعروف سابقًا باسم Intel MIC) Knights Landing ، وبعض معالجات Skylake Xeon (SKX) ، بالإضافة إلى معالجات Cannonlake المستقبلية التي ستكون متاحة في عام 2017. المعالجات المدرجة لا تدعم كافة التعليمات. على سبيل المثال ، يدعم Knights Landing Xeon Phi فقط CD و ER و PF. يدعم معالج Skylake Xeon (SKX) CD و VL و BW و DQ. معالج Cannonlake - CD ، VL ، BW ، DQ ، IFMA.بطبيعة الحال ، لا يمكن تحويل كل رمز إلى تعليمات متجه ، ولكنك لا تحتاج إلى القيام بذلك مع جميع التعليمات البرمجية ، كما يكتبعلى مدونته دانيال لومير ، أستاذ علوم الكمبيوتر في جامعة كيبيك. ووفقا له ، من المهم تحسين "الرمز الساخن" ، الذي يستهلك معظم موارد المعالج. في العديد من الأنظمة ، يتم إنشاء "الرمز الساخن" من سلسلة من الحلقات التي تمرر مليارات المرات. هذا هو ما يجب تحسينه ، هذه هي الفائدة الرئيسية.على سبيل المثال ، إذا تم إعادة تجميع رمز Python من تعليمات 64 بت القياسية في AVX-512 باستخدام MKL Numpy ، فسيتم تقليل وقت التنفيذ من 6-7 ثوانٍ إلى ثانية واحدة على نفس المعالج.import numpy as np
np.random.seed(1234)
xx = np.random.rand(1000000).reshape(1000, 1000)
%timeit np.linalg.eig(xx)
دعم أجهزة التعلم العميق
تعد الشبكات العصبية والتعلم العميق أحد أكثر الاتجاهات سطوعًا في الآونة الأخيرة. تحاول Google و Facebook وشركات كبيرة أخرى استخدام الشبكات العصبية كلما أمكن ذلك: في أنظمة التوصيات ، والتعرف على الوجه ، وترجمة النصوص ، والتعرف على الكلام ، وتصنيف الصور ، وحتى في ألعاب اللوحة مثل go (ولكن هذا هو أكثر للدعاية منه لتحقيق مكاسب تجارية). يحاول البعض تطبيق تدريب متعمق في المجالات غير القياسية ، مثل تدريب الطيار الآلي .من بين مستثمري رأس المال الاستثماري ، هناك الآن فهم بأن أكثر الخطط فعالية لتحقيق الثراء السريع هو إطلاق شركة ناشئة في مجال التعلم العميق ، والتي ستقوم شركة Big Five (Facebook ، Google ، Apple ، Microsoft ، Amazon) بشرائها على الفور. لقد تنافست هذه الشركات بشدة في الآونة الأخيرة في مجال شراء المواهب ، بحيث تغادر الشركة الناشئة على الفور وبسعر رائع بمعدل 10 ملايين دولار على الأقل لكل موظف. أصبحت خطة العمل هذه الآن أكثر بساطة ، حيث تطلق الشركات أدوات تطوير مفتوحة المصدر ، كما فعلت Google مع TensorFlow .لسوء حظ شركة Intel ، فإن هذه الشركة متخلفة ولا تشارك في اللعبة تقريبًا. يقر الأستاذ Lemir بأن وحدات معالجة الرسومات Nvidia تعتبر الآن معيار الصناعة. عليهم أن يديروا رمز البرامج لتعلم الآلة.ليس الأمر أن مهندسي إنتل أفرطوا في هذا الاتجاه. إنه فقط أن وحدات معالجة الرسومات نفسها ، دون أي تعليمات خاصة ، مناسبة بشكل أفضل لحسابات التعلم العميقة.ومع ذلك ، تعد إنتل هجومًا مضادًا ، ونتيجة لذلك يمكن أن ينقلب الوضع رأساً على عقب. في سبتمبر ، نشرت الشركة مرجعًا جديدًا لامتدادات مجموعة تعليمات هندسة العمارة من Intelمبينا جميع التعليمات التي سيتم دعمها في المعالجات المستقبلية. إذا نظرت إلى هذه الوثيقة ، فإننا ننتظر مفاجأة سارة. اتضح أن عائلة التعليمات AVX-512 تم تقسيمها إلى عدة مجموعات وتم توسيعها.على وجه الخصوص ، تم تصميم مجموعتين من التعليمات خصيصًا للتدريب المتعمق: AVX512_4VNNIW و AVX512_4FMAPS. من خلال الوصف ، يمكن أن تكون هذه التعليمات مفيدة ليس فقط في التعلم العميق ، ولكن أيضًا في العديد من المهام الأخرى.- AVX512_4VNNIW: تعليمات المتجه للتعلم العميق تعزز الدقة المتغيرة للكلمة
- AVX512_4FMAPS: تعليمات المتجه للتعلم العميق الدقة أحادية النقطة العائمة
هذه اخبار جيدة جداعندما يظهر هذا الدعم في معالجات Intel القياسية ، يمكنهم الاقتراب من أداء رسومات التعلم المتعمق من Nvidia أو حتى التفوق عليه. بالطبع ، تخضع لبرامج التحسين المناسبة. من يدري ، ستكرر نفس القصة فجأة كما هو الحال مع ترميز الفيديو ، عندما ، بعد إضافة دعم الأجهزة H.264 و H.265 إلى وحدة المعالجة المركزية ، بدأت معالجات Intel ذات الرسومات المتكاملة في ترميز وفك تشفير الفيديو بشكل أسرع من بطاقات الفيديو Nvidia و AMD المنفصلة.