
تعد وحدات معالجة الرسومات (GPUs) مثالًا رئيسيًا على كيفية انتشار التكنولوجيا المصممة لمهام معالجة الرسومات إلى منطقة غير متصلة بالحوسبة عالية الأداء. تقع وحدات معالجة الرسومات الحديثة في قلب العديد من المشاريع المعقدة في مجال التعلم الآلي وتحليل البيانات. في مقال المراجعة ، سنصف كيف يستخدم عملاء Selectel المعدات مع GPU ويفكرون في مستقبل علوم البيانات وأجهزة الحوسبة جنبًا إلى جنب مع المعلمين من Yandex Data Analysis School.
لقد تغيرت GPUs كثيرًا على مدى السنوات العشر الماضية. بالإضافة إلى الزيادة الهائلة في الإنتاجية ، كان هناك فصل للأجهزة حسب نوع الاستخدام. لذا ، تبرز بطاقات الفيديو لأنظمة الألعاب المنزلية ومنشآت الواقع الافتراضي في اتجاه منفصل. تظهر أجهزة قوية عالية التخصص: بالنسبة لأنظمة الخادم ، تعد
NVIDIA Tesla P100 واحدة من المسرعات الرائدة ، وهي مصممة خصيصًا للاستخدام الصناعي في مراكز البيانات. بالإضافة إلى GPU ، تجري الأبحاث حاليًا في مجال إنشاء نوع جديد من المعالج يحاكي الدماغ. ومن الأمثلة على ذلك منصة
Kirin 970 أحادية الشريحة مع معالجها العصبي للمهام المتعلقة بالشبكات العصبية والتعرف على الأنماط.
هذا الموقف يجعلك تفكر في القضايا التالية:
- لماذا أصبح مجال تحليل البيانات والتعلم الآلي شائعًا جدًا؟
- كيف سيطرت وحدات معالجة الرسومات على سوق المعدات كثيفة البيانات؟
- ما هو البحث في مجال تحليل البيانات الذي سيكون أكثر واعدة في المستقبل القريب؟
دعونا نحاول التعامل مع هذه المشكلات بالترتيب ، بدءًا من أول معالجات الفيديو البسيطة وانتهاءً بالأجهزة الحديثة عالية الأداء.
عمر GPU
أولاً ، دعنا نتذكر ما هو GPU. وحدة معالجة الرسومات هي معالج رسومات يستخدم على نطاق واسع في أنظمة سطح المكتب والخادم. السمة المميزة لهذا الجهاز هي تركيزه على الحوسبة الموازية الجماعية. على عكس وحدات معالجة الرسومات ، تم تصميم بنية وحدة معالجة مركزية أخرى (وحدة المعالج المركزية) لمعالجة البيانات المتسلسلة. إذا تم قياس عدد النوى في وحدة المعالجة المركزية العادية بالعشرات ، فسيتم حسابها في وحدة معالجة الرسومات بالآلاف ، والتي تفرض قيودًا على أنواع الأوامر التي يتم تنفيذها ، ولكنها توفر أداءً حسابيًا عاليًا في المهام التي تنطوي على التوازي.
الخطوات الأولى
ارتبط تطوير معالجات الفيديو في المراحل المبكرة ارتباطًا وثيقًا بالحاجة المتزايدة إلى جهاز حوسبة منفصل لمعالجة رسومات ثنائية وثلاثية الأبعاد. قبل ظهور دوائر تحكم الفيديو الفردية في السبعينيات ، تم تنفيذ إخراج الصورة من خلال استخدام منطق منفصل ، مما أثر على زيادة استهلاك الطاقة وحجم كبير من لوحات الدوائر المطبوعة. جعلت الدوائر المصغرة المتخصصة من الممكن تحديد تطوير الأجهزة المصممة للعمل مع الرسومات في اتجاه منفصل.
كان الحدث الثوري التالي هو ظهور فئة جديدة من الأجهزة الأكثر تعقيدًا ومتعددة الوظائف - معالجات الفيديو. في عام 1996 ، أطلقت شركة 3dfx Interactive مجموعة شرائح Voodoo Graphics ، التي احتلت بسرعة 85٪ من سوق أجهزة الفيديو المتخصصة وأصبحت رائدة في مجال الرسومات ثلاثية الأبعاد في ذلك الوقت. بعد سلسلة من القرارات الفاشلة من قبل إدارة الشركة ، من بينها شراء الشركة المصنعة لبطاقة الفيديو STB ، خسر 3dfx البطولة أمام NVIDIA و ATI (لاحقًا AMD) ، وفي عام 2002 أعلن إفلاسه.
الحوسبة GPU العامة
في عام 2006 ، أعلنت NVIDIA عن إطلاق خط منتجات سلسلة GeForce 8 ، والذي يمثل بداية فئة جديدة من الأجهزة المصممة للحوسبة العامة على GPUs (GPGPU). أثناء التطوير ، توصلت NVIDIA إلى استنتاج مفاده أن عددًا أكبر من النوى التي تعمل بتردد أقل تكون أكثر فعالية للأحمال المتوازية من عدد صغير من النوى الأكثر إنتاجية. قدم الجيل الجديد من معالجات الفيديو دعمًا للحوسبة المتوازية ليس فقط لمعالجة تدفقات الفيديو ، ولكن أيضًا للمشكلات المتعلقة بتعلم الآلة والجبر الخطي والإحصاءات والمهام العلمية أو التجارية الأخرى.

زعيم معترف به
أدت الاختلافات في الإعداد الأولي لمهام وحدة المعالجة المركزية ووحدة معالجة الرسومات إلى اختلافات كبيرة في بنية الأجهزة - التردد العالي مقابل متعدد النواة. بالنسبة لوحدات معالجة الرسومات ، فقد وضع هذا إمكانات الحوسبة ، والتي يتم تحقيقها بالكامل في الوقت الحاضر. تقوم معالجات الفيديو بعدد مذهل من نوى الحوسبة الضعيفة بعمل ممتاز للحوسبة المتوازية. المعالج المركزي ، المصمم تاريخياً للعمل مع المهام المتسلسلة ، لا يزال الأفضل في مجاله.
على سبيل المثال ، نقارن القيم في أداء المعالجات المركزية والرسومات التي تؤدي مهمة مشتركة في الشبكات العصبية - ضرب المصفوفات عالية الترتيب. نختار الأجهزة التالية للاختبار:
- وحدة المعالجة المركزية Intel Xeon E5-2680 v4 - 28 سنًا مع HyperThreading ، 2.4 غيغاهرتز ؛
- GPU NVIDIA GTX 1080-2560 CUDA Cores، 1607 Mhz، 8GB GDDR5X.
نستخدم مثالًا لحساب ضرب المصفوفة بواسطة وحدة المعالجة المركزية ووحدة معالجة الرسومات في دفتر ملاحظات Jupyter:

في الكود أعلاه ، نقيس الوقت المستغرق في حساب المصفوفات من نفس الترتيب على وحدة معالجة مركزية أو GPU ("وقت التشغيل"). يمكن تمثيل البيانات في شكل رسم بياني يعرض فيه المحور الأفقي ترتيب المصفوفات التي يتم ضربها ، ويظهر المحور الرأسي وقت التنفيذ بالثواني:
يوضح خط الرسم البياني ، المظلل باللون البرتقالي ، الوقت الذي يستغرقه إنشاء البيانات في ذاكرة الوصول العشوائي التقليدية ، ونقلها إلى ذاكرة GPU والحسابات اللاحقة. يوضح الخط الأخضر الوقت الذي يستغرقه حساب البيانات التي تم إنشاؤها بالفعل في ذاكرة بطاقة الفيديو (بدون نقلها من ذاكرة الوصول العشوائي). يعرض الأزرق وقت العد على المعالج المركزي. يتم ضرب مصفوفات ترتيب أقل من 1000 عنصر في GPU و CPU في نفس الوقت تقريبًا. يتجلى الفرق في الأداء بشكل جيد مع المصفوفات الأكبر من 2000 بحلول عام 2000 ، عندما يقفز وقت الحساب على وحدة المعالجة المركزية إلى ثانية واحدة ، وتبقى وحدة معالجة الرسومات قريبة من الصفر.يتم حل المهام الأكثر تعقيدًا وعمليًا بشكل أكثر فعالية على جهاز به معالجات رسومية أكثر من دونها. نظرًا لأن المشكلات التي يحلها عملاؤنا على معدات GPU متنوعة جدًا ، قررنا معرفة حالات الاستخدام الأكثر شيوعًا.
من في Selectel يعيش بشكل جيد مع GPU؟
الخيار الأول الذي يتبادر إلى الذهن على الفور ويتضح أنه التخمين الصحيح هو التعدين ، ولكن من الغريب ملاحظة أن البعض يستخدمه كوسيلة مساعدة لتحميل المعدات إلى "أقصى". في حالة استئجار خادم مخصص ببطاقات الفيديو ، يتم استخدام وقت الفراغ من أحمال العمل لتعدين العملات المشفرة التي لا تتطلب تثبيتات متخصصة (مزارع) لاستلامها.
بعد أن أصبحت بالفعل كلاسيكية إلى حد ما ، فإن المهام المتعلقة بمعالجة الرسومات وعرضها تجد دائمًا مكانها على خوادم Selectel مع مسرعات الرسومات. يتيح لك استخدام معدات عالية الأداء لمثل هذه المهام الحصول على حل أكثر فاعلية من تنظيم محطات العمل المخصصة باستخدام بطاقات الفيديو.
خلال محادثة مع عملائنا ، التقينا أيضًا مع ممثلي Yandex Data Analysis School ، التي تستخدم مرافق Selectel لتنظيم البيئات التعليمية الاختبارية. قررنا معرفة المزيد حول ما يفعله الطلاب والمعلمون ، وما هي مجالات التعلم الآلي التي تحظى بشعبية الآن وما يخبئه المستقبل لهذه الصناعة بعد انضمام المتخصصين الشباب إلى صفوف المنظمات الرائدة أو إطلاق شركاتهم الناشئة.
علم البيانات
ربما ، من بين قرائنا لن يكون هناك من لا يسمع عبارة "الشبكات العصبية" أو "التعلم الآلي". بعد تجاهل الاختلافات التسويقية حول موضوع هذه الكلمات ، يتم الحصول على بقايا جافة في شكل علم بيانات ناشئ وواعد.
يتضمن النهج الحديث للعمل مع البيانات عدة مجالات رئيسية:
- البيانات الضخمة المشكلة الرئيسية في هذا المجال هي الكم الهائل من المعلومات التي لا يمكن معالجتها على خادم واحد. من وجهة نظر دعم البنية التحتية ، يلزم حل مشاكل إنشاء أنظمة المجموعة ، وقابلية التوسع ، وتحمل الأخطاء ، وتخزين البيانات الموزعة ؛
- المهام كثيفة الموارد (التعلم الآلي ، التعلم العميق ، وغيرها). في هذه الحالة ، يبرز السؤال حول استخدام الحوسبة عالية الأداء ، مما يتطلب كمية كبيرة من ذاكرة الوصول العشوائي وموارد المعالج. في مثل هذه المهام ، يتم استخدام الأنظمة ذات المسرعات الرسومية بنشاط.
تم محو الحدود بين بيانات الاتجاه تدريجيًا: الأدوات الرئيسية للعمل مع البيانات الضخمة (Hadoop ، Spark) تنفذ دعمًا لحوسبة GPU ، وتغطي مهام التعلم الآلي مناطق جديدة وتتطلب المزيد من البيانات. سيساعدنا معلمو وطلاب مدرسة تحليل البيانات على الفهم بمزيد من التفصيل.

من الصعب المبالغة في تقدير أهمية العمل المختص بالبيانات والتنفيذ المناسب للأدوات التحليلية المتقدمة. لا يتعلق الأمر حتى بالبيانات الضخمة أو "بحيراتها" أو "أنهارها" ، بل بالتفاعل الفكري مع المعلومات. ما يحدث الآن هو حالة فريدة: يمكننا جمع مجموعة متنوعة من المعلومات واستخدام الأدوات والخدمات المتقدمة للتحليل المتعمق. تقدم الشركة مثل هذه التقنيات ليس فقط للحصول على تحليلات متقدمة ، ولكن أيضًا لإنشاء منتج فريد في أي صناعة. إنها النقطة الأخيرة التي تشكل وتحفز إلى حد كبير نمو صناعة تحليل البيانات.
اتجاه جديد
في كل مكان نحن محاطون بالمعلومات: من سجلات شركات الإنترنت والعمليات المصرفية إلى الشهادة في التجارب في Large Hadron Collider. يمكن أن تجلب القدرة على العمل مع هذه البيانات الملايين من الأرباح وتعطي إجابات للأسئلة الأساسية حول هيكل الكون. لذلك ، أصبح تحليل البيانات مجالًا منفصلاً للبحث بين رجال الأعمال والمجتمع العلمي.
تعد مدرسة تحليل البيانات أفضل المتخصصين والعلماء المتخصصين الذين سيصبحون في المستقبل المصدر الرئيسي للتطورات العلمية والصناعية في هذا المجال. يؤثر علينا تطور الصناعة أيضًا كمزود للبنية التحتية - يطلب المزيد والمزيد من العملاء تكوينات الخادم لمهام تحليل البيانات.
تعتمد تفاصيل المهام التي تواجه عملائنا على المعدات التي يجب أن نقدمها لعملائنا وفي أي اتجاه يجب تطوير خط منتجاتنا. وبالتعاون مع ستانيسلاف فيدوتوف وأوليج إيفتشينكو ، قابلنا طلابًا ومعلمين في مدرسة تحليل البيانات واكتشفنا التقنيات التي يستخدمونها لحل المشكلات العملية.

تقنيات تحليل البيانات
أثناء التدريب ، يصل الطلاب من الأساسيات (الرياضيات العليا الأساسية والخوارزميات والبرمجة) إلى أكثر المجالات تقدمًا في التعلم الآلي. قمنا بجمع معلومات عن تلك التي تستخدم الخوادم مع وحدات معالجة الرسومات:
- التعلم العميق
- تدريب التعزيز.
- رؤية الكمبيوتر ؛
- المعالجة التلقائية للكلمات.
يستخدم الطلاب أدوات متخصصة في واجباتهم الدراسية ودراساتهم. تم تصميم بعض المكتبات لجلب البيانات إلى النموذج المطلوب ، بينما تم تصميم مكتبات أخرى للعمل مع نوع معين من المعلومات ، على سبيل المثال ، النص أو الصور. يعد التعلم العميق أحد أكثر المجالات صعوبة في تحليل البيانات التي تستخدم على نطاق واسع الشبكات العصبية. قررنا معرفة المدرسين والطلاب الذين يستخدمون الأطر للعمل مع الشبكات العصبية.

الأدوات المقدمة لها دعم مختلف من المبدعين ، ولكن مع ذلك ، تستمر في استخدامها بنشاط لأغراض التدريب والعمل. يحتاج الكثير منهم إلى معدات منتجة للتعامل مع المهام في إطار زمني مناسب.
مزيد من التطوير والمشاريع
مثل أي علم ، سيتغير اتجاه تحليل البيانات. ستشكل التجربة التي يحصل عليها الطلاب اليوم بلا شك أساس التطورات المستقبلية. لذلك ، تجدر الإشارة بشكل منفصل إلى التوجه العملي العالي للبرنامج - يبدأ بعض الطلاب ، أثناء الدراسة أو بعد ذلك ، التدريب في ياندكس ويطبقون معرفتهم بالفعل على الخدمات والخدمات الحقيقية (البحث ، رؤية الكمبيوتر ، التعرف على الكلام ، وغيرها).
تحدثنا عن مستقبل تحليل البيانات مع معلمي مدرسة تحليل البيانات ، الذين شاركوا رؤيتهم لتطوير علم البيانات.
وفقًا
لفلاد شاهورو ، أستاذ دورة "تحليل الصور والفيديو" ، فإن المهام الأكثر إثارة للاهتمام في رؤية الكمبيوتر هي ضمان الأمن في الأماكن المزدحمة ، وقيادة مركبة بدون طيار وإنشاء تطبيق باستخدام الواقع المعزز. لحل هذه المشاكل ، من الضروري أن تكون قادرًا على تحليل بيانات الفيديو بشكل نوعي وتطوير خوارزميات في المقام الأول للكشف عن الأشياء وتتبعها ، والتعرف على الشخص عن طريق الوجه وإعادة البناء ثلاثي الأبعاد للمشهد المرصود.
يخصص المحاضر
فيكتور ليمبيتسكي ، وهو دورة رائدة في التدريب المتعمق ، برامج التشفير التلقائي ، وكذلك الشبكات التوليدية والتنافسية ، في اتجاهها.
يشارك أحد مرشدي مدرسة تحليل البيانات رأيه في نشر وبدء الاستخدام الجماعي للتعلم الآلي:
"يتحول التعلم الآلي ، من الكثير من الباحثين المهووسين ، إلى أداة أخرى للمطور العادي. سابقًا (على سبيل المثال ، في عام 2012) ، كتب الأشخاص رمزًا منخفض المستوى لتدريب الشبكات التلافيفية على زوج من بطاقات الفيديو. الآن ، يمكن لأي شخص في غضون ساعات:
- تنزيل أوزان الشبكة العصبية المدربة بالفعل (على سبيل المثال ، في keras) ؛
- جعل معها حلًا لمهمتك ( الضبط الدقيق ، والتعلم بدون طلقة ) ؛
- تضمينه في موقع الويب الخاص بك أو تطبيق الهاتف المحمول (tensorflow / caffe 2).
لقد فازت العديد من الشركات الكبيرة والشركات الناشئة بالفعل على مثل هذه الاستراتيجية (على سبيل المثال ، Prisma) ، ولكن لا يزال هناك المزيد من المشكلات التي يجب اكتشافها وحلها. وربما ستصبح قصة التعلم العميق / الماكينة هذه يومًا ما شائعة مثل الثعبان أو التفوق الآن. "وفقًا لـ
Oleg Ivchenko ، مسؤول البنية التحتية لخادم SHAD ، تتطلب الموارد القياسية للتعلم العميق على مجموعات البيانات القياسية (على سبيل المثال ، CIFAR ، MNIST) الموارد التالية:
- 6 نوى وحدة المعالجة المركزية ؛
- 16 جيجا بايت رام.
- 1 بطاقة GPU مع ذاكرة فيديو 6-8 جيجابايت. يتطابق هذا مع بطاقات الرسومات مثل PNY NVIDIA GeForce GTX 1060 أو MSI GeForce GTX 1070.
لا أحد يمكنه التنبؤ بدقة بتكنولوجيا المستقبل اليوم ، ولكن عندما يكون هناك ناقل حركة معين ، يمكنك فهم ما يجب دراسته الآن. وهناك الكثير من الفرص لذلك في العالم الحديث.
فرص للمبتدئين
تقتصر دراسة تحليل البيانات على المتطلبات العالية للطلاب: معرفة واسعة في مجال الرياضيات والخوارزميات ، والقدرة على البرمجة. تتطلب مهام تعلُم الآلة الخطيرة حقًا معدات متخصصة. ولأولئك الذين يرغبون في معرفة المزيد عن المكون النظري لعلوم البيانات ، أطلقت مدرسة تحليل البيانات ، بالاشتراك مع
المدرسة العليا للاقتصاد ، دورة عبر الإنترنت "
مقدمة لتعلم الآلة ".
بدلا من الاستنتاج
يتم توفير نمو سوق GPU من خلال الاهتمام المتزايد بقدرات هذه الأجهزة. يتم استخدام GPU في أنظمة الألعاب المنزلية ، ومهام العرض ومعالجة الفيديو ، وكذلك في الأماكن التي تتطلب فيها الحوسبة عالية الأداء العامة. سوف يتغلغل التطبيق العملي لمهام استخراج البيانات بشكل أعمق في حياتنا اليومية. ويتم تنفيذ هذه البرامج بشكل أكثر فعالية باستخدام وحدة معالجة الرسومات على وجه التحديد.
نشكر عملائنا ، وكذلك المعلمين والطلاب في مدرسة تحليل البيانات على التحضير المشترك للمادة ، وندعو قرائنا للتعرف عليهم
بشكل أفضل .
ولدينا خبرة ومتطورة في مجال التعلم الآلي وتحليل البيانات وليس فقط نقدم
عروض من Selectel لتأجير معدات الخادم مع مسرعات الرسومات: من GTX 1080 البسيط إلى Tesla P100 و K80 لأداء المهام الأكثر تطلبًا.