RDMA داخل مركز البيانات في تنفيذ هواوي

تحت القط حول النهج الذي تقدمه Huawei عند تنظيم الوصول المباشر للذاكرة باستخدام تقنية AI Fabric وكيف تختلف عن InfiniBand و RDMA القائمة على Ethernet الخالصة.



تستخدم الحوسبة الموزعة في مجموعة واسعة من الصناعات. هذه هي البحوث العلمية ، والتطورات التقنية مثل التعرف على الوجوه أو أدوات التعرف على الطيار الآلي ، والصناعة. بشكل عام ، يجد تحليل البيانات المزيد والمزيد من التطبيقات ، ويمكننا القول بثقة أنه لن يفقد شعبيته في المستقبل القريب. في الواقع ، نحن الآن نمر بمرحلة انتقالية من عصر الحوسبة السحابية ، حيث كانت أهم العوامل هي التطبيقات وسرعة نشر الخدمات ، إلى عصر تسييل البيانات ، بما في ذلك من خلال استخدام خوارزميات الذكاء الاصطناعي. وفقًا لبياناتنا الداخلية (تقرير GIV 2025: كشف مخطط الصناعة لعالم ذكي ) ، بحلول عام 2025 ، ستستخدم 86٪ من الشركات الذكاء الاصطناعي في عملها. يعتبر الكثير منهم أن هذا المجال هو المفتاح لتحديث الأنشطة ، وربما ، الأداة الأساسية لاتخاذ القرارات التجارية في المستقبل. وهذا يعني أن كل واحدة من هذه الشركات ستحتاج إلى نوع من معالجة البيانات الخام - على الأرجح من خلال المجموعات الموزعة.

تطور العمارة


مع تزايد شعبية الحوسبة الموزعة ، يزداد حجم الحركة المتبادلة بين أجهزة مراكز البيانات الفردية. تقليديًا ، عند مناقشة الشبكات ، يركز الاهتمام على نمو حركة المرور بين مركز البيانات والمستخدمين النهائيين على الإنترنت ، وهو ينمو بالفعل. لكن الزيادة في حركة المرور الأفقية داخل الأنظمة الموزعة تتجاوز بكثير كل ما ينشئه المستخدمون. وفقًا لموقع Facebook ، تتضاعف حركة المرور بين أنظمتها الداخلية في أقل من عام.



في محاولة للتعامل مع حركة المرور هذه ، يمكنك زيادة المجموعات ، لكن لا يمكنك القيام بذلك إلى أجل غير مسمى. لذلك ، مع توقع نمو حمل الحوسبة على الكتل ، من الضروري زيادة كفاءة المعالجة - أولاً وقبل كل شيء ، للعثور على الاختناقات داخل هذه الشبكات الموزعة والقضاء عليها.

إذا كانت موارد كل من هذه الأنظمة في وقت سابق تمثل "الحلقة الضعيفة" للأنظمة الموزعة ، في حين أن شبكات نقل البيانات المتطورة باستمرار تفوقت على الاحتياجات ، فإن اتصالات الشبكة اليوم هي المصدر الرئيسي للمشكلة. لم تعد مكدسة بروتوكول TCP / IP المألوف وطبولوجيا شجرة تتوافق مع المهام المعينة. لذلك ، يتخلى المزيد والمزيد من مراكز البيانات عن المركز المركزي وينتقل إلى بنية CLOS جديدة توفر نطاقًا تردديًا أكبر وقابلية أفضل للتوسّع ، كما فعل Facebook على سبيل المثال منذ عدة سنوات.



في الوقت نفسه ، من الضروري تحسين العملية على مستوى مختلف - على مستوى تفاعل نظامين منفصلين. في هذه المقالة ، نريد أن نتحدث عن أدوات التحسين التي يوفرها مركز بيانات Huawei Ai Fabric. هذه هي تقنية الملكية الخاصة بنا التي تسرع تبادل البيانات بين العقد.

تغييرات الشبكات


تتمثل "الخدعة" الرئيسية لـ Huawei Ai Fabric في تقليل الحمل عند نقل حزم البيانات بين الأنظمة داخل المجموعة من خلال تطبيق RDMA (الوصول المباشر للذاكرة عن بعد) - الوصول المباشر إلى ذاكرة الأنظمة في المجموعة.

RDMA - وسيلة للحد من تأخير الإرسال


RDMA ليست فكرة جديدة. توفر هذه التقنية تبادلًا مباشرًا للبيانات بين الذاكرة وواجهة الشبكة ، مما يقلل من الكمون ويزيل النسخ غير الضروري للبيانات إلى المخازن المؤقتة. تعود جذورها إلى التسعينيات بواسطة شركات Compaq و Intel و Microsoft.

هناك ثلاثة أنواع من التأخير في إرسال حزمة من نظام إلى آخر:

  • بسبب معالجة المعالج الضرورية ، على سبيل المثال ، لتخزين البيانات في نظام التشغيل وحساب مبالغ الشيكات ؛
  • بسبب الحافلات وقنوات نقل البيانات (من المستحيل تقنيًا زيادة عرض النطاق الترددي بشكل ملحوظ) ؛
  • بسبب معدات الشبكة.



لتقليل الخسائر خلال هذه السلسلة ، في وقت مبكر من التسعينيات ، تم اقتراح استخدام الوصول المباشر إلى ذاكرة الأنظمة التفاعلية - نموذج مجردة من هندسة واجهة افتراضية. فكرتها الرئيسية هي أن التطبيقات التي تعمل على نظامين متفاعلين تملأ ذاكرتها المحلية بالكامل وتؤسس اتصال P2P لنقل البيانات دون التأثير على نظام التشغيل. وبهذه الطريقة ، يمكن تقليل تأخيرات نقل الحزمة بشكل كبير. بالإضافة إلى ذلك ، نظرًا لأن نموذج VIA لا يتضمن وضع البيانات المرسلة في مخازن مؤقتة وسيطة ، فقد وفر الموارد اللازمة لعملية النسخ.



فيما يتعلق بالنموذج التجريدي ، فإن VIA RDMA ، كتقنية ، قد تقدمت أكثر نحو الاستخدام الأمثل للموارد. على وجه الخصوص ، لا ينتظر تعبئة المخزن المؤقت لإنشاء اتصال ويسمح بالاتصال بعدة أجهزة كمبيوتر في وقت واحد. لهذا السبب ، يمكن أن تقلل التكنولوجيا من تأخير الإرسال حتى 1 مللي ثانية ، مما يقلل من الحمل على المعالج.

InfiniBand مقابل إيثرنت


إن تطبيقي RDMA الرئيسيين في السوق - بروتوكول نقل InfiniBand و RDMA "النقي" القائم على Ethernet ، لا يخلوان للأسف.

يشتمل بروتوكول نقل InfiniBand على آلية للتحكم في تسليم الحزمة (حماية فقدان البيانات) ، لكنه مدعوم من قبل أجهزة معينة ولا يتوافق مع Ethernet. في الواقع ، يؤدي استخدام هذا البروتوكول إلى إغلاق مركز البيانات في أحد موردي المعدات ، مما يحمل بعض المخاطر ويعد بصعوبات فيما يتعلق بالخدمة (نظرًا لأن InfiniBand لديه حصة صغيرة في السوق ، فلن يكون من السهل العثور على متخصصين). حسنًا ، بالطبع ، عند تنفيذ البروتوكول ، لا يمكنك استخدام معدات شبكة IP الحالية.

يتيح لك RDMA عبر Ethernet استخدام المعدات الموجودة على الشبكة ، ويدعم شبكات Ethernet ، مما يعني أنه سيكون من الأسهل العثور على متخصصي الخدمة. بالمقارنة مع Infiniband ، فإن هذا يقلل بشكل كبير من تكلفة ملكية البنية التحتية ويبسط نشرها.
العيب الخطير الوحيد الذي حال دون اعتماد RDMA على نطاق واسع عبر الإيثرنت هو الافتقار إلى الحماية ضد فقدان الحزمة ، مما يحد من عرض النطاق الترددي للشبكة بأكملها. يجب استخدام آليات الجهة الخارجية لتقليل فقد الحزمة أو منع ازدحام الشبكة. لقد ذهبنا بهذه الطريقة ، حيث نقدم خوارزمياتنا الذكية للتعويض عن عيوب RDMA عبر الإيثرنت مع الحفاظ على مزاياه في الأداة الجديدة - Huawei Ai Fabric.

Huawei AI Fabric - طريقها


تنفذ AI Fabric نظام RDMA عبر الإيثرنت ، مدعومًا بخوارزمية إدارة ازدحام الشبكات الذكية الخاصة بها ، والتي توفر فقدان الحزمة صفرًا وعرض النطاق الترددي العالي للشبكة وتأخر الإرسال المنخفض لتدفقات RDMA.

تم تصميم Huawei Ai Fabric وفقًا لمعايير مفتوحة ويدعم مجموعة من المعدات المختلفة ، مما يعمل على تحسين عملية التنفيذ. ومع ذلك ، فإن بعض الأدوات الإضافية - الوظائف الإضافية على المعايير المفتوحة ، والسماح بزيادة كفاءة تبادل البيانات ، والتي سنناقشها في المنشورات اللاحقة - متاحة فقط للأجهزة التي تصنعها Huawei. تحتوي مفاتيح سلسلة CloudEngine التي تدعم الحل على شريحة متكاملة تحلل خصائص حركة المرور وتقوم بضبط معلمات الشبكة ديناميكيًا ، مما يتيح استخدامًا أكثر فاعلية للمخزن المؤقت للمحول. تستخدم الخصائص المجمعة أيضًا للتنبؤ بأنماط الحركة المستقبلية.

من هو هذا مفيد ل؟


يتيح لك Huawei Ai Fabric الحصول على ربح على مستويين.
من ناحية ، يتيح الحل تحسين بنية مركز البيانات - مما يقلل من عدد العقد (بسبب الاستخدام الأمثل للموارد) ، مما يخلق بيئة متقاربة دون الفصل التقليدي في شبكات فرعية منفصلة ، والتي يصعب الحفاظ عليها في أجزاء. باستخدام الأداة ، ليس عليك تحديد شبكات فرعية منفصلة لكل نوع من أنواع الخدمة في وحدة تحكم المجال (مع متطلبات الشبكة الخاصة به). يمكنك إنشاء بيئة واحدة توفر جميع الخدمات.



من ناحية أخرى ، يسمح لك AI Fabric بزيادة سرعة الحوسبة الموزعة ، خاصةً حيث تحتاج غالبًا إلى الوصول إلى ذاكرة الأنظمة البعيدة. على سبيل المثال ، يتضمن إدخال الذكاء الاصطناعي في أي مجال فترة تعلم الخوارزمية ، والتي يمكن أن تشمل ملايين العمليات ، وبالتالي فإن المكسب في التأخير في كل عملية من هذا القبيل سيؤدي إلى تسارع خطير في هذه العملية.

سيكون تأثير إدخال أداة متخصصة ، مثل Huawei Ai Fabric ، ملحوظًا في مركز بيانات به ستة رموز تبديل أو أكثر. ولكن كلما زاد مركز البيانات ، زاد الربح - نظرًا للاستخدام الأمثل للموارد ، ستوفر مجموعة من نفس الحجم مع Ai Fabric أداءً أعلى. على سبيل المثال ، يمكن لمجموعة من 384 عقد تحقيق أداء مجموعة "منتظمة" من 512 عقد. علاوة على ذلك ، لا يحتوي الحل على أي قيود على عدد المفاتيح الفعلية داخل البنية التحتية. يمكن أن يكون هناك عشرات الآلاف (إذا نسيت أن المشاريع تقتصر عادة على حجم المجال الإداري).

Source: https://habr.com/ru/post/ar458104/


All Articles