7 أيام ، 15 مهندسًا و 600 خادم: انتقل Yandex.Money إلى مركز بيانات جديد



في الآونة الأخيرة ، حدث كبير في قسم عمليات Yandex.Money. تنمو شركتنا بسرعة ، واتضح أن قلوبنا لا تتغير فحسب ، بل يتغير أيضًا الطلب على مركز البيانات. بتعبير أدق ، يتطلب الموقع التغيير. والآن لمدة ثلاثة أشهر ، حيث يعيش أحد مراكز البيانات في مكان جديد.

حول كيفية انتقال Yandex.Money إلى مركز بيانات جديد ، سأخبرك ، رئيس قسم العمليات ، وإيفان ، رئيس قسم البنية التحتية لتكنولوجيا المعلومات والأنظمة الداخلية.

تحت القص - التسلسل الزمني للأحداث والمعالم الهامة للحركة ، المنعطفات غير المتوقعة واستخلاص المعلومات. ونحن نشارك كيف نجونا من هذا.

الشروط الأساسية للانتقال


في السابق ، كان أحد مراكز بيانات Yandex.Money يقع في إحدى ضواحي موسكو. والحقيقة هي أنه خارج المدينة ، ليس كل مزودي قنوات الاتصال البصرية لديهم القدرة على وضع مسارات الكابلات بشكل مستقل - إنها مكلفة. والسبب الأول لقرارنا بالتحرك يرجع إلى حقيقة أن قنوات الاتصال في مركز البيانات القديم تمر عبر نفس المسارات ، وهذا يحمل مخاطر إضافية.
يوجد داخل الطريق الدائري في موسكو العديد من مقدمي الخدمات ، ونظام الكابلات مطور بشكل جيد. يمكنك شراء قنوات من موفرين مختلفين بطرق مختلفة ولا تتداخل. هناك مخاطر متزايدة في المنطقة - على سبيل المثال ، سيأتي حفار وحفر جميع المسارات في وقت واحد.

ثانياً ، واجه مركز البيانات السابق قيودًا تكنولوجية ، بما في ذلك بشكل دوري واجهنا مشكلات في إمدادات الطاقة.

لكن السبب الرئيسي (= الألم) هو عدم القدرة على التوسع. هذا يعني أن المبنى نفد من المساحة لرفوف إضافية ، حيث كان من الممكن وضع معدات جديدة. هذا يرتبط مباشرة ببيئتنا الإنتاجية ، لأن Yandex.Money لديها مركزين للبيانات ويجب أن يكونا متماثلين من حيث القدرات.

تخطيط


تم تقسيم الاستعداد لهذه الخطوة إلى مراحل:

  • المسابقات: العاصمة ، القنوات ، الشبكات ، الرفوف ، وحدات PDU ، الكابلات ؛
  • نقل التطبيقات وقواعد البيانات إلى العاصمة الثانية ؛
  • تعاليم - تعطيل العاصمة ؛
  • بنية جديدة للشبكات الأساسية ، IX ؛
  • إعداد شبكة أساسية جديدة في العاصمة.


اختيار المورد


يقع أول مركز بيانات Yandex.Money في موسكو. ولتجنب التأخير الكبير في الشبكة ، قررنا وضع مركز البيانات الثاني بالقرب من الأول.
داخل MKAD لتقليل التأخير في الشبكة وليس أقرب من 20 كم من المرفق الأول لضمان استقلال كل من مراكز البيانات من نفس البنية التحتية الحضرية والكوارث التكنولوجية أو الطبيعية المحتملة.

عند تحليل السوق ، كنا نسترشد بمعايير مهمة مثل شهادة مراكز البيانات من حيث توافرها وموثوقيتها. المعيار الأكثر شيوعًا في روسيا والعالم هو المعيار الذي طوره معهد Uptime ، الذي يراجع مراكز البيانات حول العالم. تجدر الإشارة إلى أن هناك العديد من مراكز البيانات التي لديها وثائق مشروع معتمدة فقط ، ولكن هذا لا يعني أن مركز البيانات نفسه تم بناؤه واختباره وتشغيله وفقًا للمعايير.
مثال على ممارستنا: أعلن لنا أحد مزودي خدمات مركز البيانات في موسكو أن مشروع مركز البيانات يفي بمعايير المستوى الثالث وعرض إبرام اتفاق مع وعد بتوافر 100 ٪ ، أي 0 دقيقة من التوقف في السنة! بعد زيارة الموقع شخصيًا ، أدركنا أنه لا توجد شهادات رسمية تضمن مستوى الجودة ، ومن الواضح أن البنية التحتية لا تعتمد على المستوى الثالث. يقع مركز البيانات في الطابق الأرضي من مبنى سكني ، وقفت المولد الوحيد في الشارع دون أي حماية مادية.

لذلك ، في متطلبات المنافسة ، لم ندرج فقط شهادة المشروع ، ولكن أيضًا شهادة عمليات التنفيذ والإدارة.

علاوة على ذلك ، عقدنا العزم مع موردي قنوات الاتصال البصرية بين البلدان النامية والقنوات لنقاط تبادل حركة المرور (IX) حيث نرتب واجهات مع مقدمي الخدمات أو شركائنا. كان المعيار الرئيسي هو أن تكون قنوات الاتصال البصرية مستقلة ، وأن تسير في طرق مختلفة.

وبطبيعة الحال ، كانت هناك مشتريات أخرى - في المقام الأول معدات الشبكات والرفوف (خزانات متخصصة لتثبيت الخوادم) ، ووحدة توزيع الطاقة (وحدات توزيع الطاقة الذكية) ، وكذلك الكابلات وأسلاك التصحيح.

تجدر الإشارة إلى أننا اخترنا بعناية المورد الذي سينقل المعدات. من المهم أن تتمتع الشركة بخبرة في نقل الخوادم ، ويفهم المشغلون أن هذا ليس أثاثًا وتحميلًا ، ويجب أن تكون أيضًا شديد الحذر عند القيادة. بالإضافة إلى ذلك ، قمنا بتأمين المعدات المنقولة في حالة حدوث تلف أثناء النقل.

ترقية البنية الأساسية للشبكة


فيما يتعلق بالبنية التحتية للشبكة ، كان لدينا خياران. الأول هو نقل معدات الشبكات القديمة "كما هي". والثاني هو أولاً إنشاء بنية أساسية جديدة للشبكة في مركز بيانات جديد ثم نقل معدات الخادم فقط.

نظرًا لأننا أدركنا أننا قد "صادفنا" بالفعل عرض النطاق الترددي للشبكة في مركز البيانات القديم ونحتاج إلى الاحتياطي والقدرة على التوسع لمدة لا تقل عن 3-5 سنوات القادمة ، فقد تقرر بناء البنية التحتية للشبكة في مركز البيانات الجديد من نقطة الصفر والترقية إلى جيل جديد من المعدات .

لقد التزمنا بالنموذج الكلاسيكي عند إنشاء شبكة في مركز بيانات جديد. في كل رف ، يتم توصيل الخوادم بمفتاحين للوصول ، والتي بدورها متصلة بمفاتيح التجميع المركزية (وهي أيضًا جوهر الشبكة).



تعاليم


عند الانتقال ، قررنا إيقاف تشغيل مركز البيانات تمامًا ، في وقت واحد لنقل كل شيء وتشغيله في مكان جديد. لهذا الغرض ، كان على الشركة أن تتعلم كيفية الاستغناء عن أحد مركزي البيانات. تطلب الأمر مشاركة جميع مسؤولينا تقريبًا من أجل أن تعمل أنظمة المعلومات على منصات مختلفة ، على أنظمة تشغيل مختلفة ، مع قواعد بيانات مختلفة للعمل دون انقطاع على الموقع المتبقي.
بالنسبة إلى الخدمات الأكثر أهمية ، تم توفير احتياطي ظل متاحًا حتى مع إيقاف تشغيل مركز بيانات واحد.

بعد القيام بالحجز ، بدأت التمارين. أولاً ، قمنا بفصل الشبكات والشرائح الفردية ، وعندها فقط مركز البيانات تمامًا. في عام 2019 ، أجرينا اختبارًا لإغلاق مركز البيانات 10 مرات - شاهدنا كيف يتصرف 300 نظام معلومات لدينا. التحقق المتكرر من الحكم الذاتي ، كنا مقتنعين أنه يمكننا بسهولة قطع الاتصال.

وبعد ذلك ...

الأسبوع العاشر


كان من المقرر أن يقوم أحد أيام الجمعة بإيقاف تشغيل جميع المعدات الموجودة في مركز البيانات - تم طرح أحدث الإصدارات في الصباح ، ثم تم إعلان وقفها.
يمكن أن يحتوي Yandex.Money على 60 إصدارًا أو أكثر يوميًا ، ويتم إجراء جميعها في كلا مركزي البيانات.

لقد أوقفنا الإصدارات ، وتأكدنا من أن النظام يعمل بثبات وليس هناك حاجة إلى إصلاحات في مكوناتنا. بدءًا من الساعة 15:00 ، بدأوا في إطفاء جميع التطبيقات وقواعد البيانات والخوادم تدريجيًا. خلال الليل من الجمعة إلى السبت ، انتظرنا الوقت ، كنا مقتنعين بأنه لم يحدث شيء سيئ ، مما يعني أنه يمكننا الذهاب. في صباح يوم السبت ، بدأ فريق مكون من 15 شخصًا في تفكيك المعدات ونقلها إلى مركز البيانات الجديد.



استغرقنا كل يوم السبت لتفكيك ونقل المعدات. بعد ذلك ، بدأت عملية تثبيت المعدات ، والتبديل ، وتوصيله إلى إمدادات الطاقة.



في ليلة السبت ، قمنا بتوصيل وتوصيل أول دفعة من الخوادم. بدأ العمل الرئيسي يوم الأحد - بحلول نهاية الأسبوع تم تثبيت جميع المعدات تقريبًا. وانتهينا من تخفيف فقط مساء الاثنين.



في صباح يوم الثلاثاء ، أجرينا الاختبار النهائي للشبكات وقنوات الاتصال واستعدنا لرفع أنظمتنا. بدأوا في رفع الدفعة الأولى من الخوادم ، ولكن حدث خطأ ما ...

بدأنا في تلقي شكاوى جماعية من المسؤولين بأن الشبكة لا تعمل في الخوادم: إما بالكامل ، أو واحدة من واجهتين. بدأوا في البحث عن مشاكل على جانب معدات الشبكة ، في أنظمة التشغيل ، في إعدادات أنظمة التشغيل.

كانت الأعراض متشابهة - بدأوا في النظر إلى السبب الذي قد يكون السبب. لقد لاحظنا أن الأمر يستحق تحريك حبال التصحيح بجوار منافذ المحولات أكثر صعوبة وأن بعض ارتباطات العمل تنقطع.



بعد اكتشاف ذلك ، أدركنا أن جزءًا كبيرًا من حبال الرقعة (حوالي 40٪ من قطع 2000) كانت معيبة. لقد قمنا بنقل جميع حبال التصحيح المتوفرة لمصنع آخر موثوق به إلى مركز بيانات جديد وبدأنا بشكل عاجل في إعادة الاتصال بالخوادم الأكثر أهمية. استغرق الأمر يومًا آخر.

من مساء الأربعاء في صباح الخميس ، بدأ الفريق في رفع الكتلة الرئيسية لنظم المعلومات.

بعد قيامنا برفع الخدمات الهامة وإطلاق احتياطي نظام الدفع ، قمنا بتضمين جزء من حوامل الاختبار في مركز البيانات الجديد واحتياطي أنظمة backoffice بحيث تعمل جميع أنظمتنا الداخلية مع مركزين للبيانات. بحلول نهاية الأسبوع ، تم إطلاق البنية التحتية لتقنية المعلومات بالكامل في مركز البيانات المنقول.

في البداية ، كانت هناك خطة لمدة 5 أيام ، ولكن مع وجود حالة طوارئ تتعلق بأسلاك التصحيح المعيبة ، فقد تبين أنها أسبوع. أدناه قمنا برسم الجدول الزمني لأعمالنا بوضوح.

خطة النقل - في انتظار:

  • الجمعة - نطفئ الشبكات والتطبيقات ؛
  • السبت - نحمل ونبدأ التجمع.
  • الأحد - تثبيت الخوادم وإطلاق الشبكات ؛
  • الاثنين - ننتهي من الشبكة ، ونطلق التطبيقات ؛
  • الثلاثاء - تشغيل كل شيء.


الواقع:

  • الجمعة - نطفئ الشبكات والتطبيقات ؛
  • السبت - نحمل ونبدأ التجمع.
  • الأحد - تثبيت الخوادم وإطلاق الشبكات ؛
  • الاثنين - الكابلات ، إطلاق الشبكة ؛
  • الثلاثاء - قم بتشغيل الخوادم ، 100+ لا يعمل ؛
  • الأربعاء - الزواج في الأسلاك ، واستبدال ، وإطلاق التطبيق و DB.
  • الخميس - انتهى من استبدال PS ، إطلاق التطبيق.


الحياة بعد الانتقال


ماذا حصلنا من التحرك؟
بادئ ذي بدء ، كلا مراكز البيانات لدينا الآن على مستوى معهد الجهوزية المستوى. يضمن لنا موردو مراكز البيانات مستوى توافر التشغيل بنسبة 99.982٪ ، والذي يبلغ 1.6 ساعة من التوقف في السنة. نحن على ثقة من موثوقية قنوات الاتصال بين مواقعنا. الآن لا توجد قيود على توسيع البنية التحتية لتكنولوجيا المعلومات لدينا.

لقد أتاحت لنا فكرة التنقل فرصة كبيرة لترقية معدات الشبكات من حيث النطاق الترددي. قمنا أيضًا بإعادة تشكيل مصادر الطاقة في الرفوف - "وحدات PDU الذكية" المثبتة ، وخوادم الطاقة المحجوزة.

وعندما انتقلنا ، تمكنا من "تمشيط" التبديل ، والآن يبدو أكثر إتقانًا.



لذلك ، بشكل عام ، بدأ النظام في العمل بشكل أكثر استقرارًا ، ويتلقى عملاؤنا خدمة أفضل.

ما هي الاستنتاجات التي استخلصتها لنفسك؟
عند تنفيذ المشاريع الكبيرة ، تحتاج إلى التفكير في المخاطر ، وتخيل المخاطر التي يمكن أن تكون. أظهر مثالنا مع كبلات Ethernet أنه لا يكفي إجراء عملية شراء تجريبية واختبار منتجات الكابلات الخاصة بالشركة المصنعة المحددة. للحد من المخاطر ، كان من الضروري إجراء اختبار عشوائي لمجموعة من الكابلات 2000.

تجدر الإشارة أيضًا إلى أن بعض الخوادم قد لا تنجو من الحركة وببساطة لا تعمل لعدة أسباب. بطريقة أو بأخرى ، الطريق يهتز والإجهاد الميكانيكي. من بين 600 وحدة من المعدات المنقولة ، اندلعت 6 كتل. من بين عدد كبير من الخوادم ، عانى 1٪ فقط ، ولم يتم تعطل قرص واحد - نعتقد أن هذه نتيجة ممتازة.



هكذا انتقل مركز بيانات Yandex.Money إلى مكان جديد. نأمل أن تساعدك تجربتنا في تجنب الأخطاء المحتملة ، وربما تقودك إلى حلول أخرى مثيرة للاهتمام.

Source: https://habr.com/ru/post/ar481340/


All Articles