
الإنترنت هو بيئة كبيرة وحيوية حيث يتم توصيل كل شيء مع الآخر بطريقة أو بأخرى ويمكن أن تؤثر على بعضها البعض. مثل هذه العلاقة ، عندما يؤدي تغيير بسيط في جزء من النظام إلى تغيير كامل في جزء آخر ، يُطلق عليها شعبياً "تأثير الفراشة". يوضح التأثير تمامًا كيف يمكن لأي "حذاء في وضع جيد على وحدة التحكم" أن يسقط خدمة رئيسية وفي نفس الوقت اثنين من الغرباء ... سنتحدث عن هذا.
قبل خمس سنوات ، عندما ظهرت شبكة Wi-Fi في المترو ...
... كانت ظاهرة قسمت حياة سكان موسكو إلى "قبل" و "بعد". في ذلك الوقت ، كان المشروع هو المشروع الوحيد في العالم ، وكان كل شيء فيه فريدًا من نوعه: هيكل الشبكة ، ونموذج تسييل الأموال ، وخدمات المستخدم ، وطرق البناء والتشغيل.
تقريبًا منذ إطلاق الجزء الأول من Wi-Fi في المترو ، حصلنا على إذن وبوابة إعلامية خاصة بنا. لقد جربنا البوابة بسخاء من حيث التكامل مع خدمات الجهات الخارجية ، في الواقع ، نستكشف قدرات نموذج أعمالنا ("ماذا لو نبيع القهوة في المترو مع التسليم إلى المدخل من الردهة؟!").
في البداية ، شاركنا بنشاط شركاء من مختلف المجالات في عملنا. لكن كل منشور تقريبًا من خدمات تابعة جديدة أدى إلى سقوط هذا الأخير تحت الحمل والحاجة إلى التراجع الطارئ عن التغييرات. قليل من الناس يستطيعون البقاء على قيد الحياة الآلاف من الطلبات الجديدة في الدقيقة ، والبعض الآخر غير قادر على ذلك من حيث المبدأ بسبب الهندسة المعمارية غير القابلة للتطوير. إن وجود مثل هذه المشكلة جعلنا نراقب أداء الخدمات التابعة ، والتي تعتمد عليها تجربة المستخدم بشكل مباشر. وكذلك وضع آليات لتقليل هذا الاعتماد (الوكيل ، ذاكرة التخزين المؤقت).
مرة واحدة في صرخة بصوت عال في مكتب "خمسمائة" مجموعة الحركة في الشركة بأكملها - الآن مثل هذه الحالات لا تحدث عمليا. على الشاشة اعتبارًا من يوليو 2015 ، كانت نتيجة إطلاق خدمة بيع الزهور مع التسليم في نطاقنا الفرعي.لكن التطور لا يذهب بسرعة. قبل أن نبني النظام الحالي ، كان علينا "ملء الأقماع" وتجربة سلسلة كاملة من الحوادث على تجربتنا الخاصة. علاوة على ذلك ، لا تتوقف العملية: كلما بحثنا في القضايا بشكل أعمق ، كلما حددنا أكثر التبعيات غير المتوقعة. إذا نظرنا إلى الوراء ، فإننا نفهم مدى أهمية وجود مثال عن كيفية حدوثه في بعض الأحيان. هذا هو ما نريد مشاركته.
انخفض نظام iOS الجديد لحركة المرور بنسبة 20 ٪
MaximaTelecom متخصص في بناء الشبكات في مجال النقل. الغالبية العظمى من أجهزة المشتركين التي تستخدم شبكتنا هي الهواتف المحمولة والهواتف الذكية والأجهزة اللوحية القائمة على Android و iOS. لدى كل من البائعين ، Google و Apple ، خرائط طريق لإصدار تحديثات لأنظمة التشغيل الخاصة بهم. في الإصدارات الجديدة ، غالبًا ما تتغير الوحدات المسؤولة عن الاتصال بشبكة Wi-Fi. في أفضل الأحوال ، في يوم إصدار التحديث ، تزداد حركة المرور نظرًا لأن الأجهزة تقوم بتنزيل التحديث عبر Wi-Fi. ولكن هناك حالات كارثية.
في العام الماضي فقط ، أصدرت شركة Apple إصدارًا جديدًا من iOS 10.3.1 ، وبعد ذلك تعطلت حركة مرور الشبكة بنسبة 20٪ تقريبًا. اتضح أنه في الإصدار الجديد من Apple "كسر" عملية الاتصال بالشبكة: توقفت ميكانيكا التخويل في Captive عن العمل ولم تتمكن الأجهزة من تسجيل الدخول إلى MT_FREE. اضطررت لإصدار إصلاح في وضع الطوارئ وتصحيح الوضع. تم إصلاح المشكلة بعد ثلاثة تحديثات بسيطة ، بعد أن فتحنا علبة في Apple bugtracker.

عدد المكالمات إلى صفحة ترخيص auth.wi-fi.ru في الدقيقة. يظهر الرسم البياني بوضوح تأخرًا كبيرًا عن المؤشرات في الفترة السابقة.يتفاقم الوضع بسبب حقيقة أن شبكة Wi-Fi هي تقنية قديمة للغاية ومنتشرة على نطاق واسع ، لم يكن من المفترض أن يتم إنشاءها على نطاق واسع مثلما حدث في مترو موسكو. لذلك ، يتعين علينا التعامل مع "سلطة" كاملة من مختلف الأجهزة ، كل منها يتصرف في الشبكة بطريقتها الخاصة. لا تنطبق علينا المقاييس المسطحة لعدد ميغابايت المجردة أو "المشتركين الكرويين على الشبكة". ينبغي النظر في أي خدمة ، سواء كانت الوصول الأساسي إلى الإنترنت أو بوابة الوسائط أو تطبيق الهاتف المحمول ، في سياق أجهزة و / أو أنظمة تشغيل محددة ، لأن المشكلة قد تتعلق بمجموعة محددة وضيقة إلى حد ما.
... وعشرات من الخيارات الأكثر غرابة.هذا ليس DDOS: لقد أدى حادث مشغل الهاتف المحمول إلى قفزة في حركة المرور بمقدار الثلث تقريبًا
قبل عامين ، تعرض أحد مشغلي الهاتف المحمول لحادث كبير. في مثل هذه الحالات ، يبحث المستخدمون عن بديل لخدمة الاتصالات. إذا تحدثنا عن المترو ، فلا توجد طرق بديلة للتواصل على القطارات على الإطلاق.
إعدادوالآن ، لا يوفر سوى عدد قليل من المشغلين الخدمة في المناطق المجهزة بكابل مشع. ولكن هذه التكنولوجيا محدودة للغاية في السعة ولا يمكنها توفير مستوى مماثل من الخدمة لنسبة كبيرة من المستخدمين. ناهيك عن تكلفة حركة المرور على خطط التعريفة الحد.
ولكن في المحطات ، تطورت الاتصالات الخلوية بقوة ، ناهيك عن قطاعات الأرض ، حيث تتنافس معها شبكة Wi-Fi مباشرة.
لقد علمنا بالحادث الذي وقع على شبكة مشغل الهاتف المحمول من خلال خدمة الإرسال التابعة لنا ، والتي أعلنت أنها تهاجمنا. كان النمو في عدد المستخدمين وحركة المرور إلى درجة أننا اعتقدنا في البداية أننا كنا على أساس DDOS. لقد علمنا بالأسباب الحقيقية لزيادة حركة المرور لاحقًا ، حيث اكتشفنا أن ثلث الموظفين ليس لديهم هواتف محمولة.
هكذا بدا الأمر بالنسبة لمستخدمي Wi-Fi لدينا فوق الأرض.إن خصوصية وضعنا على وجه التحديد هو أن لدينا شبكات Wi-Fi ، مما يعني أنه لا يهمنا أي بطاقة SIM مشغل الاتصالات الذي تم تثبيته في جهاز المستخدم.
جدير بالذكر أن الحادث الذي وقع أثر على خدماتنا جزئياً وسلبياً. تستخدم بعض أجزاء شبكة MT_FREE ، على وجه الخصوص ، الشبكة في حافلات المدينة وقطارات الركاب ، الاتصالات الخلوية كشبكة أساسية ، مما يعني أن وقوع حادث على الشبكات الخلوية يؤدي إلى تدهور الخدمة في هذه القطاعات.
واي فاي في مترو الانفاق دون إعلانات؟ YES!
يُعد الإعلان أساس الوصول المجاني إلى شبكة MT_FREE ، نظرًا لأن الخدمة موجودة وتؤتي ثمارها بفضل ذلك. كقاعدة AdServer ، نحن نستخدم AdFox لسنوات عديدة. من المثير للاهتمام أن AdServer نفسه لم يخضع لأي تغييرات مهمة طوال الوقت الذي عملنا معه. أحد تفاصيله هو نظام جمع الإحصاءات حول الانطباعات ، والتي يتم تشكيلها على فترات زمنية كل ساعة. يؤدي هذا إلى وجود قمم إيقاعية في وقت الاستجابة من الخدمة (كل ساعة ، تمامًا عند حدود الساعة ، يبدأ "الالتواء" في "لعب المزح" والتفكير في كل إجابة). نحن لم نقبض على هذا الفارق الدقيق على الفور!
الجدول الزمني لاستجابة AdFox لطلب الإعلان. تظهر الانفجارات والانخفاضات على حدود الساعة بشكل واضح.في الواقع ، لاحظنا نفس "القمم" المميزة للساعة في عدد مرات الظهور لأدوات المراقبة الأخرى ، لنفس المقياس. لكنني أريد أن أتحدث عن موقف أكثر تطرفًا. في الشتاء الماضي ، تعرض AdFox لحادث خطير: الخدمة لم تستجب لفترة طويلة. في قياساتنا ، تجلى هذا في قلة ترخيص المستخدم وانخفاض حاد في أداء البوابة. في الوقت نفسه ، لم تكن واجهة إدارة AdFox مع وجود خطأ في الشهادة متاحة.
شكل توضيحي لخطأ شهادة adfox.ru.بعد إجراء بعض الاختبارات والاتصال بشركة AdFox نفسها ، تعرفنا على الحادث ، ولم يكن أمامنا خيار سوى السماح لجميع المستخدمين المحددين بالدخول إلى الشبكة دون الإعلان.
وهنا الحادث على مقاييس ياندكس على بوابتنا.تؤدي عمليات التنزيل الأسرع أحيانًا إلى نتائج غير متوقعة
لا تعتمد الجودة المدركة لخدمتنا على عمل البنية الأساسية للأشخاص الآخرين وتحديثات نظام التشغيل وتعطل الموارد الكبيرة فحسب ، بل تعتمد أيضًا على سلوك مستعرضات معينة على أجهزة معينة. في هذا الصدد ، لدينا المزيد من فرص التأثير ، لذلك نحن نعمل باستمرار على تحسين المنتجات. في المتوسط ، ننشر تحديثًا واحدًا يوميًا. لكن في بعض الأحيان ، يبدو التحديث البسيط ، والذي يجب أن يؤدي إلى تحسين تجربة المستخدم ، إلى عواقب لا يمكن التنبؤ بها.
نظرًا لأن لدينا الفرصة للتأثير على تشغيل الخدمات على مستوى الشبكة (على سبيل المثال ، عن طريق تغيير أولوية نوع واحد من حركة المرور بالنسبة إلى آخر) ، نشأت الفكرة لتسريع التفويض عن طريق إعطاء الأولوية لحركة المرور. لقد نشرنا التغييرات المقابلة ، وبدأنا في دهشة ملاحظة العديد من الأخطاء وتراجع عائدات الإعلانات بنسبة 20٪. أظهرت الاختبارات الفنية أن الدائرة تعمل بشكل صحيح تمامًا من وجهة نظر الشبكة. ومع ذلك ، أكد التراجع عن التغييرات أن السبب كان بالتحديد في الإعدادات الجديدة.
نتيجة لذلك ، وجدنا أنه من خلال زيادة أولوية بعض النصوص على غيرها ، قمنا بتغيير ترتيب تنفيذ الوظائف على مستوى تحميل صفحة الترخيص نفسها في المتصفح. وقد أثر هذا بشكل كبير على تجربة المستخدم. في الواقع ، بدأت البرامج النصية للترخيص في التحميل وتشغيلها بشكل أسرع من النصوص البرمجية للإعلانات. نظرًا للعلاقة القائمة بينهما ، تنشأ المواقف عندما تنتظر إحدى الوظائف نتيجة وظيفة أخرى ، حتى أن الملف الذي لم يتم تنزيله على الجهاز حتى الآن.
الشبكات الاجتماعية مقابل وسائل الإعلام
يتوافق سلوك المستخدمين على الإنترنت مع الأنماط القياسية. اعتاد الناس على التواصل من خلال الرسل ، والبحث عن محتوى على بوابات وسائل الإعلام ، وقراءة الأخبار من خلال الشبكات الاجتماعية ومجمعات الأخبار. واضح إلى حد ما ، لكن مع التركيز على حقيقة أن الشبكات الاجتماعية هي بديل للأخبار ، والعكس صحيح. عندما يحدث شيء فجأة مع أحد مصادر المعلومات ، يتم إعادة توزيع انتباه المستخدمين على ما تبقى ، وعادة ما يكون الوصول إليها أكثر. لذلك في عام 2017 كان هناك خلل عالمي في فكونتاكتي. من جانبنا ، بدا هذا الحدث بمثابة زيادة حادة في المستخدمين والوقت على بوابة الأخبار لدينا wi-fi.ru. في الواقع ، ذهب المستخدمون ، مدركين أن شبكتهم الاجتماعية المفضلة لا تعمل ، لقراءة الأخبار إلينا.
تميزت لحظة انهيار VK بزيادة 30 ٪ في الحمل على البوابة wi-fi.ru.توضح هذه الحالة مدى أهمية أن تتمتع الخدمات الجماهيرية بهامش أمان من أجل "هضم" عواقب حادث "جار" إعلامي.
الأخضر - لا حوادث
تشجعنا المواقف الموصوفة باستمرار على تحسين مراقبة خدمات الجهات الخارجية في MT_FREE. هذا هو ما تبدو عليه لوحة القيادة لتشغيل شبكتنا.
تشغيل شبكة لوحة القيادة في سان بطرسبرج.تتكون لوحة القيادة من العديد من المؤشرات من نوع "إشارة المرور": الحالة الخضراء - كل شيء طبيعي ، اللون الأحمر - إنذار. يختلف لون المؤشرات مع الوقت. هذا يمكن أن يكون إما سلوك طبيعي أو علامة على وجود خلل. ولكن إذا قمت "بسحب" جميع المؤشرات بخط ووضعت كل خطوة على هذا النحو على السبورة ، فستحصل على صورة ثنائية الأبعاد تنمو باستمرار تصف تطور الشبكة ككل. يمكن "تغذية" هذه الصورة بسهولة باستخدام خوارزميات تعلم الآلة القياسية المصممة للتعرف على أنماط الرسوم (نوع من FindFace ، فقط لأنماط المستشعرات).
لا يعد مخطط الألوان المستند إلى الوقت مجرد صورة تصف تطور الشبكة.بعد ذلك ، تتم إضافة خوارزميات التعلم الذاتي (مثل AI) التي يمكنها تلقائيًا تصنيف الأنماط وتحديد أسباب الانحرافات أو البيانات غير الكاملة. يبدو كل شيء بسيطًا ، ولكن ما رأيك ، كم عدد مشغلي الاتصالات الذين يستخدمونه حقًا؟
قليل ، ونحن لسنا بينهم
في الإنصاف ، فإن تطبيق هذه التكنولوجيا في إطار MaximTelecom نفسه في مرحلة مبكرة إلى حد ما ، ويعزى ذلك إلى حد كبير إلى أنه من غير الواضح أين يقع الخط بين ما يجب تلقيه من خارج الشبكة وما يمكن الحصول عليه من الداخل. ميزتنا هنا هي أننا بدأنا في تطوير قاعدة الخوارزمية الضرورية منذ البداية كجزء من نظامنا الأساسي لنقد شبكة الإعلانات.
Maxima هو المشغل ، أولاً وقبل كل شيء ، لخدمة الواي فاي المجانية. علاوة على ذلك ، على عكس عدد كبير بما فيه الكفاية من شبكة Wi-Fi "الاجتماعية" ، نحن شركة اتصالات تجارية كاملة. في الواقع ، هذه هي فكرتنا المشتركة: نحن نسعى جاهدين لجعل التواصل مجانيًا ومربحًا في نفس الوقت ، وقد أثبتنا بالفعل أن هذا ممكن. لا يستطيع أي مشغل اتصالات في العالم تقريبًا (أو لا) الرغبة في ذلك ، وبالتالي لا يطور تقنية لهذا الغرض. وهذا يعطي الأمل في أننا سنكون قادرين في المستقبل على الوصول بتقنياتنا إلى الحد الذي لا تختلف فيه تجربة مستخدم MT_FREE عن ما توفره شركات النقل التقليدية المدفوعة. في الوقت نفسه ، سيكون مستوى الموثوقية أعلى بسبب نظام التحكم والتشغيل الذكي الأكثر تطوراً.
ولكن لسوء الحظ ، لا يمكن حل جميع المشكلات في إطار إمكانات شركة واحدة ، فقط بسبب وجود العديد من الشركات المصنعة لمعدات شبكة Wi-Fi للمشتركين والشبكات ، ومستوى التوحيد أدنى بكثير من ذلك في الشبكات الخلوية. نحن نحل مشاكل الأجهزة المختلفة عند الاتصال بالشبكة من لحظة الإطلاق. "جذر الشر" هنا هو في غياب أي معيار ، ونتيجة لذلك ، يخلق كل مصنع شيئا خاصا به.
لحل هذه المشاكل الصناعية ، هناك جمعيات دولية. على سبيل المثال ، نحن الآن نقود المشروع في توحيد تجربة المستخدم عند الاتصال بشبكات Wi-Fi باستخدام تسييل الإعلانات. لكن هذا موضوع لمقال آخر.
بالمناسبة ، نحن نعمل باستمرار على توسيع فريق التطوير ، ويمكن العثور على الوظائف الشاغرة ذات الصلة على صفحتنا
المهنية .