التعهيد الجماعي في الاختبار



يعد اختبار الانحدار جزءًا مهمًا جدًا من العمل على جودة المنتج. وكلما زادت المنتجات وأسرع تطويرها ، كلما تطلب الأمر المزيد من الجهد.

تعلمت Yandex توسيع مهام الاختبار اليدوي لمعظم المنتجات بمساعدة المقيّمين - يعمل الموظفون عن بُعد بدوام جزئي على أساس كل قطعة على حدة ، والآن يشارك المئات من المقيّمين في اختبار منتج Yandex ، بالإضافة إلى المختبرين المنتظمين.

يقول هذا المنصب:

  • كيف تمكنت من جعل مهام الاختبار اليدوي رسمية قدر الإمكان وتدريب المئات من الموظفين البعيدين معهم ؛
  • كيف تمكنت من وضع العملية على القضبان الصناعية ، وتوفير الاختبار في بيئات مختلفة ، وتحمل اتفاقية مستوى الخدمة في السرعة والجودة ؛
  • ما الصعوبات التي واجهوها وكيف تم حلها (والبعض الآخر لم يقرر بعد) ؛
  • ما هي المساهمة التي قدمها الاختبار من قبل المقيّمين في تطوير منتجات Yandex ، وكيف أثرت على تكرار الإصدارات وعدد الأخطاء التي تم تمريرها.

يستند النص إلى نص تقرير Olga Megorskaya من مؤتمر May Heisenbug 2018 Piter:



منذ يوم التقرير ، تمكنت بعض الأرقام من التغيير ، في مثل هذه الحالات ، أشرنا إلى البيانات الفعلية بين قوسين. ما يلي هو منظور الشخص الأول:

سنتحدث اليوم عن استخدام تقنيات التعهيد الجماعي لزيادة مهام الاختبار اليدوي.

لدي لقب وظيفي غريب نوعًا ما: رئيس قسم تقييمات الخبراء. سأحاول أن أقول بأمثلة ما أفعله. في ياندكس ، لديّ عاملان رئيسيان للمسؤولية:



من ناحية ، هذا كله متعلق بالاستعانة بمصادر خارجية. أنا مسؤول عن منصة Yandex.Tolok للتعهيد الجماعي.

ومن ناحية أخرى ، يمكن أن تعزى الفرق التي ، إذا حاولت إعطاء تعريف عالمي ، إلى "وظائف شاغرة غير منتجة". يتضمن الكثير من الأشياء المختلفة ، بما في ذلك أحد مشاريعنا الأخيرة: الاختبار اليدوي بمساعدة الحشود ، والذي نسميه "اختبار من قبل المقيمين".

نشاطي الرئيسي في Yandex هو أنني أجمع الأعمدة اليمنى واليسرى من الصورة وأحاول تحسين المهام والعمليات في الإنتاج الضخم باستخدام التعهيد الجماعي. واليوم سنتحدث عنها فقط باستخدام مثال مهام الاختبار.

ما هو التعهيد الجماعي؟


لنبدأ بما هو التعهيد الجماعي. يمكننا أن نقول أن هذا هو استبدال خبرة أحد المتخصصين بما يسمى "حكمة الجمهور" في الحالات التي تكون فيها خبرة أحد المتخصصين مكلفة للغاية أو يصعب قياسها.

تم استخدام التعهيد الجماعي بنشاط في مختلف المجالات لسنوات عديدة. على سبيل المثال ، وكالة ناسا مولعة جدًا بمشاريع التعهيد الجماعي. هناك ، بمساعدة "الحشد" ، يكتشفون ويكتشفون أشياء جديدة في المجرة. تبدو هذه مهمة صعبة للغاية ، ولكن بمساعدة التعهيد الجماعي ، تأتي إلى مهمة بسيطة إلى حد ما. هناك موقع خاص يتم نشر مئات الآلاف من الصور الملتقطة بواسطة التلسكوبات الفضائية ، ويسألون أي شخص يريد البحث عن أشياء معينة هناك. وعندما يجد الكثير من الأشخاص مشابهًا للريبة بشكل مشابه للكائن الذي يحتاجون إليه ، فإن المتخصصين من المستوى الأعلى مرتبطون بالفعل ويبدأون في استكشافه.

بشكل عام ، يعد التعهيد الجماعي طريقة من هذا القبيل ، عندما نأخذ مهمة كبيرة رفيعة المستوى ونقسمها إلى العديد من المهام الفرعية البسيطة والمتجانسة ، والتي يتجمع فيها العديد من الفنانين المستقلين. يمكن لكل من الفنانين حل واحد أو أكثر من هذه المهام الصغيرة ، وكلهم يعملون معًا في نهاية المطاف من أجل قضية مشتركة كبيرة ويجمعون نتائج رائعة لمهمة عالية المستوى.

ياندكس التعهيد الجماعي


لقد بدأنا بالفعل عدة سنوات لتطوير نظام التعهيد الجماعي لدينا. في البداية ، تم استخدامه للمهام المتعلقة بتعلم الآلة: لجمع بيانات التدريب ، لتكوين الشبكات العصبية ، خوارزميات البحث ، وما إلى ذلك.



كيف يعمل نظامنا الجماعي التعهيد؟ أولاً ، لدينا Yandex.Toloka . هذه منصة مفتوحة للاستعانة بمصادر خارجية يمكن لأي شخص التسجيل فيها كزبون (نشر مهامهم وتحديد سعر لهم وجمع البيانات) أو كمنفذ (العثور على مهام مثيرة للاهتمام وإكمالها والحصول على مكافأة صغيرة). أطلقنا السقف قبل بضع سنوات. الآن لدينا أكثر من مليون فنان مسجل (نسميهم tokers) ، وكل يوم في النظام يكمل حوالي 17000 شخص المهام.

نظرًا لأننا أنشأنا في البداية Toloka مع التركيز على المهام المتعلقة بتعلم الآلة ، فقد كان من المعتاد أن معظم المهام التي يؤديها المتكلمون هي مهام بسيطة للغاية وتافهة بالنسبة لشخص ما ، ولكن لا يزال من الصعب جدًا على الخوارزمية. على سبيل المثال ، انظر إلى صورة وقل ما إذا كانت تحتوي على محتوى للبالغين أم لا ، أو استمع إلى تسجيل صوتي وفك تشفير ما سمعته.

تعد Toloka أداة قوية جدًا من حيث الأداء ومقدار البيانات التي تساعد في جمعها ، ولكنها ليست تافهة للاستخدام. الأشخاص في الصورة يرتدون بالاكلافا صفراء لأن جميع فناني الأداء في Tolok مجهولون وغير معروفين للعملاء. وإدارة هذه الآلاف من الأسماء المجهولة ، للتأكد من أنهم يفعلون ما تحتاج إليه بالضبط ليس مهمة سهلة. لذلك ، ليس كل المهام التي لدينا ، نحن قادرون حتى الآن على حلها بمساعدة هذا الحشد "البري". على الرغم من أننا نسعى لتحقيق ذلك ، سأقول المزيد عن هذا لاحقًا.

لذلك ، بالنسبة للمهام عالية المستوى ، لدينا المستوى التالي من المؤدين. هؤلاء هم الأشخاص الذين نسميهم المقيّمين. قد تكون كلمة "المقيمون" غريبة بعض الشيء. لقد جاء من كلمة "تقييم" ، أي "تقييم" ، لأنه في البداية تم استخدام المقيّمين معنا لجمع تقييمات ذاتية لجودة نتائج البحث. ثم تم استخدام هذه البيانات كهدف للتعلم الآلي لوظيفة ترتيب البحث. منذ ذلك الحين ، مر الكثير من الوقت ، بدأ المقيمون في أداء العديد من المهام الأخرى المختلفة ، لذلك الآن هذه كلمة منزلية: لقد تغيرت المهام ، لكن الكلمة باقية.

في الواقع ، المقيمون لدينا هم موظفون بدوام كامل في Yandex ، لكنهم يعملون بدوام جزئي وبعيدًا تمامًا. هؤلاء هم الرجال الذين يعملون على معداتهم الخاصة. نحن نتفاعل معهم فقط عن بعد: نختارهم عن بعد ، ندربهم عن بعد ، نعمل عن بعد معهم ، وإذا لزم الأمر ، نطلقهم عن بعد. مع معظمهم ، لا نتقاطع أبدًا في الحياة. إنهم يعملون وفقًا لأي جدول مناسب لهم ، ليلًا أو نهارًا: لديهم الحد الأدنى من المعايير التي تعادل حوالي 10-15 ساعة في الأسبوع ، ويمكنهم العمل هذه المرة بالطريقة التي تناسبهم. يقوم المقيِّمون بحل مجموعة متنوعة من المشكلات: فهي مرتبطة بالبحث ، وبالدعم الفني ، وببعض الترجمات منخفضة المستوى ، وبالاختبار ، والذي سنتحدث عنه لاحقًا.

كقاعدة عامة ، بغض النظر عن المهمة التي نتخذها ، فإن الأشخاص الأكثر موهبة دائمًا يبرزون من مجموعة المقيمين الذين يؤدونها بشكل أفضل ، والذين تعتبر هذه المهمة أكثر إثارة للاهتمام. نحن نفرزهم ، ونمنحهم اللقب الصاخب للمتحدثين الفائقين ، وهؤلاء الرجال يقومون بالفعل بوظائف عالية المستوى للمنسقين: فهم يتحققون من جودة عمل الآخرين ، ويستشيرونهم ، ويدعمونهم ، وما إلى ذلك.

وفقط في أعلى هرمنا ، لدينا أول موظف بدوام كامل يجلس في المكتب ويدير هذه العمليات. لدينا عدد أقل من هؤلاء الأشخاص الذين هم بالفعل في مستوى أعلى بكثير ولديهم مهارات فنية وإدارية قوية ، حرفيا القليل. يسمح لنا هذا النظام بالتوصل إلى استنتاج مفاده أن هذه الوحدات من الأشخاص "رفيعي المستوى" تبني خطوط الأنابيب وتدير سلاسل الإنتاج ، حيث يشارك فيها عشرات ومئات بل وآلاف الأشخاص.

هذا المخطط في حد ذاته ليس جديدًا ، لكن جنكيز خان طبقه بنجاح. لديها العديد من الخصائص المثيرة للاهتمام التي نحاول استخدامها. الخاصية الأولى مفهومة تمامًا - من السهل جدًا قياس هذا المخطط. إذا كانت المهمة تحتاج إلى البدء فجأة في القيام بالمزيد ، فلا نحتاج إلى البحث عن مساحة إضافية في المكتب لزرع شخص ما في مكان ما. بشكل عام ، يمكننا أن نفكر قليلاً جدًا في ما يلي: ما عليك سوى صب المزيد من الأموال ، وتوظيف المزيد من الفنانين مقابل هذه الأموال ، ومن المحتمل أن ينمو المزيد من الرجال الموهوبين في قبعات أكاديمية من هؤلاء الفنانين ، وسيستمر هذا النظام بأكمله في التوسع.
الخاصية الثانية (وكان من المستغرب بالنسبة لي) أن مثل هذا الهرم يتم نسخه بشكل جيد للغاية بغض النظر عن مجال الموضوع الذي يتم تطبيقه فيه. ينطبق هذا أيضًا على المجال الذي سنتحدث عنه اليوم - مهام الاختبار اليدوي.

اختبار الحشد


عندما بدأنا عملية الاختبار بمساعدة الحشود ، كانت المشكلة الأكبر هي عدم وجود مرجع إيجابي. لم تكن هناك تجربة يمكننا الإشارة إليها وقولها: "حسنًا ، هؤلاء الأشخاص قاموا بذلك ، إنهم يختبرون بالفعل بمساعدة الحشود في دائرة مشابهة جدًا لنا ، وكل شيء على ما يرام هناك ، مما يعني أن كل شيء سيكون على ما يرام معنا". لذلك ، كان علينا الاعتماد فقط على تجربتنا الشخصية ، والتي تم فصلها عن مجال الموضوع للاختبار وأكثر ارتباطًا بإعداد عمليات إنتاج مماثلة ، ولكن في مجالات أخرى.

لذلك ، كان علينا أن نفعل ما نستطيع. ماذا يمكننا ان نفعل؟ في الجوهر ، تفكيك مهمة واحدة إلى مهام بمستويات صعوبة مختلفة وتشتتها على طول أهراماتنا. دعونا نرى ما حصلنا عليه.

أولاً ، نظرنا في المهام التي ينشغل بها المختبرون في Yandex وطلبنا منهم تفريق هذه المهام بشكل مشروط على مستويات مختلفة من الصعوبة. هذا هو "متوسط ​​المستشفى":



قدروا أن 57 ٪ فقط من وقتهم يقضيه في المهام المعقدة عالية المستوى ، وفي مكان ما يتم إنفاق حوالي 20 ٪ على روتين منخفض المستوى للغاية يريد الجميع التخلص منه ، وعلى المهام أكثر تعقيدًا بعض الشيء ، والتي يبدو أيضًا أنها مفوضة. بتشجيع من هذه الأرقام ، والتي تبين أنه يمكن نقل ما يقرب من نصف العمل إلى مكان ما ، فقد شرعنا في بناء الاختبار باستخدام الحشود.

ما هي أهدافنا؟

  • جعل الاختبار لم يعد الاختناق الذي ظهر بشكل دوري في عمليات الإنتاج عندما يكون الإصدار جاهزًا ، ولكنه ينتظر أن يمر الاختبار.
  • تخلص من المتخصصين البارزين والأذكياء للغاية وعلى مستوى عالٍ - المختبرين بدوام كامل - من الروتين ، وشغلهم بمهام مثيرة للاهتمام وأعلى مستوى.
  • تحسين مجموعة متنوعة من البيئات التي نختبر فيها المنتجات.
  • تعلم التعامل مع أحمال الذروة لأن المختبرين قالوا إنهم غالباً ما يكون لديهم أحمال غير متساوية. حتى إذا تعامل الفريق ، في المتوسط ​​، مع المهام ، عندما تحدث الذروة ، يستغرق الأمر وقتًا طويلاً للغاية لإخراجها.
  • نظرًا لأننا في Yandex ما زلنا ننفق الكثير من المال على اختبار الاستعانة بمصادر خارجية في بعض المشاريع ، اعتقدنا أننا نرغب في الحصول على المزيد من النتائج وتحسين نفقات الاستعانة بمصادر خارجية للحصول على الأموال التي ننفقها.

أريد أن أؤكد أنه من بين هذه الأهداف لا توجد مهمة لاستبدال المختبرين بالحشود ، أو انتهاكهم بطريقة ما ، وما إلى ذلك. كل ما أردنا القيام به هو مساعدة فرق الاختبار ، وإلغاء روتين المستوى المنخفض.

دعونا نرى ما انتهى به الأمر. سأقول على الفور أن المهام الرئيسية للاختبار لا يتم تنفيذها الآن بأقل مستوى من "الهرم" ، من قبل المتعاملين ، ولكن من قبل المقيّمين ، موظفينا بدوام كامل. علاوة على ذلك ، سنناقش بشكل رئيسي حولهم ، باستثناء النهاية.

يقوم المقيمون الآن بمهام اختبار الانحدار بالنسبة لنا وهم يقومون بكل أنواع الاستطلاعات مثل "انظر إلى هذا التطبيق واترك تعليقاتك". حوالي 300 شخص مؤهلون الآن لمهمة اللجوء الكاملة ( ملاحظة: منذ أن أصبح التقرير 500 ). لكن هذا الرقم مشروط ، لأن النظام الذي أنشأناه يعمل لعدد عشوائي من الناس: بقدر ما نحتاج. الآن يتم تغطية احتياجات الإنتاج لدينا من قبل العديد من الناس تقريبًا. هذا لا يعني أنه في كل لحظة من الوقت يكونون جميعًا مستعدين وجاهزين لتنفيذ المهمة: نظرًا لأن المقيّمين يعملون في جدول زمني مرن ، في أي وقت ، يكون 100-150 شخصًا على استعداد للتواصل. لكن مجموعة المؤدين هي نفسها. والمهام البسيطة ، مثل الاستطلاعات ، عندما تحتاج فقط إلى جمع تعليقات غير رسمية من المستخدمين ، فإننا نمر بالكثير من الأشخاص: يشارك المئات والآلاف من المقيّمين في مثل هذه الاستطلاعات.

نظرًا لأن هؤلاء أشخاص يعملون على أجهزتهم الخاصة ، فإن كل مقيم لديه أجهزته الشخصية. هذا ، بشكل افتراضي ، سطح مكتب ونوع من الأجهزة المحمولة. وفقًا لذلك ، نقوم باختبار منتجاتنا على الأجهزة الشخصية للمقيّمين. ولكن من الواضح أنه ليس لديهم جميع الأجهزة الممكنة ، لذلك إذا كنا بحاجة إلى الاختبار في بعض البيئات النادرة ، فإننا نستخدم الوصول عن بعد من خلال مزرعة الأجهزة.

يتم الآن استخدام اختبار الحشد بالفعل كعملية إنتاج قياسية لحوالي 40 ( تقريبًا: الآن 60 ) خدمات وفرق Yandex: هذه هي البريد ، والقرص ، والمتصفح (المحمول وسطح المكتب) ، والخرائط ، والبحث ، والعديد ، والكثير من. هذا فضولي. عندما وضعنا خططنا لنهاية الربع الثالث في خريف عام 2017 ، كان لدينا هدف طموح: جذب ما لا يقل عن "حتى عن طريق الاحتيال ، حتى عن طريق الرشوة" ، خمسة فرق على الأقل ستستخدم عمليات الاختبار لدينا بمساعدة الحشود. ونحن أقنعنا الجميع بشدة ، وقال: "لا تخف ، هيا ، جربها!" لكن بعد بضعة أشهر ، كان لدينا عشرات الفرق.

والآن نحن نحل مشكلة أخرى: كيفية إدارة ربط المزيد والمزيد من الفرق الجديدة التي ترغب في الانضمام إلى هذه العمليات. لذا يمكننا أن نفترض أن هذه هي الممارسة القياسية بالفعل في Yandex ، والتي تطير بشكل جيد للغاية.

ماذا فعلنا من حيث مؤشرات الإنتاج؟ نقوم الآن بإجراء حوالي 3000 حالة من اختبارات الانحدار يوميًا ( ملاحظة: اعتبارًا من أكتوبر 2018 ، هناك بالفعل 7000 حالة ). يستغرق الاختبار ، حسب الحجم ، من عدة ساعات إلى (في الذروة) يومين. يمر معظم في غضون ساعات قليلة ، في غضون يوم واحد. سمح لنا إدخال مثل هذا النظام بتخفيض التكلفة بنحو 30 ٪ مقارنة بالفترة التي استخدمنا فيها الاستعانة بمصادر خارجية. سمح هذا للفرق بالإفراج في كثير من الأحيان ، في المتوسط ​​، عدة مرات ، لأن الإصدارات بدأت تمر بالسرعة التي كانت متاحة للتطوير ، وليس تلك التي كانت متاحة للاختبار ، عندما أصبحت في بعض الأحيان اختناق.

الآن سأحاول أن أقول كيف بنينا بشكل عام عملية الإنتاج ، مما سمح لنا بالوصول إلى هذا المخطط.

البنية التحتية


لنبدأ بالبنية التحتية التقنية. أولئك منكم الذين رأوا تولوكا كمنصة ، تخيلوا كيف تبدو واجهته: يمكنك تسجيل الدخول إلى النظام ، وتحديد المهام التي تهمك ، وإكمالها. بالنسبة للموظفين الداخليين ، لدينا نسخة داخلية من Toloka ، حيث نقوم ، من بين أمور أخرى ، بتوزيع المهام من أنواع مختلفة على المقيمين لدينا.



تظهر الصورة كيف تبدو هذه الواجهة. هنا يمكنك رؤية المهام المتاحة للمقيم: هنا هناك العديد من المهام للاختبار والعديد من المهام من نوع مختلف ، والتي يعرفها المقيم من هذا المثال أيضًا كيفية القيام بها. وهكذا يأتي الشخص ، ويرى المهام المتاحة له في الوقت الحالي ، وينقر على "متابعة" ، ويتلقى حالات اختبار للتحليل ويبدأ في تنفيذها.

جزء مهم من بنيتنا التحتية هو المزارع. ليست كل الأجهزة في متناول اليد ، لذا فإن المهمة هي في الواقع زوجين: حالة اختبار والبيئة التي تحتاج إلى التحقق منها. عندما ينقر شخص ما على زر "متابعة" ، يتحقق النظام لمعرفة ما إذا كان لديه بيئة للاختبار. إذا كان هناك ، فإن الشخص ببساطة يقوم بالمهمة ويختبرها على جهاز شخصي. إذا لم يكن كذلك ، فإننا نرسلها من خلال الوصول عن بعد إلى المزرعة.



تظهر الصورة كيف تبدو ، باستخدام مثال مزرعة متنقلة. لذلك يتصل الشخص عن بعد بهاتف محمول يقع في مكتبنا في المزرعة. بالنسبة إلى Android ، نستخدم حلول OpenSTF مفتوحة المصدر. لا توجد حلول جيدة لنظام iOS - إلى الحد الذي قمنا به بالفعل (ولكننا سنتحدث عن هذا بالتفصيل في وقت ما في المرة القادمة) ، لأننا لم نتمكن من العثور على مصدر مفتوح أو شيء من المنطقي أن نشتريه. من الواضح أن المزرعة مفيدة في الحالات التي لا يوجد فيها أشخاص لديهم الأجهزة المناسبة. وهناك ميزة أخرى مهمة هي أن المزرعة لديها معدل استخدام مرتفع للغاية: كلما وحيثما جاء أي شخص ، يمكننا إرسالها إلى المزرعة في أي وقت. هذا أفضل من تسليم الأجهزة شخصيًا ، لأن الأجهزة التي يتم تسليمها إلى شخص ما تكون متاحة للعمل فقط عندما يكون هذا الشخص جاهزًا للعمل.

تحدثنا قليلاً عن كيفية تنفيذه للمقيّمين لدينا من وجهة نظر فنية ، والآن الجزء الأكثر إثارة للاهتمام بالنسبة لي: مبادئ كيفية تنظيم هذا الإنتاج.

مبادئ تنظيم الإنتاج في الحشد


بالنسبة لي في هذا المشروع ، كان من المثير للاهتمام أن مجال الموضوع يبدو محددًا للغاية ، ولكن جميع مبادئ تنظيم الإنتاج عالمية تمامًا: نفس المبادئ المستخدمة في تنظيم الإنتاج الضخم في مجالات مواضيع أخرى.

1. إضفاء الطابع الرسمي


المبدأ الأول (ليس الأهم ، ولكن أحد أهمها ، أحد "الحيتان والفيلة والسلاحف") هو إضفاء الطابع الرسمي على المهام. أعتقد أنكم جميعًا تعرفون هذا بمفردكم. تقريبًا أي مهمة أسهل للقيام بها بنفسك. من الصعب قليلاً أن أشرح لزميلك الذي يجلس إلى جانبك في الغرفة حتى يفعل ما تريده بالضبط. وتتمثل المهمة في التأكد من أن مئات الفنانين الذين لم ترهم من قبل ، والذين يعملون عن بعد ، في أي وقت تعسفي ، يفعلون بالضبط ما تتوقعه منهم - هذه المهمة هي عدة أوامر من حيث الحجم أكثر تعقيدًا وتتضمن عتبة عالية إلى حد ما للدخول لبدء القيام بذلك على الإطلاق. في سياق مهام الاختبار ، فإن المهمة معنا ، بالطبع ، هي حالة اختبار تحتاج إلى تمريرها ومعالجتها.

وما هي حالات الاختبار التي يجب أن تكون قادرة على استخدامها في مهمة مثل اختبار الحشد؟

أولاً - واتضح أن هذه ليست حقيقة على الإطلاق - يجب أن تكون حالات الاختبار بشكل عام.كانت هناك أوقات عندما أتت إلينا فرق أرادت الاتصال بالاختبارات من قبل المقيّمين ، فقلنا: "رائع ، أحضر حالات الاختبار الخاصة بك ، وسوف نتحقق منها!" في هذه اللحظة ، كان العميل حزينًا ، غادرًا ، ولم يعد دائمًا. بعد عدة نداءات من هذا القبيل ، أدركنا أنني ربما أحتاج إلى مساعدة في هذا المكان. لأنه إذا كان أحد المختبرين من فريق من خدمة ما هو نفسه يختبر خدماته بانتظام ، فهو لا يحتاج حقًا إلى حالات اختبار كاملة وموصوفة جيدًا. وإذا أردنا تفويض هذه المهمة إلى عدد كبير من المؤدين ، فلا يمكننا ببساطة الاستغناء عنها.

ولكن حتى في تلك الحالات عندما كانت هناك حالات اختبار على الإطلاق ، كانت دائمًا مفهومة فقط لأولئك الأشخاص الذين ينغمسون بعمق في الخدمة. وكل الأشخاص الآخرين خارج السياق ، كان من الصعب جدًا فهم ما يحدث هنا وما يجب القيام به. لذلك ، كان من المهم مراجعة حالات الاختبار بحيث تكون مفهومة لشخص غير منغمس في السياق.

والشيء الأخير: إذا قللنا من مهمة الاختبار لتمرير حالات محددة رسمية بشكل صارم ، فمن المهم جدًا التأكد من تحديث هذه الحالات وتحديثها وتحديثها باستمرار.

سأعطي بعض الأمثلة.



توضح الصورة أعلاه ، على سبيل المثال ، حالة جيدة من خدمة Tolok الأصلية ، والتي تحتاج فيها إلى التحقق من صحة الملف الشخصي للفنان. يتم تقسيم كل شيء في خطوات. هناك كل خطوة يجب اتخاذها. هناك توقع لما يجب أن يحدث في كل خطوة. مثل هذه الحالة ستكون واضحة لأي شخص.



وهنا مثال على مثل هذه الحالة غير الناجحة. بشكل عام ، ليس من الواضح ما يحدث. يبدو أن الوصف موجود ، ولكن في الواقع - ما هو ، ماذا تريد مني؟ حالات من هذا النوع - ليست على الفور ، تمر بشكل سيء للغاية.

كيف قمنا ببناء عملية إضفاء الطابع الرسمي على حالات الاختبار بحيث ، أولاً ، كان لدينا جميعًا ، ظهرت باستمرار وتم تجديدها ، وثانيًا ، كانت مفهومة بما يكفي للمقيّمين؟

من خلال التجربة والخطأ ، وصلنا إلى هذا المخطط:



يأتي عميلنا ، أي نوع من الخدمة أو الفريق ، وفي شكل تعسفي تعسفي مناسب له ، ويصف حالات الاختبار التي يحتاجها.

بعد ذلك يأتي المقيم الذكي الذي ينظر إلى هذا النص المصاغ بحرية ويترجمه إلى حالات اختبار رسمية بشكل رسمي يتم إضفاء الطابع الرسمي عليها ورسمها بتفاصيل صغيرة. لماذا من المهم أن هذا المقيم؟ لأنه هو نفسه كان في مكان أولئك الأشخاص الذين يأخذون حالات الاختبار من مناطق مختلفة تمامًا ، ويدرك مدى تفصيل حالة الاختبار للزملاء لفهمها.

بعد ذلك ، نركض في حالة: نعطي مهام للمقيّمين ونجمع التعليقات. يتم تنظيم العملية بحيث إذا لم يفهم الشخص ما هو مطلوب منه في حالة اختبار ، فإنه يتخطاه. كقاعدة ، بعد المرة الأولى ، هناك نسبة كبيرة إلى حد ما من التمريرات. على أي حال ، بغض النظر عن مدى نجاحنا في إضفاء الطابع الرسمي على حالات الاختبار في المرحلة السابقة ، فمن المستحيل أبدًا تخمين ما سيكون غير مفهوم للناس. لذلك ، فإن التشغيل الأول دائمًا ما يكون إصدارًا تجريبيًا ، وأهم وظائفه هي جمع التعليقات. بعد أن جمعنا التعليقات ، وتلقينا التعليقات من المقيّمين ، وتعرفوا على ما فهموه وما لم يكن كذلك ، قمنا بإعادة كتابة ، وإلحاق حالات الاختبار مرة أخرى. وبعد بضع تكرارات ، نحصل على حالات اختبار باردة وصيغة للغاية ومفهومة للجميع.

هذا الترتيب له تأثير جانبي مثير للاهتمام. أولاً ، اتضح أنه بالنسبة للعديد من الفرق ، فإن هذه ميزة قاتلة بشكل عام. يأتي الجميع إلينا ويقولون: "هل يمكنك حقًا كتابة حالات اختبار لي؟" هذا هو أهم شيء نجذب عملائنا. التأثير الثاني ، غير متوقع بالنسبة لي - الترتيب في حالات الاختبار له تأثيرات معلقة أخرى. على سبيل المثال ، لدينا كتاب تقنيون يكتبون وثائق المستخدم ، والكتابة على أساس مثل هذه الحالات الاختبارية جيدة التصميم والمفهومة أسهل بكثير بالنسبة لهم. في السابق ، كان عليهم تشتيت الخدمة لمعرفة ما يجب وصفه ، ولكن الآن يمكننا استخدام حالات الاختبار الواضحة والرائعة.

سأعطي مثالا.



هذا ما كانت عليه حالة الاختبار قبل أن تمر من خلال مفرمة اللحم لدينا: إنها قليلة جدًا ، ولم يتم ملء حقل الوصف ، وتقول "حسنًا ، انظر إلى لقطة الشاشة في التطبيق" وهذا كل ما في الأمر.



هذه هي الطريقة التي بدأ بها بعد إعادة كتابته - خطوات وتوقعات مضافة في كل خطوة. أفضل بكثير بالفعل. من الرائع العمل مع مثل هذه الحالة الاختبارية.

2. التعلم القابل للتحجيم


المهمة التالية هي المفضلة ، على ما يبدو ، مبدعة في هذا كله. هذه مهمة تعليمية قابلة للتطوير. حتى نتمكن من العمل بهذه الأرقام - "هنا لدينا 200 مقيم ، هنا 1000 ، وهنا بشكل عام 17000 توكير يعملون كل يوم" - من المهم أن نكون قادرين على تدريب الناس بسرعة وعلى نطاق واسع.


من المهم جدًا أن تأتي إلى مثل هذا النظام عندما لا تقضي وقتًا أطول في تدريب عدد تعسفي من الأشخاص مقارنة بتدريب أخصائي معين. هذا ، على سبيل المثال ، هو ما واجهناه عند العمل مع الاستعانة بمصادر خارجية. الأخصائيون رائعون جدًا ، ولكن من أجل غمرهم في سياق العمل ، استغرقت الخدمة الكثير من الوقت ، وفي المخرج ، لا يزال لدينا شخص واحد مغمور في السياق لمدة ستة أشهر. وهذا مخطط قابل للتطوير للغاية. اتضح أن كل شخص تالي بحاجة إلى الانغماس في سياق المهمة لمدة ستة أشهر أخرى. وكان من الضروري توسيع هذا الاختناق.

لأي وظائف شاغرة ، ليس فقط في الاختبار ، نقوم بتوظيف أشخاص من خلال عدة قنوات. للاختبار ، نقوم بذلك. أولاً ، نجذب الأشخاص المهتمين ، من حيث المبدأ ، باختبار المهام ، الرجال في مكان ما على مستوى المختبرين الصغار ، بالنسبة لهم هذه بداية جيدة ، الانغماس في مجال الموضوع. ولكن لا يزال هناك عدد محدود من هؤلاء الأشخاص في السوق ، ونحتاج إلى عدم وجود قيود على توظيف الأشخاص ، حتى لا نرتاح أبدًا على عدد فناني الأداء.

لذلك ، بالإضافة إلى العثور على مختبرين خصيصًا لهذه المهام ، نقوم بتنفيذ مجموعة من الأشخاص الذين استجابوا ببساطة للموقف العام للمقيم. نحن نؤيد هذا النهج: بغض النظر عن الأشخاص الذين تأخذهم ، إذا كان هناك الكثير منهم ، يمكنك بناء عملية بحيث تختار أكثرهم قدرة وتوجيههم لحل المشكلة التي تتابعها. في سياق الاختبار ، نبني التدريب بحيث يمكن للأشخاص التعسفيين الذين لم يعرفوا أي شيء عن الاختبار أن يعلموا على الأقل الحد الأدنى من الأساسيات حتى يبدأوا في فهم شيء ما. بفضل هذا النهج ، لم نواجه أبدًا نقصًا في الأداء وعدد الأشخاص الذين يعملون لدينا في هذه المهام ، كل ذلك يتعلق بالسؤال عن مقدار الأموال التي نرغب في إنفاقها عليها.

لا أعرف عدد المرات التي تصادف فيها هذا الموضوع ، ولكن في جميع أنواع المقالات العلمية الشائعة ، خاصةً حول التعلم الآلي والشبكات العصبية ، غالبًا ما تتم كتابة أن التعلم الآلي مشابه جدًا للتدريب البشري. نظهر للطفل 10 بطاقات مع صورة الكرة ، وللمرة الحادية عشرة سيفهم ويقول: "أوه! هذه كرة! " في الواقع ، رؤية الكمبيوتر وأي تقنيات أخرى للتعلم الآلي تعمل أيضًا في جوهرها.

أريد أن أتحدث عن الموقف المعاكس: يمكن بناء الأشخاص بنفس الطريقة الرسمية التي يتم بها بناء آلات التدريب. ماذا نحتاج لهذا؟ نحن بحاجة إلى مجموعة تدريب - مجموعة من الأمثلة المحددة مسبقًا التي سيتم تدريب الشخص عليها. نحن بحاجة إلى مجموعة تحكم ، يمكننا التحقق من ما إذا كان قد درس جيدًا أم لا. كما هو الحال في التعلم الآلي ، أنت بحاجة إلى مجموعة اختبار نفهم بها كيفية عمل وظيفتنا بشكل عام. ونحتاج إلى مقياس رسمي لقياس جودة العمل المنجز. بناء على هذه المبادئ ، قمنا ببناء التدريب في مهام أبسط اختبار الانحدار.


تظهر الصورة كيف يبدو هذا التدريب معنا. يتكون من عدة أجزاء. أولاً ، هناك نظرية ، ثم ممارسة ، ثم يتم إجراء امتحان ، حيث نتحقق مما إذا كان الشخص قد فهم جوهر المشكلة أم لم يفهم.



لنبدأ بالنظرية. من الواضح أنه بالنسبة لأي مهمة يقوم بها المقيم ، لدينا تعليمات كبيرة وثقيلة وكاملة مع عدد كبير من الأمثلة ، حيث يتم وصف كل شيء بتفصيل كبير. لكن لا أحد يقرأها.

لذلك ، من أجل التحقق من أن المعرفة النظرية استقرت بالفعل في رأس الشخص ، فإننا نمنح دائمًا الوصول إلى التعليمات ، ولكن بعد ذلك نستخدم ما نسميه بشروط "اختبار نظري". هذا اختبار ، حيث نحمّل الأسئلة المهمة مسبقًا والإجابات الصحيحة. قد تكون الأسئلة الأكثر غباء. أعتقد أن هذه ستكون أمثلة كوميدية بالنسبة لك ، ولكن بالنسبة للأشخاص الذين يواجهون مهام الاختبار لأول مرة في حياتهم ، فهذه ليست أشياء واضحة على الإطلاق. على سبيل المثال: "إذا قابلت العديد من الأخطاء ، فهل أحتاج إلى بدء عدة تذاكر - واحدة لكل خطأ - أو التخلص من كل شيء في كومة واحدة؟" أو: "ماذا لو كنت أرغب في التقاط لقطة شاشة ، ولكن لقطة الشاشة لا تناسبني؟"

يمكن أن تكون هذه مختلفة تمامًا ، وأسئلة تعسفية منخفضة المستوى ، ومن المهم بالنسبة لنا أن يعمل الشخص من خلالهم بشكل مستقل في مرحلة دراسة النظرية. لذلك ، يتكون الاختبار النظري من أسئلة من هذا النوع: "وجدت العديد من الأخطاء ، هل يجب أن أحصل على تذكرة واحدة أو عدة؟" إذا اختار شخص الإجابة الخاطئة ، يخرج قالب أحمر يقول: "لا ، انتظر ، الجواب الصحيح مختلف ، انتبه إليه". حتى لو لم يقرأ الشخص التعليمات ، لا يمكنه اجتياز هذا الاختبار.



النقطة التالية هي الممارسة. كيف تتأكد من أن الأشخاص الذين لم يعرفوا شيئًا عن الاختبار على الإطلاق ولم يستجبوا بشكل خاص لشغور المختبر ، فهموا ما يجب القيام به بعد ذلك؟ نأتي هنا إلى مجموعة التدريب تلك. أعتقد أنك ستجد على الفور عددًا كبيرًا من الأخطاء الموجودة في هذه الصورة. هذه هي الطريقة التي تبدو بها مهمة التدريب للمقيم: هنا لقطة أمامك ، ابحث عن كل الأخطاء عليها. ما هو الخطأ هنا؟ الآلة الحاسبة تخرج. ماذا ايضا؟ ذهب التخطيط.



أو هذا مثال أكثر تعقيدًا بعلامة النجمة. صندوق بريد المستلم الرئيسي مفتوح ، أنا الشخص الذي أُرسلت إليه هذه الرسالة. لذا أرى مثل هذه الصورة أمامي. ما هو الخطأ هنا؟ أكبر مشكلة هنا هي عرض نسخة عمياء ، وبصفتي مستلمًا للخطاب ، أرى من هو في النسخة العمياء.

بعد اجتياز بضع عشرات من هذه الأمثلة ، حتى الشخص الذي لا يبعد كثيرًا عن الاختبار ، يبدأ بالفعل في فهم ما هو وما هو مطلوب منه عند اجتياز حالات الاختبار. الجزء العملي هو مجموعة من الأمثلة التي نعرف فيها بالفعل الأخطاء ؛ نطلب من الشخص أن يجدها وفي النهاية نريه: "انظر ، الخطأ كان هنا" ، حتى يربط تخميناته بإجاباتنا الصحيحة.



والجزء الأخير هو ما نسميه امتحان. لدينا مجموعة اختبار خاصة ، البق معروف لنا بالفعل ، ونطلب من الشخص المرور به. هنا لم نعد نعرض له الإجابات الصحيحة وغير الصحيحة ، ولكن فقط انظر إلى ما يمكن أن يجده.

يكمن جمال هذا النظام وقابليته في حقيقة أن كل هذه العمليات تحدث بشكل مستقل تمامًا ، دون مشاركة المدير. نحن ندير العدد الذي تريده من الأشخاص: كل من يريد قراءة التعليمات ، وكل من يريد إجراء الاختبار النظري ، وكل من يريد أن يأخذ الممارسة - كل هذا يحدث تلقائيًا بلمسة زر ، وليس لدينا أي مخاوف على الإطلاق.

الجزء الأخير - الامتحان - يتم تمريره أيضًا من قبل كل من يريد ذلك ، وبعد ذلك ، أخيراً ، نبدأ في النظر إليهم بعناية. نظرًا لأن هذه مجموعة اختبار ونعلم كل أخطاءها مسبقًا ، يمكننا تحديد النسبة المئوية للأخطاء التي عثر عليها الشخص تلقائيًا. إذا كانت منخفضة جدًا ، فإننا لا ننظر إلى أبعد من ذلك ، نكتب نبضًا تلقائيًا: "شكرًا جزيلاً على جهودك!" - ولا تسمح لهذا الشخص بالوصول إلى المهام القتالية. إذا رأينا أنه تم العثور على جميع الأخطاء تقريبًا ، فعندئذٍ يقوم شخص ما بالفعل بالاتصال بمن ينظر في كيفية إصدار التذاكر بشكل صحيح ، وكم يتم كل شيء بشكل صحيح وفقًا للإجراء ، من وجهة نظر تعليماتنا.

إذا رأينا أن شخصًا يتقن كل من النظرية والممارسة بشكل مستقل واجتاز الاختبار جيدًا ، فعندئذ نترك مثل هؤلاء الأشخاص في عمليات الإنتاج لدينا. هذا المخطط جيد لأنه لا يعتمد على عدد الأشخاص الذين نمر به. إذا كنا بحاجة إلى المزيد من الناس ، فإننا نغرق المزيد من الناس عند المدخل ونحصل على المزيد عند الخروج.

هذا نظام رائع ، ولكن ، بالطبع ، سيكون من السذاجة الاعتقاد أنه بعد ذلك يمكنك بالفعل الحصول على اختبار جاهز. حتى الرجال الذين أكملوا تدريبنا بنجاح لديهم العديد من الأسئلة التي يحتاجونها للمساعدة بسرعة. وهنا نواجه الكثير من المشاكل غير المتوقعة لنا.

يسأل الناس الكثير من الأسئلة. علاوة على ذلك ، يمكن أن تكون هذه الأسئلة غريبة جدًا لدرجة أنك لم تكن لتعتقد أبدًا في حياتك أنه يجب إضافة الإجابات على هذه الأسئلة إلى التعليمات الموضحة في اختبار أو شيء من هذا القبيل. إذا فكرت في الأمر ، فهذا وضع طبيعي. كل منا ، عندما نجد أنفسنا في منطقة غير معروفة لأنفسنا ، من غير المحتمل أن يطرح سؤالًا يبدو سخيفًا للمتخصص.

هنا الوضع يتفاقم من حقيقة أن لدينا عدة مئات من هؤلاء الناس ، وحتى إذا سأل كل منا شخصًا معينًا ، فإن احتمال طرح سؤال غبي منخفض ، في المجموع اتضح: "آه! اللهم ما الذي يجري؟ إنه يغمرنا! "

في بعض الأحيان تبدو الأسئلة غريبة. على سبيل المثال ، يكتب أحد الأشخاص: "أنا لا أفهم ما يعنيه" الاستفادة من التراجع ". قالوا له: يا صديقي! هذا هو نفس النقر على زر "إلغاء". قال: "أوه! شكرا لك! الآن أفهم كل شيء. "

أو يقول شخص آخر: "يبدو أن كل شيء على ما يرام ، ولكن هناك شيء مكسور بعض الشيء ، لا أستطيع أن أفهم ما إذا كان هذا خطأ أم لا." ولكن بعد دقيقة يفهم هو نفسه أين دخل في مهمة الاختبار ؛ ربما الصورة المكسورة ليست طبيعية للغاية. هنا فهم ، وحسنا.

أو إليكم مثال مثير للاهتمام أغرقنا بالفعل في هاوية البحث لفترة طويلة. يأتي رجل ويقول:



لا يفهم الجميع ما يحدث ، من أين أتى - حاولنا بجد وصف حالات الاختبار الموصوفة - حتى نكتشف أن لديه نوعًا خاصًا من امتداد المتصفح الخاص الذي يترجم من الروسية إلى الإنجليزية ، ومن الإنجليزية إلى الروسية ، وفي النهاية نحصل على بعض البدع.

في الواقع ، هناك العديد من هذه الأسئلة ، تستغرق دراسة كل منها بعض الوقت غير الصفري. وفي مرحلة ما ، بدأ عملاؤنا - خدمات فريق Yandex التي استخدمت الاختبارات من قبل المقيّمين - في تمزيق شعرهم قائلين: "اسمع ، سنقضي وقتًا أقل بكثير إذا اختبرنا كل هذا بأنفسنا من الجلوس في غرف الدردشة هذه والإجابة لهذه الأسئلة الغريبة. "

لذلك ، وصلنا إلى نظام دردشة من مستويين. هناك فيضان مشروط ، حيث يتواصل المقيمون لدينا مع القيمين عليهم ، هؤلاء "الرجال في القبعات" - 90٪ من المشكلات يتم حلها هنا. ويتم تصعيد المشكلات الأكثر أهمية وتعقيدًا فقط إلى محادثة مخصصة يجلس فيها فريق الخدمة. هذا سهّل بشكل كبير حياة جميع الفرق ، تنهد الجميع بهدوء.



هذه الفظائع التي أتحدث عنها ليست رهيبة. الخبر السار هو أن كل هذه العمليات تتقارب بسرعة كبيرة. أي عملية إطلاق أولى تكون دائمًا سيئة للغاية. في الصورة أعلاه ، تظهر 6 بدايات متتالية من نفس الانحدار.

انظر إلى مقدار الوقت الذي يقضيه الموظفون في الإجابة عن الأسئلة ، لأول مرة عندما لم يفهم المقيمون ما كانوا يتحدثون عنه وماذا يريدون منهم. لقد وجدوا القليل من الأخطاء ، بدأوا الكثير من التذاكر عن لا شيء على الإطلاق. لذلك ، المرة الأولى هي الرعب - الرعب - الرعب ، والمرة الثانية هي الرعب - الرعب ، وفي المرة الثالثة ، تتلاقى 80 في المائة من جميع العمليات. ثم تأتي بعد ذلك العملية الرائعة: اعتاد المقيمون على المهمة الجديدة ، وبعد كل عملية إطلاق نجمع الملاحظات ، ونكمل حالات الاختبار ، ونفرز شيئًا ما. وتبين أنه مصنع رائع يعمل بنقرة زر ولا يتطلب أي مشاركة من أخصائي بدوام كامل.

3. مراقبة الجودة


نقطة مهمة للغاية ، والتي بدونها لن ينجح كل هذا ، هي مراقبة الجودة.

يعمل المقيمون لدينا على أجور القطع: يتم تنظيم جميع مهامهم وتحديدها بشكل واضح للغاية ، ولكل وحدة عمل تعريفة معيارية خاصة بها ، ويتلقون مدفوعات مقابل عدد الوحدات المكتملة. يعمل Toloka تمامًا بنفس الطريقة ، وبشكل عام أي حشد. هذا النظام له العديد من المزايا ، إنه مرن للغاية ، ولكن له أيضًا عيوبه. في نظام بأجر القطعة ، سيحاول أي مقاول تحسين عملهم - يقضي أقل وقت وجهد ممكن في المهمة للحصول على المزيد من المال لكل وحدة زمنية. لذلك ، فإن أي نظام مبني على التعهيد الجماعي مضمون للعمل مع الحد الأدنى من الجودة التي تسمح بها. إذا لم يكن لديك تحكم في الجودة ، فسوف تنخفض إلى أدنى مستوى ممكن.

الخبر السار هو أنه يمكنك محاربته ، يمكن السيطرة عليه. إذا استطعنا تحديد جودة العمل ، فإن المهمة تأتي إلى مهمة بسيطة إلى حد ما. هذا من الناحية النظرية. من الناحية العملية ، ليس الأمر بهذه البساطة على الإطلاق ، خاصة في مهام الاختبار. لأن الاختبار ، على عكس العديد من المهام الجماعية الأخرى التي قمنا بحلها بمساعدة المقيّمين ، يتعامل مع الأحداث النادرة ، وجميع أنواع الإحصائيات تعمل بشكل سيئ هناك. من الصعب جدًا فهم عدد المرات التي يعثر فيها الشخص على الأخطاء بالفعل ، إذا كان هناك عدد قليل جدًا من الأخطاء. لذلك ، علينا أن ننحرف ونستخدم عدة طرق لمراقبة الجودة في وقت واحد ، والتي ستعطينا معًا صورة معينة عن الجودة التي يعمل بها المؤدي.

الأول هو الاختيار في التداخل. يعني "التداخل" أننا نخصص كل مهمة لعدة أشخاص. نقوم بذلك بشكل طبيعي ، لأن كل حالة اختبار يجب اختبارها في عدة بيئات. وبالتالي ، اتضح أن نفس حالة الاختبار تم فحصها في البيئات A و B و C. لدينا ثلاث نتائج من ثلاثة أشخاص - اجتياز نفس حالة الاختبار. ثم ننظر إلى ما إذا كانت النتائج متباينة.

يحدث أحيانًا أنه تم العثور على خطأ في بيئة واحدة ، ولكن ليس في بيئتين أخريين. ربما يكون ذلك حقًا ، أو ربما خطأ شخص ما: إما أن شخصًا واحدًا وجد خطأً إضافيًا ، أو هذين الاثنين خدع ولم يجد شيئًا. على أي حال ، هذه حالة مريبة. إذا واجهنا ذلك ، فإننا نرسل إعادة فحص إضافية للتأكد والتأكد من على صواب ومن هو المسؤول. يسمح لنا هذا المخطط بالقبض على الأشخاص الذين ، على سبيل المثال ، بدأوا تذاكر إضافية حيث لم تكن هناك حاجة إليها ، أو فاتهم حيث كانوا بحاجة إليها. في الوقت نفسه ، ننظر في كيفية فتح التذكرة بشكل صحيح ، سواء كان كل شيء وفقًا للإجراء: تتم إضافة لقطات شاشة ، إذا لزم الأمر ، هو وصف واضح مضاف ، وما إلى ذلك.

بالإضافة إلى ذلك ، ولا سيما هذا يتعلق فقط بصحة التذاكر ، من اللطيف والملائم التحكم تلقائيًا في بعض الأشياء التي تبدو من ناحية ، تافهة ، ولكن من ناحية أخرى ، تؤثر بشدة على سير العمل. لذلك ، نتحقق تلقائيًا مما إذا كان هناك تطبيق على التذكرة ، وما إذا تمت إضافة لقطات شاشة ، وما إذا كانت هناك تعليقات في التذكرة أو تم إغلاقها ببساطة دون النظر في مقدار الوقت الذي تم قضاؤها فيه لتحديد الحالات المشبوهة. هنا يمكنك الخروج بالعديد من الأساليب البحثية المختلفة وتطبيقها. العملية تكاد لا تنتهي.

التحقق من التداخل هو أمر جيد ، ولكنه يعطي تقييمًا متحيزًا إلى حد ما ، لأننا نتحقق فقط من الحالات المثيرة للجدل. في بعض الأحيان تريد إجراء فحص موضعي أمين. للقيام بذلك ، نستخدم تشغيل اختبار. في مرحلة التدريب ، قمنا بتجميع مجموعات اختبار خاصة نعلم فيها مسبقًا حيث توجد أخطاء وأين لا. نحن نستخدم عمليات إطلاق مماثلة لمراقبة الجودة والتحقق من عدد الأخطاء التي عثر عليها الشخص وعدد الأخطاء التي لم يرد عليها. هذه طريقة رائعة ، تعطي الصورة الأكثر اكتمالا للعالم. لكن استخدامه مكلف للغاية: بينما لا نزال نجمع تجميع اختبار جديد ... نستخدم هذا النهج نادرًا جدًا ، كل بضعة أشهر.

النقطة المهمة الأخيرة: حتى لو فعلنا كل شيء بالفعل ، يجب علينا بالتأكيد تحليل سبب تخطي الأخطاء. نتحقق مما إذا كان من الممكن العثور على هذا الخطأ من خلال خطوات حالة الاختبار. إذا كان ذلك ممكنًا ، لكن الشخص فاته ، فعندئذ يكون الشخص قدحًا ، وعليك أن يكون له بعض التأثير عليه. وإذا لم تكن هذه الحالة موجودة ، فأنت بحاجة إلى تكملة بطريقة ما ، تحديث حالات الاختبار.

ونتيجة لذلك ، قمنا بتقليل جميع مقاييس الجودة في تصنيف واحد للمقيمين ، مما يؤثر على حياتهم المهنية ومصيرهم في نظامنا. كلما ارتفع تصنيف الشخص ، كلما حصل على مهام ومطالبات أكثر صعوبة للحصول على جوائز. كلما انخفض تصنيف المقيم ، زاد احتمال رفضه. عندما يعمل الشخص بثبات مع تصنيف منخفض ، فإننا في النهاية نفترقه معه.

4. التفويض


آخر أركان مخططنا الهرمي القابل للتطوير الذي أريد التحدث عنه هو مهام التفويض.



سوف أذكر مرة أخرى كيف يبدو هرمنا لمهام الاختبار اليدوي. لدينا أشخاص "رفيعو المستوى" - هؤلاء هم المختبرون بدوام كامل ، وممثلو فريق الخدمة الذين يؤلفون برامج تدريبية للخدمة التي يحتاجون إلى اختبارها ، ويشكلون إستراتيجية لما يجب اختباره ، ويكتبون حالات الاختبار الأساسي في شكل حر.

علاوة على ذلك ، لدينا أكثر المقيّمين الموهوبين الذين ينقلون حالات الاختبار من الشكل الحر إلى الرسميين ، ويساعدون المقيّمين الآخرين ، ويدعمونهم في غرف الدردشة ويضطلعون بفحص شامل ومراقبة انتقائية للجودة.
علاوة على ذلك ، هناك سحابة من العديد من فناني الأداء الذين يقومون بالتراجع خطوة بخطوة.

بعد ذلك لدينا تولوكا ، التي لم ننسها.نحن الآن في مرحلة التجارب: نتفهم أنه يمكن إعطاء أبسط الحالات للاختبار لجمهور غير شخصي في تولوكا. سيكون أرخص بكثير وأسرع ، لأن هناك المزيد من المؤدين هناك. ولكن بينما نحن بصدد بناء هذا النظام. الآن نقدم فقط أبسطها ، ولكن آمل أن نصل إلى حقيقة أننا سنفوض هناك أكثر من بضعة أشهر.



من المهم جدا مراقبة التطور السليم لهذا الهرم. أولاً (غالبًا ما يتم طرح مثل هذه الأسئلة علي ، لذلك أريد الإجابة عليها بشكل استباقي) ، لا يعد التعهيد الجماعي رفضًا لعمل متخصصين رفيعي المستوى لصالح الحشود ، بل أداة تحجيم. لا يمكننا رفض الجزء العلوي من هذا الهرم ، "رأسنا" ، يمكننا فقط استخدام التعهيد الجماعي لإضافة المزيد من الأيدي إلى هذا النظام ، لذلك من السهل حقًا توسيعه مجانًا تقريبًا.

ثانيًا ، هذا ليس علم الصواريخ ، ولكن عليك أن تتذكر هذا باستمرار: القصة بأكملها تعمل بشكل صحيح وصحيح إذا تم حل المهام الأكثر صعوبة لهذا المستوى في كل مستوى. بشكل تقريبي ، إذا كان من الممكن القيام بنفس الشيء على عدة مستويات من الهرم ، فيجب أن يتم ذلك في أدنى مستوى له. هذه ليست قصة ثابتة ، ولكنها قصة ديناميكية. نبدأ بحقيقة أنه لا يمكن إلا للأشخاص "رفيعي المستوى" القيام ببعض المهام ، وتحسين العملية تدريجياً وخفض هذه المهام أدناه ، وتوسيع نطاق العملية برمتها ورخصها.

وكثيرا ما أسمع مثل هذا التصريح: "لماذا تهتم بهذه الحديقة ، من الأفضل أتمتة كل شيء وإنفاق الطاقة عليه." لكن التعهيد الجماعي ليس بديلاً عن الأتمتة ، بل هو شيء موازٍ. نحن لا نقوم بذلك بدلاً من الأتمتة ، ولكن بالإضافة إلى ذلك. يسمح لنا مثل هذا النظام فقط بتحرير العمال الذين يمكن أن يشاركوا في الأتمتة ، من ناحية ، ومن ناحية أخرى ، إضفاء الطابع الرسمي على العملية بشكل جيد للغاية ، والتي سيكون من الأسهل بكثير بعد ذلك أتمتة.


في النهاية ، سأذكر مرة أخرى كيف تبدو قصتنا بأكملها. نبدأ بالحصول على حالات الاختبار في شكل حر. نحن نديرها عدة مرات من خلال المقيّمين ، ونجمع التعليقات ، ونحددها. بعد ذلك نحصل على حالات اختبار باردة ، يمسح بالفعل. بالتوازي مع هذا ، نقوم بتجنيد العديد من الأشخاص ، من خلال نظام التدريب التلقائي وعند الخروج ، نحصل فقط على أولئك الذين تمكنوا من التعامل مع جميع الخطوات بمفردهم وأدركوا ما أردناه منه. نحصل على حشد مدرب. يعمل مع حالات اختبار رسمية بالنسبة لنا ، ونتحكم في جودتها: نحن نتحقق منها باستمرار ، ونحلل الحالات التي بها أخطاء مفقودة من أجل تحسين عملياتنا.

ومثل هذا النظام يعمل بالنسبة لنا ، الذباب. لا أعرف ما إذا كانت قصتي ستكون مفيدة الآن لشخص من وجهة نظر عملية ، ولكن آمل أن تسمح لنا بالتفكير على نطاق أوسع قليلاً وافتراض أنه يمكن حل بعض المهام بهذه الطريقة. لأنه - وكثيراً ما نواجه هذا - يمكن لأحدكم أن يلفت انتباهك بالفعل: "حسنًا ، ربما يعمل هذا في مكان ما ، ولكن بالتأكيد ليس من أجلي. لدي مهام صعبة لدرجة أنني لا أهتم بها على الإطلاق ". لكن تجربتنا تشير إلى أنه من الناحية العملية ، يمكن تحجيم أي مهام من أي مجال تقريبًا تقريبًا ، إذا تم تفكيكها بشكل صحيح ، وإضفاء الطابع الرسمي عليها وإدماجها في عملية واضحة ، جزئيًا على الأقل بمساعدة الجماهير.

Heisenbug 2018 Piter , : 6-7 Heisenbug , , .

Source: https://habr.com/ru/post/ar425247/


All Articles