اختبار البيانات: المتطلبات والمستويات



اسمي أليكسي شوماغين ، أنا مُختبِر في بروفيكتوس. في هذه المقالة ، سأخبرك بكيفية تشكيل متطلبات جودة البيانات ومستويات اختبار البيانات التي يمكن أن تكون.


التحديث:
تتناول المقالة بيانات كبيرة (أو ليست كذلك) ، بناءً على التحليل والتجميع ، والتي يتم استخدامها لبناء عمليات مختلفة ، ويتم اشتقاق الأنماط لاستخدامها في المزيد من التحليل أو لاتخاذ القرار. يمكن جمع البيانات لمشروع معين من الصفر ، أو يمكن استخدام قواعد البيانات التي تم جمعها في وقت سابق لمشاريع أخرى أو لأغراض تجارية. مصادر هذه البيانات متنوعة ولا تشمل فقط المدخلات من قبل المشغلين ، ولكن أيضًا القياسات الآلية و / أو التلقائية المخزنة في قاعدة البيانات بشكل منهجي أو غير منهجي (في كومة ، "ثم سنكتشف ماذا نفعل بها").

نهاية التحديث.


لماذا اختبار البيانات مهم


تلعب البيانات دورًا متزايد الأهمية في صنع القرار ، سواء في الحياة اليومية أو في الأعمال. تتيح لك التقنيات والخوارزميات الحديثة معالجة وتخزين كميات هائلة من البيانات ، وتحويلها إلى معلومات مفيدة.

ما نوع هذه البيانات؟ على سبيل المثال ، سجل المتصفح الخاص بك ، والمعاملات على خريطتك ، ونقطة حركة الجهاز. إنها غير شخصية ، لكن هذه البيانات لا تزال تنتمي إلى جهاز معين. إذا قمت بجمعها ومعالجتها ، يمكنك الحصول على معلومات مثيرة للاهتمام حول مالك هذا الجهاز. على سبيل المثال ، أين يحب أن يذهب ، ما هو جنسه وعمره. لذا نقوم تدريجياً "بنسنة" الجهاز ومنحه بعض الخصائص.

ثم يمكن استخدام هذه المعلومات للإعلانات المستهدفة. إذا كنت امرأة ، فعندئذ مع درجة عالية من الاحتمال ، يمكنك القول أنك لست مهتمًا بالإعلان عن شفرات الحلاقة للرجال. تحتاج إلى عرض الإعلانات المتعلقة باهتماماتك. يمكن تحسين جودة الاستهداف الإعلاني نظرًا لأنه معروف عن الأجهزة التي يظهر عليها. يظهر لك الإعلان الذي تريد رؤيته. لذا ، ستضغط عليها. سيتلقى الأشخاص الذين يعرضون لك هذا الإعلان أموالًا مقابله ، وسيحصل عميل الإعلان على ربح مما تتعلمه عن منتجه.

كل هذا يعتمد على البيانات المملوكة لشركات وأشخاص مختلفين. يتطلب الاستخدام الفعال لهذه البيانات أن تكون موثوقة ونعلم أن هذه المعاملة تنتمي إلى هذا الحساب.

نظرًا لوجود الكثير من البيانات ، فإن تخزينها يتطلب موارد كبيرة. تنظيف البيانات مهمة منفصلة تحتاج إلى معالجة. نريد تخزين البيانات التي نحتاجها فقط. ولا نريد تخزين النسخ المكررة أو السجلات التي لا تستوفي معاييرنا في قاعدة بياناتنا. على سبيل المثال ، السجلات ذات الحقول الفارغة. لذلك ، هناك متطلبات لجودة البيانات وينشأ السؤال عن اختبارها.

ما هي الجودة؟


يعجبني هذا التعريف: جودة المنتج هي مقياس لرضا المستخدمين. من الواضح أن كل هذا يتوقف على سياق استخدام المنتج. إذا كنت تستخدم أي منتج معروف ، على سبيل المثال ، Facebook أو Skype ، فلديك نفس متطلبات الجودة. سوف تتحمل بعض الأخطاء ، ولكن لا تزال تستخدم هذا المنتج. وإذا كنت أحد عملاء البرنامج ودفعت المال مقابله ، فستكون متطلبات الجودة أعلى. ستجد خطأ ، ومشاهدة بعض الأشياء الصغيرة. لدى أشخاص مختلفين أفكارًا مختلفة حول الجودة ، كما أن للبرامج المختلفة متطلبات الجودة الخاصة بها.

لذلك ، قبل التطوير والاختبار ، يحدد الأشخاص عادةً ما يعتبرونه منتجًا عالي الجودة. يمكن وصف كل هذا رسميا. على سبيل المثال ، سننظر في جودة منتجاتنا إذا لم تحتوي على أخطاء فادحة. أو إذا كان يعمل لمدة أسبوعين بدون خلل.

تحديد هذه المتطلبات ليست مهمة سهلة. عادة ، تشكل متطلبات الأعمال متطلبات البرامج ، وإذا سألنا الشركة عن البيانات التي يجب أن تكون ، فيمكننا الحصول على الإجابة بأن البيانات يجب أن تكون جيدة ونظيفة. مهمة المختبر هي معرفة أو توضيح أي نوع من البيانات يكون وما هي المعايير التي نحدد جودتها ونقاوتها. تحتاج هذه المعايير إلى أن تكون رسمية وثابتة ، وجعلها قابلة للقياس.

كيف يتم تشكيل متطلبات جودة البيانات؟


يبدأ المختبر في معرفة ما هو غير مفهوم له وما الذي يرغب في معرفته عن كائن الاختبار. يقوم المختبر بتجميع قائمة بالأسئلة ويبدأ في أخذ "مقابلة" من العميل. من الناحية النظرية ، يجب أن يعرف ما يجب أن تكون عليه البيانات. على سبيل المثال ، أسأل: هل الخلايا الفارغة أو الصفوف المكررة مسموح بها.

مثال على المتطلبات هو إذا كان لدينا قائمة بالأشخاص ، فيمكن تكرار الاسم الأول والاسم الأخير والاسم الأوسط. ولكن لا يمكن تكرار مجموعة الخطوط الكاملة. يمكن السماح بالتكرار على خلية واحدة ، ولكن لم يعد في صف كامل أو في مجموع عدة خلايا. يجب ألا يكون هناك تطابق كامل.

بعد ذلك ، نبدأ في السؤال عن تنسيق البيانات في خلية معينة. على سبيل المثال ، يجب أن يتكون رقم الهاتف من 12 رقمًا ، ويجب أن يكون رقم البطاقة المصرفية 16. وقد يكون لدينا معيار بأن ليس كل تسلسل من هذه الأحرف هو رقم بطاقة مصرفية. أو نفهم أن الأحرف فقط يمكن أن تكون في اللقب. قد يكون لدينا العديد من الأسئلة حول تنسيق البيانات. وبالتالي ، نجد كل ما نحتاج إلى معرفته حول موضوع الاختبار.

ما هي بيانات الجودة؟


يجب أن تحتوي البيانات النوعية على العديد من الخصائص.

  • الاكتمال - لا توجد فجوات في السجلات ، يجب ملء جميع الخلايا. يجب أن تحمل البيانات أكبر قدر ممكن من المعلومات.
  • التفرد - يجب ألا تكون هناك سجلات متطابقة بين البيانات.
  • الموثوقية - من أجل ذلك ، تم تصور كل شيء. لا أحد يريد العمل مع البيانات التي لا يمكن الوثوق بها. تحتوي خلايا الجداول التي تحتوي على بيانات عالية الجودة على ما يجب أن تحتوي عليه: عنوان IP ورقم الهاتف وما إلى ذلك.
  • الدقة. إذا تحدثنا عن البيانات الرقمية ، فيجب أن يكون هناك عدد دقيق من الأحرف. على سبيل المثال ، 12 منزلة عشرية. يجب أن تكون البيانات قريبة من بعض متوسط ​​القيمة.
  • الاتساق - يجب أن تحتفظ البيانات بالقيم ، بغض النظر عن كيفية قياسها.
  • حسن التوقيت - يجب أن تكون البيانات ذات صلة ، خاصة إذا تم تحديثها بشكل دوري. على سبيل المثال ، يجب أن تزيد كمية البيانات كل شهر. يجب ألا تكون البيانات قديمة. إذا كنا نتحدث عن المعاملات المصرفية ، فنحن مهتمون بالحصول عليها ، على سبيل المثال ، على مدى الأشهر الستة الماضية.

مستويات اختبار البيانات


يمكننا تجميع البيانات حسب ما يسمى بالطبقات - وهو تشابه جيد مع هرم الاختبار يعمل هنا. هذا هو توزيع عدد الاختبارات على مستويات مختلفة من التطبيق.

  • طبقة الوحدة هي عندما يتم اختبار وحدة برنامج واحدة ، غالبًا ما تكون وظيفة أو طريقة واحدة. يجب أن تكون هذه الاختبارات الأكثر. اختبار الوحدة للبيانات هو عندما نحدد متطلبات كل خلية. ليس من المنطقي إجراء المزيد من الاختبار إذا كانت لدينا أخطاء على مستوى الخلية. إذا احتوى الاسم الأخير ، على سبيل المثال ، على أرقام ، فما الفائدة من التحقق من شيء آخر؟ ربما يجب أن تكون هناك أحرف مماثلة لهذه الأرقام. ثم نحتاج إلى تصحيح كل شيء والتحقق من المستوى التالي بحيث يكون لدينا كل شيء في صيغة المفرد ولا توجد تكرارات ، إذا ذكر ذلك في المتطلبات.
  • طبقة التكامل هي عندما يتم اختبار عدة أجزاء من البرنامج معًا. طبقة واجهة برمجة التطبيقات للبيانات هي عندما نتحدث عن الجدول بأكمله. لنفترض أنه يمكن أن يكون لدينا نسخ مكررة ، ولكن ليس أكثر من مائة قطعة. إذا كان لدينا أكثر من مليون مدينة ، فلن يتمكن مليون شخص من العيش في شارع واحد. لذلك ، إذا قمنا بالاختيار على طول الشارع ، فيجب أن يكون عدد العناوين عشرة آلاف أو ألف - يجب تحديد ذلك. وإذا كان لدينا مليون ، فهناك خطأ ما في البيانات.
  • طبقة النظام هي عندما يتم اختبار البرنامج بالكامل. في حالة البيانات ، تعني هذه الطبقة أن النظام بأكمله قيد الاختبار. يتضمن هذا إحصائيات. على سبيل المثال ، نقول إنه لا يمكن أن يكون لدينا أكثر من 30٪ من الرجال الذين ولدوا بعد عام 1985. أو نقول أن 80٪ من البيانات يجب أن تكون من نفس النوع.

في الختام ، سأقول أن اختبار البيانات هو مجال يوفر العديد من الفرص للإبداع والتطوير. لا توجد رصاصة فضية هنا: يمكن استخدام طرق مختلفة لاختبار البيانات. الحقيقة ، كما هو الحال دائمًا ، في مكان ما بينهما.

Source: https://habr.com/ru/post/ar416183/


All Articles