ندرس بيان نظرية الحد المركزي باستخدام التوزيع الأسي

بدلا من تقديم


توضح هذه المقالة دراسة أجريت للتحقق من بيان نظرية الحد المركزي بأن مجموع المتغيرات العشوائية المستقلة والموزعة متطابقة والتي تم اختيارها من أي توزيع تقريبًا له توزيع قريب من المعدل الطبيعي. ومع ذلك ، قبل أن ننتقل إلى وصف الدراسة والكشف المفصل لمعنى نظرية الحد المركزي ، لن يكون من غير المناسب تحديد سبب إجراء الدراسة على الإطلاق ولمن قد تكون المقالة مفيدة.

بادئ ذي بدء ، يمكن أن تكون المقالة مفيدة لجميع المبتدئين لفهم أساسيات التعلم الآلي ، وخاصة إذا كان القارئ المحترم في عامه الأول من تخصص "التعلم الآلي وتحليل البيانات". يجب إجراء هذا النوع من الأبحاث في الأسبوع الأخير من الدورة الأولى ، التخصص أعلاه ، من أجل الحصول على الشهادة المطلوبة.

نهج البحث


لذا ، عد إلى سؤال البحث. ما تخبرنا به نظرية الحد المركزي. لكنها تقول هذا. إذا كانت هناك قيمة عشوائية X من أي توزيع عمليًا ، وعينة من الحجم N يتم إنشاؤها عشوائيًا من هذا التوزيع ، فيمكن تقريب متوسط ​​العينة المحدد على أساس العينة من خلال توزيع عادي بمتوسط ​​قيمة يتزامن مع التوقع الرياضي للسكان الأصليين.

لإجراء تجربة ، سنحتاج إلى اختيار توزيع يتم إنشاء عينة منه بشكل عشوائي. في حالتنا ، سوف نستخدم التوزيع الأسي.

لذلك ، نحن نعرف أن كثافة الاحتمال للتوزيع الأسي لمتغير عشوائي X لها الشكل:

f(x)= lambda varepsilon lambdax


حيث x>0.  lambda>0

يتم تحديد التوقع الرياضي لمتغير عشوائي X ، وفقا لقانون التوزيع الأسي ، عكسيا  lambda:  mu= frac1 lambda

يُعرّف تباين المتغير العشوائي X بأنه  sigma2= frac1 lambda2

تستخدم دراستنا المعلمة التوزيع الأسي  lambda=0.0125ثم  mu=80دولا.  سيجما2=6400دولا

لتبسيط إدراك القيم والتجربة نفسها ، افترض أننا نتحدث عن تشغيل الجهاز مع توقع متوسط ​​لوقت التشغيل يصل إلى 80 ساعة. بعد ذلك ، كلما زاد وقت عمل الجهاز ، قل احتمال حدوث أي عطل والعكس - عندما يميل الجهاز إلى صفر وقت (ساعات ، دقائق ، ثواني) ، يميل احتمال فشله أيضًا إلى صفر.

الآن من التوزيع الأسي مع المعلمة المعطاة  lambda=0.0125اختيار 1000 القيم العشوائية الزائفة. قارن نتائج العينة بكثافة الاحتمالات النظرية.

علاوة على ذلك ، وهذا هو أهم شيء في دراستنا الصغيرة ، سنقوم بتكوين العينات التالية. نأخذ 3 و 15 و 50 و 100 و 150 و 300 و 500 من المتغيرات العشوائية من التوزيع الأسي ، ونحدد لكل وحدة تخزين (من 3 إلى 500) المتوسط ​​الحسابي ، ونكرر 1000 مرة. لكل عينة نقوم ببناء رسم بياني ونضع عليه رسم بياني لكثافة التوزيع الطبيعي المقابل. نحن نقدر المعلمات الناتجة من متوسط ​​العينة ، والتباين ، والانحراف المعياري.

قد يكمل هذا المقالة ، ولكن هناك اقتراح لتوسيع حدود التجربة إلى حد ما. دعونا نقدر مدى اختلاف هذه المعلمات ، مع زيادة حجم العينة من 3 إلى 500 ، عن نظيراتها - نفس المعلمات للتوزيعات العادية المقابلة. بمعنى آخر ، نحن مدعوون للإجابة على السؤال ، لكن هل سنلاحظ انخفاضًا في الانحرافات مع زيادة حجم العينة؟

لذلك ، في الطريق. ستكون أدواتنا اليوم هي لغة Python ودفتر Jupyter.

ندرس بيان نظرية الحد المركزي


يتم نشر شفرة المصدر للدراسة على جيثب
تحذير! هذا الملف يتطلب دفتر Jupyter!

عينة من القيمة العشوائية الزائفة التي أنشأناها وفقًا لقانون التوزيع الأسي 1000 مرة تميز السكان النظريين (الأولي) (الرسم البياني 1 * ، الجدول 1).

الرسم البياني 1 "المجموعة الأولية للتوزيع الأسي وأخذ العينات"

الجدول 1 "معلمات السكان الأولية والعينة"

الآن دعونا نرى ما يحدث إذا أخذنا ليس فقط قيمة عشوائية زائفة واحدة 1000 مرة ، ولكن المتوسط ​​الحسابي 3 أو 15 أو 50 أو 100 أو 150 أو 300 أو 500 من القيم العشوائية الزائفة ومقارنة المعلمات من كل عينة مع المعلمات من التوزيعات العادية المقابلة (الرسم البياني 2 **) الجدول 2).

الرسم البياني 2.1 "عينة من 5"


الرسم البياني 2.2 "عينة من 50"


الرسم البياني 2.3 "عينة من 100"


الرسم البياني 2.4 "عينة من 150"


الرسم البياني 2.5 "300 عينة"


الرسم البياني 2.6 "500 عينة"


الجدول 2 "خيارات العينة"


وفقًا للتمثيل الرسومي للنتائج ، يُرى الانتظام التالي بوضوح: مع زيادة حجم العينة ، يقترب التوزيع من الطبيعي ويحدث تركيز المتغيرات العشوائية الكاذبة حول متوسط ​​العينة ، ويقترب متوسط ​​العينة من التوقع الرياضي للتوزيع الأولي.

وفقًا للبيانات المقدمة في الجدول ، تم تأكيد الانتظام الموضح في الرسوم البيانية - مع زيادة حجم العينة ، وانخفاض التباين وقيم الانحراف المعياري بشكل ملحوظ ، مما يشير إلى تركيز أكثر كثافة لقيم عشوائية عشوائية حول متوسطات العينة.

لكن هذا ليس كل شيء. نتذكر أنه في بداية المقالة ، تم تقديم اقتراح للتحقق مما إذا كانت الزيادة في انحرافات معلمات العينة فيما يتعلق بمعلمات التوزيع العادي المقابل ستزداد مع زيادة حجم العينة.

كما يتضح (الرسم البياني 3 ، الجدول 3) ، لا يحدث انخفاض ملحوظ بشكل تعسفي في الانحرافات - تنتقل معلمات العينات إلى زائد أو ناقص على مسافات مختلفة ولا تريد الاقتراب من القيم المحسوبة بشكل ثابت. سنحاول إيجاد تفسير لنقص الديناميات الإيجابية في الدراسات التالية.

الشكل 3 "انحرافات معلمات العينة من الحسابات النظرية"



الجدول 3 "انحرافات معلمات العينات من النظرية المحسوبة"



بدلا من الاستنتاجات


لقد أكدت دراستنا ، من ناحية ، مرة أخرى ، استنتاجات نظرية الحد المركزي حول تقريب القيم الموزعة عشوائياً المستقلة للتوزيع الطبيعي مع زيادة حجم العينة ، من ناحية أخرى ، كان من الممكن إكمال السنة الأولى من التخصص الرئيسي بنجاح.

* تطوير منطق المثال من خلال المعدات ، التي تبلغ مدة تشغيلها 80 ساعة ، على طول المحور "X" الذي نحدده على مدار الساعة - كلما قل الوقت الذي تعمل فيه ، قل احتمال الفشل.

** مطلوب تفسير مختلف لقيم المحور السيني هنا - احتمال أن يعمل الجهاز في حوالي 80 ساعة هو الأعلى ، وبالتالي ينخفض ​​كما هو الحال مع زيادة في وقت التشغيل (أي ، من المحتمل أن يعمل الجهاز لفترة أطول من 80 ساعة) ومع انخفاض وقت التشغيل (يكون احتمال فشل الجهاز في أقل من 80 ساعة صغيرًا أيضًا).


 rightarrowالعمل التالي للمؤلف - "نحل معادلة الانحدار الخطي البسيط"

Source: https://habr.com/ru/post/ar471198/


All Articles