هل يمكن قراءة الإحصاءات باستخدام كمية صغيرة من البيانات؟

بشكل عام ، الجواب هو نعم. خاصة عندما يكون لديك أدمغة ومعرفة نظرية بايز.

اسمحوا لي أن أذكرك بأنه لا يمكن النظر في الوسط والتباين إلا إذا كان لديك عدد معين من الأحداث. في الأدلة القديمة لاتحاد الجمهوريات الاشتراكية السوفياتية ، قال RTM (المادة التقنية الرائدة) أنه من أجل حساب المتوسط ​​والتباين ، كانت هناك حاجة إلى 29 قياسات. الآن يتم تقريب الجامعات قليلاً وتستخدم القياسات رقم 30. ما السبب وراء ذلك هو السؤال الفلسفي. لماذا لا يمكنني أخذ وحساب المتوسط ​​إذا كان لدي 5 قياسات؟ من الناحية النظرية ، لا يتدخل أي شيء ، فقط المتوسط ​​غير مستقر. بعد قياس وإعادة فرز آخر ، يمكن أن يتغير كثيرًا ويمكنك الاعتماد عليه بدءًا من حوالي 30 قياسًا. ولكن حتى بعد القياس الحادي والثلاثين ، ستهتز أيضًا ، ولكن ليس بشكل ملحوظ. بالإضافة إلى ذلك ، يتم إضافة المشكلة التي يمكن اعتبار المتوسط ​​بشكل مختلف والحصول على قيم مختلفة. وهذا هو ، من عينة كبيرة ، يمكنك تحديد أول 30 وحساب المتوسط ​​، ثم تحديد الثلاثين الآخرين وما إلى ذلك ... والحصول على الكثير من المتوسطات ، والتي يمكن أيضًا حساب متوسطها. المتوسط ​​الحقيقي غير قابل للتحقيق في الممارسة ، حيث لدينا دائمًا عدد محدود من القياسات. في هذه الحالة ، يكون المتوسط ​​كمية إحصائية بمتوسطها وتباينها. وهذا يعني ، من خلال قياس المتوسط ​​في الممارسة العملية ، أننا نعني "المتوسط ​​المقدر" ، والذي قد يكون قريبًا من القيمة النظرية المثالية.

دعنا نحاول فهم المشكلة ، عند المدخلات لدينا عدد من الحقائق ونريد أن نبني فكرة عن مصدر هذه الحقائق في المخرجات. سنقوم ببناء نموذج حصيرة واستخدام نظرية بايزي لربط النموذج والحقائق.


النظر في النموذج البالية بالفعل مع دلو التي تم سكب العديد من الكرات بالأبيض والأسود وخلطها جيدا. اترك اللون الأسود يتوافق مع القيمة 0 ، والأبيض إلى 1. وسنقوم بسحبها عشوائيًا ونأخذ القيمة المتوسطة سيئة السمعة. في الواقع ، هذا قياس مبسط ، حيث يتم تعيين الأرقام وبالتالي ، في هذه الحالة ، هناك متوسط ​​قيمة القياس ، والتي تعتمد على نسبة كرات مختلفة.

هنا نأتي لحظة مثيرة للاهتمام. النسبة الدقيقة للكرات التي يمكننا حسابها بعدد كبير من القياسات. ولكن إذا كان عدد القياسات صغيرًا ، فستكون المؤثرات الخاصة ممكنة في شكل انحراف عن الإحصاءات. إذا كان هناك 50 كرة بيضاء و 50 كرة سوداء في السلة ، فإن السؤال الذي يطرح نفسه هو: هل من الممكن سحب 3 كرات بيضاء على التوالي؟ والجواب هو ، بالطبع! وإذا في 90 أبيض و 10 أسود ، ثم يزيد هذا الاحتمال. وماذا تفكر في محتويات الجرار ، إذا كان من حسن الحظ أن 3 كرات بيضاء بالضبط تم سحبها عن طريق الصدفة في البداية؟ - لدينا خيارات.

من الواضح أن الحصول على 3 كرات بيضاء على التوالي يساوي واحدًا عندما يكون لدينا كرات بيضاء 100٪. في حالات أخرى ، يكون هذا الاحتمال أقل. وإذا كانت كل الكرات سوداء ، فإن الاحتمال هو صفر. دعونا نحاول تنظيم هذه الحجج وإعطاء الصيغ. تأتي طريقة بايزي في عملية الإنقاذ ، والتي تسمح لك بترتيب الافتراضات ومنحها قيمًا رقمية تحدد احتمال توافق هذا الافتراض مع الواقع. أي الانتقال من التفسير الاحتمالي للبيانات إلى التفسير الاحتمالي للأسباب.

كيف بالضبط يمكن افتراض واحد أو آخر كميا؟ سيتطلب هذا نموذجًا سنعمل من خلاله. الحمد لله انها بسيطة. يمكننا كتابة العديد من الافتراضات حول محتويات السلة كنموذج ذو معلمة. في هذه الحالة ، معلمة واحدة كافية. تحدد هذه المعلمة أساسًا مجموعة مستمرة من الافتراضات. الشيء الرئيسي هو أنه يصف الخيارات الممكنة بالكامل. الخياران المتطرفان هما كرات بيضاء أو سوداء فقط. الحالات المتبقية في مكان ما بينهما.

افترض ذلك  theta هي نسبة الكرات البيضاء في السلة. إذا قمنا بالفرز عبر السلة بأكملها وقمنا بإضافة جميع الأصفار والأخرى المقابلة للكرات وقسمنا على العدد الإجمالي ،  theta - يعني أيضًا متوسط ​​قيمة قياساتنا.  theta in[0،1]، . (الآن  theta غالبا ما تستخدم في الأدب كمجموعة من المعلمات المجانية التي تتطلب التحسين).

حان الوقت للذهاب إلى بايز. توماس بايس نفسه جعل زوجته يرمي كرة بطريق الخطأ ، ويجلس مع ظهرها إليها وكتب كيف ترتبط افتراضاته بالحقائق التي طار فيها بالفعل. بناءً على الحقائق ، حاول Thomas Bayes تحسين تنبؤات الرميات التالية. سوف نفكر ونفكر مثل Thomas Bayes ، وصديقة عفوية وغير متوقعة ستخرج الكرات.

هيا D هو مجموعة من القياسات (البيانات). نستخدم الترميز القياسي ، حيث علامة | يعني احتمال وقوع الحدث على اليسار ، إذا كان من المعروف بالفعل أن حدثًا آخر على اليمين قد اكتمل. في حالتنا ، هذا هو احتمال الحصول على البيانات إذا كانت المعلمة معروفة  theta . وهناك أيضا الحالة المعاكسة - احتمال وجود  theta إذا كانت البيانات معروفة.

P( theta|D)= fracP(D| theta) cdotP( theta)P(D)


صيغة بايز يسمح لك أن تنظر  theta كمتغير عشوائي ، وإيجاد القيمة الأكثر احتمالا. وهذا هو ، والعثور على معامل الأكثر احتمالا  theta إذا كان غير معروف.

 theta=argmaxP( theta|D)



على الجانب الأيمن ، لدينا 3 أعضاء يحتاجون إلى التقييم. نحن نحللهم.

1) مطلوب معرفة أو احتساب احتمالية الحصول على هذه البيانات لفرضية معينة P(D| theta) . يمكنك الحصول على ثلاث كرات بيضاء على التوالي ، حتى لو كان هناك الكثير من الكرات السوداء. ولكن على الأرجح الحصول عليها مع عدد كبير من البيض. احتمال الحصول على كرة بيضاء يساوي Pwhite= theta لكن أسود Pblack=(1 theta) . لذلك إذا سقط N كرات بيضاء ، و M كرات سوداء ثم P(D| theta)= thetaN cdot(1 theta)M . N و M سننظر في معلمات إدخال حساباتنا ، و  theta - معلمة الإخراج.

2) أنت بحاجة إلى معرفة الاحتمال المسبق P( theta) . هنا نأتي لحظة حساسة من النمذجة. نحن لا نعرف هذه الوظيفة وسوف نضع افتراضات. إذا لم تكن هناك معرفة إضافية ، فإننا نفترض ذلك  theta من المحتمل بنفس القدر في النطاق من 0 إلى 1. إذا كانت لدينا معلومات من الداخل ، فسنعرف المزيد عن القيم الأكثر ترجيحًا وستقوم بتنبؤ أكثر دقة. ولكن بما أن هذه المعلومات غير متوفرة ، فإننا نضعها  theta simبالتساوي[0،1] . منذ الكمية P( theta) مستقلة عن  theta ثم عند الحساب  theta انها لن يهم. P( theta)=1

3) P(D) هو احتمال وجود مثل هذه البيانات إذا كانت جميع القيم عشوائية. يمكننا الحصول على هذه المجموعة مع مختلف  theta مع احتمالات مختلفة. لذلك ، جميع الطرق الممكنة للحصول على مجموعة تؤخذ بعين الاعتبار D . منذ في هذه المرحلة لا تزال القيمة غير معروفة  theta ، ثم لا بد من الاندماج P(D)= int10P(D| theta)P( theta)d theta . لفهم هذا بشكل أفضل ، من الضروري حل المشكلات الأولية التي يتم فيها بناء الرسم البياني Bayesian ، ثم انتقل من المجموع إلى جزء لا يتجزأ. والنتيجة هي تعبير wolframalpha ، وهو البحث عن الحد الأقصى  theta لن يؤثر ، لأن هذه القيمة لا تعتمد على  theta . يتم التعبير عن النتيجة من خلال مضروب لقيم عدد صحيح أو بشكل عام من خلال دالة جاما.

في الواقع ، فإن احتمال فرضية معينة يتناسب مع احتمال الحصول على مجموعة بيانات. بمعنى آخر ، في السيناريو الذي من المرجح أن نحصل على النتيجة ، فإن هذا التوافق هو الأصح.

نحصل على هذه الصيغة

P(D| theta)=const cdotP( theta|D)



للبحث عن الحد الأقصى ، نفرق ونساوي الصفر:
0= thetaN1 cdot(1 theta)M1 cdot(N( theta1)+M theta) .
لكي يكون العمل مساوياً للصفر ، يجب أن يكون أحد الأعضاء مساوياً للصفر.
نحن لسنا مهتمين  theta=0 و  theta=1 ، نظرًا لعدم وجود حد أقصى محلي في هذه النقاط ، وبالتالي يشير العامل الثالث إلى حد أقصى محلي ، لذلك

 theta= fracNN+M

.

نحصل على صيغة يمكن استخدامها للتنبؤات. إذا سقطت N البيض و M السود ثم الاحتمال  fracNN+M واحد القادم سيكون أبيض. على سبيل المثال ، كان هناك 2 أسود و 8 أبيض ، ثم الأبيض التالي سيكون باحتمال 80٪.

يمكن للأطراف المهتمة اللعب مع الجدول الزمني عن طريق إدخال أسماء مختلفة: رابط إلى wolframalpha .


كما يمكن أن يرى من الرسم البياني ، والحالة الوحيدة حيث P(D| theta) ليس لديه حد أقصى للنقطة - وهذا في حالة عدم وجود بيانات N=0،M=0 . إذا كان لدينا حقيقة واحدة على الأقل ، فسيتم الوصول إلى الحد الأقصى على الفاصل الزمني [0،1] في نقطة واحدة واحدة. إذا N=0 ، ثم يتم الوصول إلى الحد الأقصى عند النقطة 0 ، أي إذا كانت كل الكرات سوداء ، فمن المرجح أن تكون جميع الكرات الأخرى سوداء والعكس صحيح. ولكن كما ذكرنا سابقًا ، من المحتمل أيضًا وجود مجموعات غير محتملة ، خاصةً إذا كانت قبة توزيعنا لطيفة. من أجل تقييم الغموض في توقعاتنا ، من الضروري تقدير الفرق. يمكن أن نلاحظ بالفعل من الرسم البياني أن التشتت كبير مع عدد قليل من الحقائق والقبة لطيفة وعندما يتم إضافة حقائق جديدة ينخفض ​​التشتت وتصبح القبة أكثر حدة.

الثانوية (اللحظة الأولى) بحكم التعريف
 mathbbM1= int10 theta cdotP( theta|D)d theta .

بحكم التعريف ، التباين (لحظة المركزية الثانية). سننظر في وقت لاحق في القسم الخفي.
 mathbbM2= int10( theta mathbbM1)2P( theta|D)d theta .

--- قسم لاستعلام العقول ---
هيا بنا P( theta|D) كاملة من الناحية التحليلية ، إن لم تكن متعبة بعد. للقيام بذلك ، نذكر مرة أخرى جميع المصطلحات من صيغة بايز ، بما في ذلك المصطلحات الثابتة:
P( theta)=1
P(D)= int10P(D| theta)P( theta)d theta= int10 thetaN cdot(1 theta)Md theta= fracN!M!(N+M+1)! تصل إلى wolframalpha
P(D| theta)= thetaN cdot(1 theta)M

صيغة بايز لحالتنا تبدو كما يلي:

P( theta|D)= thetaN cdot(1 theta)M cdot frac(N+M+1)!N!M!



ومن هنا المتوسط ​​بعد الاستبدال
 mathbbM1= int10 theta cdotP( theta|D)d theta= int10 theta cdot thetaN cdot(1 theta)M cdot( fracN!M!(N+M+1)!)D theta= frac(N+1)!M!(N+M+2)! Cdot frac(N+M+1)!N!M! .

نحن نستخدم المعرفة الابتدائية (N+1)!=(N+1) cdotN! وتقليل الكسور

 mathbbM1= fracN+1N+M+2



صيغة اللحظة الأولى تتوافق مع معنى التجربة. مع غلبة الكرات البيضاء ، تذهب اللحظة إلى 1 ، بينما مع غلبة اللون الأسود فإنها تميل إلى 0. ولا تتصرف حتى عند عدم وجود كرات ، وتظهر بصراحة إلى حد ما 1/2.

يتم التعبير عن التشتت أيضًا بالصيغة التي سنعمل بها.
 mathbbM2= mathbbM1( theta2) mathbbM1( theta)2 .
العضو الأول  mathbbM1( theta2) بالنسبة للجزء الاكبر يكرر صيغة ل  mathbbM1( theta) مستعمل -  theta2
 mathbbM1( theta2)= int10 theta2 cdot thetaN cdot(1 theta)M cdot( frac(N+M+1)!N!M!)d theta= frac(N+2)!M!(N+M+3)! cdot( frac(N+M+1)!N!M!)

= frac(N+2)(N+1)(N+M+3)(N+M+2)

، وقد تم بالفعل حساب الثانية ، لذلك
 mathbbM2= frac(N+2)(N+1)(N+M+3)(N+M+2) fracN+1N+M+2 cdot fracN+1N+M+2

في النهاية ، نحصل على:
 mathbbM2= frac(M+1) cdot(N+1)(N+M+2)2 cdot(N+M+3)
كما ترون ، ينخفض ​​التباين عند إضافة البيانات ويكون متماثلًا فيما يتعلق بالتحول N و M في الأماكن.

يمكنك تلخيص العمليات الحسابية. مع كمية صغيرة من البيانات ، تحتاج إلى أن يكون لديك نموذج سنعمل على تحسين معاييره. يصف النموذج مجموعة من الافتراضات حول الحالة الحقيقية للأمور ، ونختار أنسب افتراض. نحن نعتبر الاحتمالات الخلفية ، إذا كانت البداهة معروفة بالفعل. يجب أن يغطي النموذج الخيارات الممكنة التي سنلتقيها في الممارسة العملية. مع وجود كمية صغيرة من البيانات ، سينتج عن هذا النموذج تباين كبير في معلمات المخرجات ، ولكن كلما زادت كمية البيانات ، سينخفض ​​التباين وستكون التنبؤات أكثر غموضًا.

عليك أن تفهم أن النموذج هو مجرد نموذج لا يأخذ الكثير في الاعتبار. يتم إنشاؤه من قبل شخص ويضع فرصا محدودة فيه. مع كمية صغيرة من البيانات ، من المرجح أن يعمل حدس الشخص ، حيث يتلقى الشخص إشارات أكثر من العالم الخارجي ، وسيكون قادرًا على استخلاص النتائج بشكل أسرع. غالبًا ما يكون هذا النموذج مناسبًا كعنصر من العمليات الحسابية الأكثر تعقيدًا ، حيث إن مقياس بايز يسمح لك بعمل متتاليات من الصيغ التي تزيد من صقلها.

في هذا ، أود الانتهاء من منصبي. سأكون سعيدا لتعليقاتكم.


المراجع

نظرية بايز
ويكيبيديا: التشتت

Source: https://habr.com/ru/post/ar436668/


All Articles