أي محلل ، في بداية عمله ، يمر بمرحلة مكروه لتحديد تحديد معايير التوزيع. ثم ، مع تراكم الخبرة ، بالنسبة له ، فإن تنسيق الانتثار المتبقي الذي تم الحصول عليه يعني أن مرحلة ما ، في تحليل البيانات الكبيرة ، قد مرت ويمكنك المضي قدمًا. لم تعد هناك حاجة للتحقق من مئات النماذج للتأكد من توافقها مع معادلات الانحدار المختلفة ، للبحث عن مقاطع مع العابرين ، لتكوين تركيبة من النماذج. لتعذيب نفسك بالشكوك: "ربما هناك بعض النماذج الأخرى الأكثر ملاءمة؟"
فكرت: "لكن ماذا لو ذهبت من الجهة المقابلة. تعرف على ما يمكن أن تفعله الضوضاء البيضاء. هل يمكن للضوضاء البيضاء أن تخلق شيئًا يقارن انتباهنا بجسم مهم من تجربتنا؟ "
التين. ضوضاء بيضاء (ملف مأخوذ من الشبكة ، حجم 448 × 235).في هذه المسألة ، فسر ما يلي:
- ما هو احتمال ظهور خطوط أفقية ورأسية بطول ملحوظ؟
- إذا كان بإمكانهم الظهور ، فما هو احتمال تزامنهم مع أصلهم في أحد الإحداثيات ويشكلون شكلًا مستطيلًا؟
كذلك في النص ، سأشرح كيف ترتبط هذه المهام بتحليل البيانات الضخمة.
في كتاب G.Sekey ،
"التناقضات في نظرية الاحتمالات والإحصاء الرياضي" (ص 43) ، وجدت إشارة إلى نظرية
Erds -
Renyi ، التي تنص على ما يلي:
عند رمي عملة معدنية n ، سلسلة من شعارات الطول
لاحظ مع احتمال تميل إلى 1 ، مع ن تميل إلى ما لا نهاية.
بالنسبة إلى الرقم الخاص بنا ، هذا يعني أنه في كل سطر من الخطوط الـ 235 ذات الاحتمال الذي يميل إلى 1 ، يوجد:

وهذا يعني أننا نسقط إلى الكل - 8 نقاط سوداء متتالية أفقياً.
ولجميع الأعمدة البالغ عددها 448 عمودًا ، مع احتمال تميل إلى 1 ، يوجد:

التخلص من الكل - 7 نقاط سوداء على التوالي ، رأسياً.
من هنا نحصل على احتمال أن يتم رسم مستطيل أسود بحجم 8 × 7 بكسل في "الضوضاء البيضاء" ، في هذه الصورة:

حيث 1 هي أول سلسلة من النقاط السوداء في خط ما ، في أي مكان في مساحة ثنائية الأبعاد.
أنا لا أزعم أن الاحتمال صغير جدًا ، لكن ليس صفرًا.
عند الانتقال ، يمكننا دمج جميع الأسطر في سطر واحد والحصول على خط بطول 102،225 حرفًا. ومن ثم ، وفقًا لنظرية Erds-Renyi ، مع احتمال تميل إلى 1 ، توجد سلسلة من الطول:

ولسلسلة من 1 مليون سجل:

كما ترون ، تم التعرف بشكل فريد على اتصال نظرية Erdos-Renyi مع Big Data.
المذكرة. بعد ذلك سوف أذكر تحليلي الخاص الذي تم تحديده. بما أنه في هذا النموذج ، فإن هذه النظرية وإثباتها ، والتي تم تقديمها في كتاب G.Sekey ، لم أتمكن من العثور عليها.لقد حصلنا على أنه يمكن استخدام نظرية Erdos-Renyi عن طريق الاختبار ، عن طريق تعريف تجانس البيانات.
هذا ينطبق على التوزيعات التي لها لحظة مركزية من الدرجة الأولى (MX).
لا يمكن تطبيقه إلا على العمليات العشوائية المتتابعة أحادية القناة.
كيفية تطبيقها
أي توزيع ، مع توقع ، يمكننا أن نتخيل أنه انحراف عن الوسط: من اليسار إلى اليمين ، من أعلى إلى أسفل. وهذا هو ، الخسارة: ذيول النسر.
وفقا لذلك ، من خلال هذه النظرية ، ينبغي الكشف عن فاصل في القيم المتتالية ، في مقدار
أعلى أو أقل من MX (Y (xi)).
المذكرة. في هذا الجانب ، أردت أن أرى إثبات هذه النظرية ، لفهم أن هناك صفًا واحدًا فقط (أعلى أو أسفل فقط) أو اثنين (أعلى وأسفل). وفقًا لأفكاري ، فإن تناظر هذه الظواهر يجب أن يؤدي إلى عقدين ، ومن ناحية أخرى ، فإن تحليل إثبات وجود عملية مماثلة ، اقترح هؤلاء علماء الرياضيات على الرسوم البيانية ، ثم اقترحوا أن يبنوا الدليل على تحديد الحد الأقصى. مما يسمح بوجود أدلة على تقليل الوظيفة الموضوعية. نشأت أسئلة حول كيفية بحث نظرية Erds-Renyi عن احتمالات غير متماثلة ، عن خيارات أكثر من 2.إن النتيجة العملية لاكتشاف عقد واحد فقط من هذا القبيل في القاعدة قيد الدراسة تتيح لنا الفرصة لنفترض أن جميع البيانات المقدمة متجانسة.
والثاني. إذا ، من خلال معالجة البيانات ، وفقًا لنظرية Erd-s-Renyi ، وجدنا أن هناك سلسلة من القيم أكثر مما ينبغي ، فمن المحتمل أن يكون الموقف الموضح في الشكل.
تتكون السلسلة الموضحة في الشكل من تكوين وظيفتين ، لأغراض المثال.الاستنتاج الثالث. إذا تم معالجة البيانات (1 مليون سجل) ، وفقًا لنظرية Erds-Renyi ، لم يتم العثور على صف واحد بطول 19 رقمًا ، ولكن ، على سبيل المثال ، تم العثور على ثلاث سلاسل تحتوي على 17 رقمًا. يمكن افتراض أن البيانات العامة تتكون من تركيبة من ثلاث وظائف ، وبحلول مكان هذه السلسلة ، لتحديد الفواصل الزمنية التي قد يحدث فيها العابرون.
عندما كان يعمل على هذه المادة ، تم إجراء ملاحظة حول ما يلي. تُصنع جميع أساليب تحليل البيانات المطورة للتكنولوجيات عندما يكون من الضروري ، وفقًا لرصدات طبيعية صغيرة ، تحديد معلمات عدد أكبر من السكان ، من 100 ملاحظة ، لتحديد خصائص عامة السكان البالغ عددهم مليون شخص أو أكثر. وبالنسبة للمهام الحديثة ، عندما يكون من الضروري تحليل قاعدة بيانات ضخمة ، فإن الأدوات التي طورتها الإحصاءات شاقة للغاية.
استمرار:
الجزء 2 ،
الجزء 3 .