الضوضاء البيضاء توجه مربع أسود

أي محلل ، في بداية عمله ، يمر بمرحلة مكروه لتحديد تحديد معايير التوزيع. ثم ، مع تراكم الخبرة ، بالنسبة له ، فإن تنسيق الانتثار المتبقي الذي تم الحصول عليه يعني أن مرحلة ما ، في تحليل البيانات الكبيرة ، قد مرت ويمكنك المضي قدمًا. لم تعد هناك حاجة للتحقق من مئات النماذج للتأكد من توافقها مع معادلات الانحدار المختلفة ، للبحث عن مقاطع مع العابرين ، لتكوين تركيبة من النماذج. لتعذيب نفسك بالشكوك: "ربما هناك بعض النماذج الأخرى الأكثر ملاءمة؟"

فكرت: "لكن ماذا لو ذهبت من الجهة المقابلة. تعرف على ما يمكن أن تفعله الضوضاء البيضاء. هل يمكن للضوضاء البيضاء أن تخلق شيئًا يقارن انتباهنا بجسم مهم من تجربتنا؟ "


التين. ضوضاء بيضاء (ملف مأخوذ من الشبكة ، حجم 448 × 235).

في هذه المسألة ، فسر ما يلي:

  1. ما هو احتمال ظهور خطوط أفقية ورأسية بطول ملحوظ؟
  2. إذا كان بإمكانهم الظهور ، فما هو احتمال تزامنهم مع أصلهم في أحد الإحداثيات ويشكلون شكلًا مستطيلًا؟

كذلك في النص ، سأشرح كيف ترتبط هذه المهام بتحليل البيانات الضخمة.

في كتاب G.Sekey ، "التناقضات في نظرية الاحتمالات والإحصاء الرياضي" (ص 43) ، وجدت إشارة إلى نظرية Erds - Renyi ، التي تنص على ما يلي:
عند رمي عملة معدنية n ، سلسلة من شعارات الطول  log2nلاحظ مع احتمال تميل إلى 1 ، مع ن تميل إلى ما لا نهاية.

بالنسبة إلى الرقم الخاص بنا ، هذا يعني أنه في كل سطر من الخطوط الـ 235 ذات الاحتمال الذي يميل إلى 1 ، يوجد:



وهذا يعني أننا نسقط إلى الكل - 8 نقاط سوداء متتالية أفقياً.

ولجميع الأعمدة البالغ عددها 448 عمودًا ، مع احتمال تميل إلى 1 ، يوجد:



التخلص من الكل - 7 نقاط سوداء على التوالي ، رأسياً.

من هنا نحصل على احتمال أن يتم رسم مستطيل أسود بحجم 8 × 7 بكسل في "الضوضاء البيضاء" ، في هذه الصورة:



حيث 1 هي أول سلسلة من النقاط السوداء في خط ما ، في أي مكان في مساحة ثنائية الأبعاد.

أنا لا أزعم أن الاحتمال صغير جدًا ، لكن ليس صفرًا.

عند الانتقال ، يمكننا دمج جميع الأسطر في سطر واحد والحصول على خط بطول 102،225 حرفًا. ومن ثم ، وفقًا لنظرية Erds-Renyi ، مع احتمال تميل إلى 1 ، توجد سلسلة من الطول:



ولسلسلة من 1 مليون سجل:



كما ترون ، تم التعرف بشكل فريد على اتصال نظرية Erdos-Renyi مع Big Data.

المذكرة. بعد ذلك سوف أذكر تحليلي الخاص الذي تم تحديده. بما أنه في هذا النموذج ، فإن هذه النظرية وإثباتها ، والتي تم تقديمها في كتاب G.Sekey ، لم أتمكن من العثور عليها.

لقد حصلنا على أنه يمكن استخدام نظرية Erdos-Renyi عن طريق الاختبار ، عن طريق تعريف تجانس البيانات.

هذا ينطبق على التوزيعات التي لها لحظة مركزية من الدرجة الأولى (MX).
لا يمكن تطبيقه إلا على العمليات العشوائية المتتابعة أحادية القناة.

كيفية تطبيقها


أي توزيع ، مع توقع ، يمكننا أن نتخيل أنه انحراف عن الوسط: من اليسار إلى اليمين ، من أعلى إلى أسفل. وهذا هو ، الخسارة: ذيول النسر.

وفقا لذلك ، من خلال هذه النظرية ، ينبغي الكشف عن فاصل في القيم المتتالية ، في مقدار m= log2Nأعلى أو أقل من MX (Y (xi)).

المذكرة. في هذا الجانب ، أردت أن أرى إثبات هذه النظرية ، لفهم أن هناك صفًا واحدًا فقط (أعلى أو أسفل فقط) أو اثنين (أعلى وأسفل). وفقًا لأفكاري ، فإن تناظر هذه الظواهر يجب أن يؤدي إلى عقدين ، ومن ناحية أخرى ، فإن تحليل إثبات وجود عملية مماثلة ، اقترح هؤلاء علماء الرياضيات على الرسوم البيانية ، ثم اقترحوا أن يبنوا الدليل على تحديد الحد الأقصى. مما يسمح بوجود أدلة على تقليل الوظيفة الموضوعية. نشأت أسئلة حول كيفية بحث نظرية Erds-Renyi عن احتمالات غير متماثلة ، عن خيارات أكثر من 2.

إن النتيجة العملية لاكتشاف عقد واحد فقط من هذا القبيل في القاعدة قيد الدراسة تتيح لنا الفرصة لنفترض أن جميع البيانات المقدمة متجانسة.
والثاني. إذا ، من خلال معالجة البيانات ، وفقًا لنظرية Erd-s-Renyi ، وجدنا أن هناك سلسلة من القيم أكثر مما ينبغي ، فمن المحتمل أن يكون الموقف الموضح في الشكل.


تتكون السلسلة الموضحة في الشكل من تكوين وظيفتين ، لأغراض المثال.

الاستنتاج الثالث. إذا تم معالجة البيانات (1 مليون سجل) ، وفقًا لنظرية Erds-Renyi ، لم يتم العثور على صف واحد بطول 19 رقمًا ، ولكن ، على سبيل المثال ، تم العثور على ثلاث سلاسل تحتوي على 17 رقمًا. يمكن افتراض أن البيانات العامة تتكون من تركيبة من ثلاث وظائف ، وبحلول مكان هذه السلسلة ، لتحديد الفواصل الزمنية التي قد يحدث فيها العابرون.

عندما كان يعمل على هذه المادة ، تم إجراء ملاحظة حول ما يلي. تُصنع جميع أساليب تحليل البيانات المطورة للتكنولوجيات عندما يكون من الضروري ، وفقًا لرصدات طبيعية صغيرة ، تحديد معلمات عدد أكبر من السكان ، من 100 ملاحظة ، لتحديد خصائص عامة السكان البالغ عددهم مليون شخص أو أكثر. وبالنسبة للمهام الحديثة ، عندما يكون من الضروري تحليل قاعدة بيانات ضخمة ، فإن الأدوات التي طورتها الإحصاءات شاقة للغاية.

استمرار: الجزء 2 ، الجزء 3 .

Source: https://habr.com/ru/post/ar460473/


All Articles