Kebisingan putih menarik kotak hitam

Setiap analis, pada awal pekerjaannya, melewati tahap kebencian dalam menentukan identifikasi parameter distribusi. Kemudian, dengan akumulasi pengalaman, baginya, koordinasi dari residual scatter yang diperoleh berarti bahwa beberapa tahapan, dalam analisis Big Data, dilewati dan Anda dapat melanjutkan. Tidak perlu lagi memeriksa ratusan model untuk kepatuhan dengan berbagai persamaan regresi, untuk mencari segmen dengan transien, untuk menyusun komposisi model. Menyiksa diri sendiri dengan keraguan: "Mungkin ada beberapa model lain yang lebih cocok?"

Saya berpikir: β€œTetapi bagaimana jika Anda pergi dari kebalikannya. Lihat apa yang bisa dilakukan white noise. Bisakah white noise menciptakan sesuatu yang dibandingkan perhatian kita dengan objek signifikan dari pengalaman kita? "


Fig. White noise (file diambil dari jaringan, ukuran 448x235).

Pada masalah ini, ia beralasan sebagai berikut:

  1. Berapa probabilitas bahwa garis horizontal dan vertikal dari panjang yang terlihat akan muncul?
  2. Jika mereka bisa muncul, maka berapa probabilitas mereka akan bertepatan dengan asal mereka di salah satu koordinat dan membentuk angka persegi panjang?

Lebih lanjut dalam teks, saya akan menjelaskan bagaimana tugas-tugas ini terkait dengan analisis Big Data.

Dalam buku G.Sekey "Paradoks dalam teori probabilitas dan statistik matematika" (hlm. 43), saya menemukan tautan ke teorema Erd - Renyi , yang berbunyi sebagai berikut:
Saat melempar koin n kali, serangkaian lambang panjang  log2ndiamati dengan probabilitas cenderung 1, dengan n cenderung tak terhingga.

Untuk angka kami, ini berarti bahwa di masing-masing dari 235 baris dengan probabilitas cenderung ke 1, ada:



artinya, kita turun ke keseluruhan - 8 titik hitam berturut-turut secara horizontal.

Dan untuk semua 448 kolom, dengan probabilitas cenderung 1, ada:



membuang keseluruhan - 7 titik hitam berturut-turut, secara vertikal.

Dari sini kita mendapatkan probabilitas bahwa dalam "white noise" akan dibuat kotak hitam berukuran 8x7 piksel, untuk gambar ini:



Di mana 1 adalah urutan pertama dari titik-titik hitam dalam sebuah garis, di mana saja dalam ruang dua dimensi.

Saya tidak berpendapat bahwa probabilitasnya sangat kecil, tetapi tidak nol.

Selanjutnya, kita dapat menggabungkan semua garis menjadi satu dan mendapatkan garis dengan panjang 102.225 karakter. Dan kemudian, dengan teorema Erds-Renyi, dengan probabilitas cenderung 1, terdapat rantai panjang:



Dan untuk rantai 1 juta catatan:



Seperti yang Anda lihat, koneksi teorema Erdos-Renyi dengan Big Data diidentifikasi secara unik.

Catatan Selanjutnya saya akan menyatakan analisis saya sendiri dari yang diidentifikasi. Karena dalam bentuk itu, teorema ini dan buktinya, yang disajikan dalam buku G.Sekey, saya tidak dapat menemukan.

Kami mendapatkan bahwa teorema Erdos-Renyi dapat digunakan oleh tes, dengan definisi homogenitas data.

Ini berlaku untuk distribusi yang memiliki momen sentral dari urutan pertama (MX).
Ini hanya dapat diterapkan pada proses acak sekuensial saluran tunggal.

Bagaimana cara menerapkannya


Distribusi apa pun, dengan harapan, dapat kita bayangkan sebagai penyimpangan dari pusat: kiri-kanan, atas-bawah. Yaitu, kerugiannya: ekor elang.

Dengan demikian, dengan teorema ini, suatu interval harus dideteksi di mana nilai berturut-turut, dalam jumlah m= log2Ndi atas atau di bawah MX (Y (xi)).

Catatan Dalam aspek ini, saya ingin melihat bukti teorema ini, untuk memahami hanya ada satu baris seperti itu (hanya di atas atau di bawah) atau dua (di atas dan di bawah). Menurut pemikiran saya, simetri fenomena ini harus menimbulkan dua kontrak dan, di sisi lain, menganalisis bukti dari proses yang sama, matematikawan ini berkaitan dengan grafik, kemudian menyarankan agar mereka membangun bukti untuk menentukan maksimum. Yang memungkinkan adanya bukti pada meminimalkan fungsi tujuan. Pertanyaan muncul tentang bagaimana teorema Erds-Renyi mencari probabilitas asimetris, untuk opsi lebih dari 2.

Konsekuensi praktis dari penemuan hanya satu kontrak sekuensial dalam basis yang diteliti memberi kita peluang untuk mengasumsikan bahwa semua data yang disajikan adalah homogen.
Yang kedua. Jika, dengan memproses data, menurut teorema Erd -s-Renyi, kami menemukan bahwa ada serangkaian nilai lebih dari yang seharusnya, maka situasi yang ditunjukkan pada gambar kemungkinan.


Serial yang ditunjukkan pada gambar disusun sebagai komposisi dua fungsi, untuk keperluan contoh.

Kesimpulan ketiga. Jika, mengolah data (1 juta catatan), dengan teorema Erds-Renyi, tidak ditemukan satu baris pun dengan panjang 19 angka, tetapi, katakanlah, tiga urutan dengan 17 angka ditemukan. Dapat diasumsikan bahwa data umum terdiri dari komposisi tiga fungsi, dan berdasarkan seri ini, untuk menentukan interval di mana transien dapat terjadi.

Ketika dia mengerjakan materi ini, sebuah pengamatan dilakukan tentang hal-hal berikut. Semua metode analisis data yang dikembangkan dibuat untuk teknologi ketika, menurut pengamatan alam kecil, perlu untuk menentukan parameter populasi yang jauh lebih besar, dari 100 pengamatan, untuk menentukan properti populasi umum 1 juta atau lebih. Dan untuk tugas-tugas modern, ketika diperlukan untuk menguraikan database yang sangat besar, alat yang dikembangkan oleh statistik sangat melelahkan.

Lanjutan: Bagian 2 , Bagian 3 .

Source: https://habr.com/ru/post/id460473/


All Articles