Cualquier analista, al comienzo de su trabajo, pasa por la etapa odiosa de determinar la identificación de los parámetros de distribución. Luego, con la acumulación de experiencia, para él, la coordinación de la dispersión residual obtenida significa que se pasa alguna etapa, en el análisis de Big Data, y puede seguir adelante. Ya no es necesario verificar cientos de modelos para verificar el cumplimiento de varias ecuaciones de regresión, para buscar segmentos con transitorios, para componer una composición de modelos. Para atormentarse con dudas: "¿Tal vez hay algún otro modelo que sea más adecuado?"
Pensé: “Pero, ¿qué pasa si vas desde el contrario? Mira lo que puede hacer el ruido blanco. ¿Puede el ruido blanco crear algo que nuestra atención compare con un objeto significativo de nuestra experiencia?
Fig. Ruido blanco (archivo tomado de la red, tamaño 448x235).Sobre este tema, razonó de la siguiente manera:
- ¿Cuál es la probabilidad de que aparezcan líneas horizontales y verticales de longitud notable?
- Si pueden aparecer, ¿cuál es la probabilidad de que coincidan con su origen en una de las coordenadas y formen una figura rectangular?
Más adelante en el texto, explicaré cómo estas tareas se relacionan con el análisis de Big Data.
En el libro de G.Sekey,
"Paradojas en la teoría de la probabilidad y la estadística matemática" (p. 43), encontré una referencia al teorema
Erds -
Renyi , que dice lo siguiente:
Al lanzar una moneda n veces, una serie de emblemas de longitud
observado con una probabilidad que tiende a 1, con n que tiende al infinito.
Para nuestra figura, esto significa que en cada una de las 235 líneas con una probabilidad que tiende a 1, hay:

es decir, caemos al conjunto: 8 puntos negros en una fila horizontalmente.
Y para todas las 448 columnas, con probabilidad tendiendo a 1, hay:

descartando en su conjunto - 7 puntos negros en una fila, verticalmente.
De aquí obtenemos la probabilidad de que en el "ruido blanco" se dibuje un rectángulo negro de 8x7 píxeles de tamaño, para esta imagen:

Donde 1 es la primera secuencia de puntos negros en una línea, en cualquier lugar del espacio bidimensional.
No sostengo que la probabilidad sea muy pequeña, pero no cero.
Continuando, podemos combinar todas las líneas en una y obtener una línea con una longitud de 102,225 caracteres. Y luego, según el teorema de Erds-Renyi, con probabilidad tendiendo a 1, existe una cadena de longitud:

Y para una cadena de 1 millón de registros:

Como puede ver, la conexión del teorema de Erdos-Renyi con Big Data se identifica de manera única.
Nota A continuación expondré mi propio análisis de lo identificado. Como en esa forma, este teorema y su prueba, que se presenta en el libro de G. Sekey, no pude encontrarlo.Obtenemos que el teorema de Erdos-Renyi puede ser utilizado por la prueba, por definición de homogeneidad de datos.
Es aplicable a las distribuciones que tienen un momento central de primer orden (MX).
Solo se puede aplicar a procesos aleatorios secuenciales de un solo canal.
Cómo aplicarlo
Cualquier distribución, con expectativa, podemos imaginarla como una desviación del centro: izquierda-derecha, arriba-abajo. Es decir, la pérdida: colas de águila.
En consecuencia, según este teorema, se debe detectar un intervalo en el que los valores consecutivos, en la cantidad de
están por encima o por debajo de MX (Y (xi)).
Nota En este aspecto, quería ver la prueba de este teorema, para entender que solo hay una fila (solo arriba o abajo) o dos (arriba y abajo). Según mis pensamientos, la simetría de estos fenómenos debería dar lugar a dos contratos y, por otro lado, al analizar la prueba de un proceso similar, estos matemáticos relacionados con los gráficos, luego sugirieron que construyeron la prueba para determinar el máximo. Lo que permite la existencia de evidencia para minimizar la función objetivo. Surgieron preguntas sobre cómo el teorema de Erds-Renyi busca probabilidades asimétricas, para opciones de más de 2.La consecuencia práctica del descubrimiento de un solo contrato secuencial en la base en estudio nos da la oportunidad de asumir que todos los datos presentados son homogéneos.
El segundo Si, al procesar los datos, de acuerdo con el teorema de Erd -s-Renyi, encontramos que hay una serie de más valores de los que deberían ser, entonces la situación que se muestra en la figura es probable.
La serie que se muestra en la figura está compuesta como una composición de dos funciones, a los fines del ejemplo.La tercera conclusión. Si, procesando los datos (1 millón de registros), según el teorema de Erd s-Renyi, no se encontró una sola fila con una longitud de 19 números, pero, por ejemplo, se encontraron tres secuencias con 17 números. Se puede suponer que los datos generales consisten en una composición de tres funciones, y por el lugar de estas series, para determinar los intervalos en los que pueden ocurrir transitorios.
Cuando trabajó en este material, se hizo una observación sobre lo siguiente. Todos los métodos desarrollados de análisis de datos están hechos para tecnologías cuando, de acuerdo con pequeñas observaciones naturales, es necesario determinar los parámetros de una población mucho más grande, a partir de 100 observaciones, para determinar las propiedades de la población general de 1 millón o más. Y para las tareas modernas, cuando es necesario descomponer una gran base de datos, las herramientas desarrolladas por las estadísticas son muy laboriosas.
Continuación:
Parte 2 ,
Parte 3 .