Ruído branco desenha um quadrado preto

Qualquer analista, no início de seu trabalho, passa pelo estágio odioso de determinar a identificação dos parâmetros de distribuição. Então, com o acúmulo de experiência, para ele, a coordenação da dispersão residual obtida significa que algum estágio, na análise do Big Data, é passado e você pode seguir em frente. Não há mais necessidade de verificar centenas de modelos quanto à conformidade com várias equações de regressão, procurar segmentos com transitórios e compor uma composição de modelos. Para se atormentar com dúvidas: "Talvez exista outro modelo mais adequado?"

Pensei: “Mas e se você for pelo contrário. Veja o que o ruído branco pode fazer. O ruído branco pode criar algo que nossa atenção se compare com um objeto significativo de nossa experiência? ”


Fig. Ruído branco (arquivo retirado da rede, tamanho 448x235).

Sobre esse assunto, ele argumentou da seguinte maneira:

  1. Qual é a probabilidade de linhas horizontais e verticais de comprimento visível aparecerem?
  2. Se eles podem aparecer, então qual é a probabilidade de que eles coincidam com sua origem em uma das coordenadas e formem uma figura retangular?

Mais adiante, explicarei como essas tarefas se relacionam à análise de Big Data.

No livro de G.Sekey "Paradoxos na teoria das probabilidades e nas estatísticas matemáticas" (p. 43), encontrei um link para o teorema de Erds - Renyi , que diz o seguinte:
Ao jogar uma moeda n vezes, uma série de emblemas de comprimento  log2nobservado com uma probabilidade tendendo a 1, com n tendendo ao infinito.

Para nossa figura, isso significa que em cada uma das 235 linhas com probabilidade tendendo a 1, existe:



isto é, caímos para o todo - 8 pontos pretos seguidos horizontalmente.

E para todas as 448 colunas, com probabilidade tendendo a 1, há:



descartando para o todo - 7 pontos pretos seguidos, verticalmente.

A partir daqui, temos a probabilidade de que, no "ruído branco", seja desenhado um retângulo preto de 8x7 pixels de tamanho, para esta figura:



Onde 1 é a primeira sequência de pontos pretos em uma linha, em qualquer lugar no espaço bidimensional.

Não discuto que a probabilidade seja muito pequena, mas não zero.

Seguindo em frente, podemos combinar todas as linhas em uma e obter uma linha com 102.225 caracteres. E então, pelo teorema de Erd-Renyi, com probabilidade tendendo a 1, existe uma cadeia de comprimento:



E para uma cadeia de 1 milhão de registros:



Como você pode ver, a conexão do teorema de Erdos-Renyi com o Big Data é identificada exclusivamente.

Nota A seguir, apresentarei minha própria análise dos identificados. Como nessa forma, esse teorema e sua prova, apresentados no livro de G. Sykey, não consegui encontrar.

Concluímos que o teorema de Erdos-Renyi pode ser usado pelo teste, por definição de homogeneidade dos dados.

É aplicável a distribuições com um momento central de primeira ordem (MX).
Só pode ser aplicado a processos aleatórios seqüenciais de canal único.

Como aplicar


Qualquer distribuição, com expectativa, podemos imaginar como um desvio do centro: esquerda-direita, cima-baixo. Ou seja, a perda: caudas de águia.

Assim, por esse teorema, um intervalo deve ser detectado em que valores consecutivos, na quantidade de m= log2Nestão acima ou abaixo do MX (Y (xi)).

Nota Nesse aspecto, eu queria ver a prova desse teorema, para entender que existe apenas uma dessas linhas (somente acima ou abaixo) ou duas (acima e abaixo). Segundo meus pensamentos, a simetria desses fenômenos deveria dar origem a dois contratos e, por outro lado, analisando a prova de um processo semelhante, esses matemáticos relacionados a gráficos, sugeriram que construíssem a prova para determinar o máximo. O que permite a existência de evidências para minimizar a função objetivo. Surgiram questões sobre como o teorema de Erds-Renyi procura probabilidades assimétricas, para opções acima de 2.

A conseqüência prática da descoberta de apenas um contrato seqüencial na base em estudo nos dá a oportunidade de assumir que todos os dados apresentados são homogêneos.
O segundo Se, ao processar os dados, de acordo com o teorema Erd-s-Renyi, descobrimos que há uma série de mais valores do que deveria, então a situação mostrada na figura é provável.


A série mostrada na figura é composta como uma composição de duas funções, para os fins do exemplo.

A terceira conclusão. Se, ao processar os dados (1 milhão de registros), pelo teorema de Erds-Renyi, não foi encontrada uma única linha com um comprimento de 19 números, mas, digamos, três seqüências com 17 números foram encontradas. Pode-se supor que os dados gerais consistam em uma composição de três funções, e pelo local dessas séries, para determinar os intervalos nos quais os transitórios podem ocorrer.

Quando ele trabalhou neste material, foi feita uma observação sobre o seguinte. Todos os métodos desenvolvidos de análise de dados são feitos para tecnologias quando, de acordo com pequenas observações naturais, é necessário determinar os parâmetros de uma população muito maior, a partir de 100 observações, para determinar as propriedades da população em geral de 1 milhão ou mais. E para tarefas modernas, quando é necessário decompor um grande banco de dados, as ferramentas desenvolvidas pela estatística são muito trabalhosas.

Continuação: Parte 2 , Parte 3 .

Source: https://habr.com/ru/post/pt460473/


All Articles