Qualquer analista, no início de seu trabalho, passa pelo estágio odioso de determinar a identificação dos parâmetros de distribuição. Então, com o acúmulo de experiência, para ele, a coordenação da dispersão residual obtida significa que algum estágio, na análise do Big Data, é passado e você pode seguir em frente. Não há mais necessidade de verificar centenas de modelos quanto à conformidade com várias equações de regressão, procurar segmentos com transitórios e compor uma composição de modelos. Para se atormentar com dúvidas: "Talvez exista outro modelo mais adequado?"
Pensei: “Mas e se você for pelo contrário. Veja o que o ruído branco pode fazer. O ruído branco pode criar algo que nossa atenção se compare com um objeto significativo de nossa experiência? ”
Fig. Ruído branco (arquivo retirado da rede, tamanho 448x235).Sobre esse assunto, ele argumentou da seguinte maneira:
- Qual é a probabilidade de linhas horizontais e verticais de comprimento visível aparecerem?
- Se eles podem aparecer, então qual é a probabilidade de que eles coincidam com sua origem em uma das coordenadas e formem uma figura retangular?
Mais adiante, explicarei como essas tarefas se relacionam à análise de Big Data.
No livro de G.Sekey
"Paradoxos na teoria das probabilidades e nas estatísticas matemáticas" (p. 43), encontrei um link para o teorema de
Erds -
Renyi , que diz o seguinte:
Ao jogar uma moeda n vezes, uma série de emblemas de comprimento
observado com uma probabilidade tendendo a 1, com n tendendo ao infinito.
Para nossa figura, isso significa que em cada uma das 235 linhas com probabilidade tendendo a 1, existe:

isto é, caímos para o todo - 8 pontos pretos seguidos horizontalmente.
E para todas as 448 colunas, com probabilidade tendendo a 1, há:

descartando para o todo - 7 pontos pretos seguidos, verticalmente.
A partir daqui, temos a probabilidade de que, no "ruído branco", seja desenhado um retângulo preto de 8x7 pixels de tamanho, para esta figura:

Onde 1 é a primeira sequência de pontos pretos em uma linha, em qualquer lugar no espaço bidimensional.
Não discuto que a probabilidade seja muito pequena, mas não zero.
Seguindo em frente, podemos combinar todas as linhas em uma e obter uma linha com 102.225 caracteres. E então, pelo teorema de Erd-Renyi, com probabilidade tendendo a 1, existe uma cadeia de comprimento:

E para uma cadeia de 1 milhão de registros:

Como você pode ver, a conexão do teorema de Erdos-Renyi com o Big Data é identificada exclusivamente.
Nota A seguir, apresentarei minha própria análise dos identificados. Como nessa forma, esse teorema e sua prova, apresentados no livro de G. Sykey, não consegui encontrar.Concluímos que o teorema de Erdos-Renyi pode ser usado pelo teste, por definição de homogeneidade dos dados.
É aplicável a distribuições com um momento central de primeira ordem (MX).
Só pode ser aplicado a processos aleatórios seqüenciais de canal único.
Como aplicar
Qualquer distribuição, com expectativa, podemos imaginar como um desvio do centro: esquerda-direita, cima-baixo. Ou seja, a perda: caudas de águia.
Assim, por esse teorema, um intervalo deve ser detectado em que valores consecutivos, na quantidade de
estão acima ou abaixo do MX (Y (xi)).
Nota Nesse aspecto, eu queria ver a prova desse teorema, para entender que existe apenas uma dessas linhas (somente acima ou abaixo) ou duas (acima e abaixo). Segundo meus pensamentos, a simetria desses fenômenos deveria dar origem a dois contratos e, por outro lado, analisando a prova de um processo semelhante, esses matemáticos relacionados a gráficos, sugeriram que construíssem a prova para determinar o máximo. O que permite a existência de evidências para minimizar a função objetivo. Surgiram questões sobre como o teorema de Erds-Renyi procura probabilidades assimétricas, para opções acima de 2.A conseqüência prática da descoberta de apenas um contrato seqüencial na base em estudo nos dá a oportunidade de assumir que todos os dados apresentados são homogêneos.
O segundo Se, ao processar os dados, de acordo com o teorema Erd-s-Renyi, descobrimos que há uma série de mais valores do que deveria, então a situação mostrada na figura é provável.
A série mostrada na figura é composta como uma composição de duas funções, para os fins do exemplo.A terceira conclusão. Se, ao processar os dados (1 milhão de registros), pelo teorema de Erds-Renyi, não foi encontrada uma única linha com um comprimento de 19 números, mas, digamos, três seqüências com 17 números foram encontradas. Pode-se supor que os dados gerais consistam em uma composição de três funções, e pelo local dessas séries, para determinar os intervalos nos quais os transitórios podem ocorrer.
Quando ele trabalhou neste material, foi feita uma observação sobre o seguinte. Todos os métodos desenvolvidos de análise de dados são feitos para tecnologias quando, de acordo com pequenas observações naturais, é necessário determinar os parâmetros de uma população muito maior, a partir de 100 observações, para determinar as propriedades da população em geral de 1 milhão ou mais. E para tarefas modernas, quando é necessário decompor um grande banco de dados, as ferramentas desenvolvidas pela estatística são muito trabalhosas.
Continuação:
Parte 2 ,
Parte 3 .