Tout analyste, au début de son travail, passe par l'étape détestée de la détermination de l'identification des paramètres de distribution. Ensuite, avec l'accumulation d'expérience, pour lui, la coordination de la dispersion résiduelle obtenue signifie qu'une étape, dans l'analyse du Big Data, est passée et que vous pouvez passer. Il n'est plus nécessaire de vérifier la conformité des centaines de modèles avec différentes équations de régression, de rechercher des segments avec des transitoires, de composer une composition de modèles. Pour vous tourmenter de doutes: "Peut-être y a-t-il un autre modèle qui convient mieux?"
Je me suis dit: «Et si tu partais du contraire. Voyez ce que le bruit blanc peut faire. Le bruit blanc peut-il créer quelque chose que notre attention compare à un objet significatif de notre expérience? »
Fig. Bruit blanc (fichier extrait du réseau, taille 448x235).Sur cette question, il a raisonné comme suit:
- Quelle est la probabilité d'apparition de lignes horizontales et verticales d'une longueur notable?
- S'ils peuvent apparaître, alors quelle est la probabilité qu'ils coïncident avec leur origine dans l'une des coordonnées et forment une figure rectangulaire?
Plus loin dans le texte, j'expliquerai comment ces tâches se rapportent à l'analyse des Big Data.
Dans le livre de G.Sekey
"Paradoxes dans la théorie des probabilités et les statistiques mathématiques" (p. 43), j'ai trouvé un lien vers le théorème
Erds -
Renyi , qui se lit comme suit:
Lorsque vous lancez une pièce n fois, une série d'emblèmes de longueur
observée avec une probabilité tendant vers 1, avec n tendant vers l'infini.
Pour notre figure, cela signifie que dans chacune des 235 lignes avec une probabilité tendant vers 1, il y a:

c'est-à-dire que nous tombons à l'ensemble - 8 points noirs d'affilée horizontalement.
Et pour les 448 colonnes, avec une probabilité tendant vers 1, il y a:

jeter à l'ensemble - 7 points noirs d'affilée, verticalement.
De là, nous obtenons la probabilité que dans le "bruit blanc" un rectangle noir de 8x7 pixels soit dessiné, pour cette image:

Où 1 est la première séquence de points noirs sur une ligne, n'importe où dans un espace à deux dimensions.
Je ne soutiens pas que la probabilité est très faible, mais pas nulle.
En continuant, nous pouvons combiner toutes les lignes en une seule et obtenir une ligne d'une longueur de 102 225 caractères. Et puis, par le théorème d'Erdhs-Renyi, avec une probabilité tendant vers 1, il existe une chaîne de longueur:

Et pour une chaîne de 1 million d'enregistrements:

Comme vous pouvez le voir, la connexion du théorème d'Erdos-Renyi avec le Big Data est identifiée de manière unique.
Remarque Ensuite, je vais exposer ma propre analyse des identifiés. Puisque sous cette forme, ce théorème et sa preuve, qui est présenté dans le livre de G.Sekey, je n'ai pas pu le trouver.On obtient que le théorème d'Erdos-Renyi peut être utilisé par le test, par définition de l'homogénéité des données.
Elle est applicable aux distributions ayant un moment central du premier ordre (MX).
Il ne peut être appliqué qu'aux processus aléatoires séquentiels à canal unique.
Comment l'appliquer
Toute distribution, avec attente, nous pouvons l'imaginer comme un écart par rapport au centre: gauche-droite, haut-bas. Autrement dit, la perte: queue d'aigle.
En conséquence, par ce théorème, un intervalle doit être détecté dans lequel des valeurs consécutives, dans la quantité de
sont supérieurs ou inférieurs à MX (Y (xi)).
Remarque Dans cet aspect, je voulais voir la preuve de ce théorème, comprendre qu'il n'y a qu'une seule ligne de ce type (uniquement au-dessus ou en dessous) ou deux (au-dessus et en dessous). Selon moi, la symétrie de ces phénomènes devrait donner lieu à deux contrats et, d'autre part, analysant la preuve d'un processus similaire, ces mathématiciens liés aux graphes, ont alors suggéré de construire la preuve en déterminant le maximum. Ce qui permet l'existence de preuves sur la minimisation de la fonction objectif. Des questions se sont posées sur la façon dont le théorème Erds-Renyi recherche les probabilités asymétriques, pour les options supérieures à 2.La conséquence pratique de la découverte d'un seul de ces contrats séquentiels dans la base à l'étude nous donne l'opportunité de supposer que toutes les données présentées sont homogènes.
Le deuxième. Si, en traitant les données, selon le théorème Erd -s-Renyi, nous avons constaté qu'il y a une série de valeurs supérieures à ce qu'elles devraient être, alors la situation représentée sur la figure est probable.
La série représentée sur la figure est composée d'une composition de deux fonctions, aux fins de l'exemple.La troisième conclusion. Si, en traitant les données (1 million d'enregistrements), par le théorème d'Erdhs-Renyi, pas une seule ligne avec une longueur de 19 nombres n'a été trouvée, mais, disons, trois séquences avec 17 nombres ont été trouvées. On peut supposer que les données générales consistent en une composition de trois fonctions, et par la place de ces séries, pour déterminer les intervalles dans lesquels les transitoires peuvent se produire.
Lorsqu'il a travaillé sur ce matériau, une observation a été faite sur les points suivants. Toutes les méthodes développées d'analyse des données sont conçues pour les technologies lorsque, selon de petites observations naturelles, il est nécessaire de déterminer les paramètres d'une population beaucoup plus grande, à partir de 100 observations, pour déterminer les propriétés de la population générale de 1 million ou plus. Et pour les tâches modernes, quand il faut décomposer une énorme base de données, les outils développés par les statistiques sont très laborieux.
Suite:
partie 2 ,
partie 3 .