Problèmes d'analyse du Big Data

Quels sont les défis de l'analyse Big Data


Le Big Data crée des fonctionnalités qui ne sont pas partagées par les ensembles de données traditionnels. Ces caractéristiques créent des problèmes importants pour l'analyse des données et motivent le développement de nouvelles méthodes statistiques. Contrairement aux ensembles de données traditionnels, où la taille de l'échantillon est généralement plus grande que la mesure, le Big Data se caractérise par une taille d'échantillon énorme et une dimension élevée. Tout d'abord, nous discuterons de l'effet des grandes tailles d'échantillon sur la compréhension de l'hétérogénéité: d'une part, les grandes tailles d'échantillon nous permettent de découvrir des modèles cachés associés à de petits sous-groupes de la population et une mauvaise généralité dans l'ensemble de la population. D'autre part, la modélisation de l'hétérogénéité interne du Big Data nécessite des méthodes statistiques plus sophistiquées. Deuxièmement, nous discuterons de plusieurs phénomènes uniques associés à une dimensionnalité élevée, notamment l'accumulation de bruit, la fausse corrélation et l'endogénéité aléatoire. Ces caractéristiques uniques invalident les procédures statistiques traditionnelles.

Hétérogénéité


Le Big Data est souvent créé en combinant plusieurs sources de données correspondant à différents sous-groupes. Chaque sous-groupe peut présenter des fonctionnalités uniques qui ne sont pas partagées par d'autres. Dans des conditions classiques, lorsque la taille de l'échantillon est petite ou modérée, les points de données de petites sous-populations sont généralement classés comme des «écarts», et il est systématiquement difficile de modéliser en raison du nombre insuffisant d'observations. Cependant, à l'ère du Big Data, la grande taille de l'échantillon nous permet de mieux comprendre l'hétérogénéité en mettant en lumière des études telles que l'étude de la relation entre certaines covariables (par exemple les gènes ou les SNP) et les résultats rares (par exemple les maladies rares ou les maladies dans de petites populations) et la compréhension pourquoi certains traitements (comme la chimiothérapie) profitent à une population et nuisent à une autre. Pour mieux illustrer ce point, nous introduisons le modèle suivant pour la population:

$$ affiche $$ λ1p1 (y; θ1 (x)) + ⋯ + λmpm (y; θm (x)), λ1p1 (y; θ1 (x)) + ⋯ + λmpm (y; θm (x)), ( 1) $$ afficher $$


Où λj ≥ 0 représente la fraction du jième sous-groupe, pj (y; θj (x)) est la distribution de probabilité de la réponse du jième sous-groupe, étant donné les covariables de x avec θj (x) comme vecteur de paramètres. En pratique, de nombreuses sous-populations sont rarement observées, c'est-à-dire que λj est très petit. Lorsque la taille de l'échantillon n est modérée, nλj peut être petit, ce qui rend impossible de dériver des paramètres dépendants des covariables θj (x) en raison d'un manque d'informations. Cependant, étant donné que le Big Data a une grande taille d'échantillon n, la taille d'échantillon nλj pour le jème groupe de population peut être modérément grande, même si λj est très petit. Cela nous permet de tirer une conclusion plus précise sur les paramètres de la sous-population θj (·). En bref, le principal avantage du Big Data est la compréhension de l'hétérogénéité des sous-populations, comme les avantages de certains traitements personnalisés qui ne sont pas possibles avec un échantillon de petite ou moyenne taille.

Le Big Data nous permet également, en raison de la grande taille des échantillons, d'identifier une communauté faible parmi l'ensemble de la population. Par exemple, évaluer le bénéfice cardiaque d'un verre de vin rouge par jour peut être difficile sans un échantillon de grande taille. De même, les risques pour la santé associés à l'exposition à certains facteurs environnementaux ne peuvent être évalués de manière plus convaincante que lorsque la taille des échantillons est suffisamment grande.

En plus des avantages ci-dessus, l'hétérogénéité du Big Data pose également des défis importants pour l'inférence statistique. La dérivation du modèle de mélange en (1) pour les grands ensembles de données nécessite des méthodes statistiques et informatiques complexes. Dans les petites mesures, des méthodes standard telles que l'algorithme de maximisation de l'attente pour les modèles de mélange final peuvent être utilisées. À grande échelle, cependant, nous devons soigneusement rationaliser la procédure d'évaluation pour éviter le sur-ajustement ou l'accumulation de bruit et pour développer de bons algorithmes de calcul.

Accumulation de bruit


L'analyse des mégadonnées nous oblige à évaluer et à vérifier de nombreux paramètres en même temps. Les erreurs d'estimation s'accumulent lorsque la règle de décision ou de prédiction dépend d'un grand nombre de ces paramètres. Cet effet d'accumulation de bruit est particulièrement grave dans les grandes dimensions et peut même dominer les vrais signaux. Ceci est généralement géré par l'hypothèse de rareté.

Prenons, par exemple, une classification multidimensionnelle. Une mauvaise classification est due à la présence de nombreuses faiblesses qui ne contribuent pas à la réduction des erreurs de classification. Par exemple, considérons le problème de classification lorsque les données proviennent de deux classes:

$$ affiche $$ X1 et Y1, ........ Xn∼Nd (μ1, Id), Yn∼Nd (μ2, Id) .X1, ..., Xn∼Nd (μ1, Id) et Y1, ..., Yn∼ Nd (μ2, Id). (2) $$ afficher $$


Nous voulons construire une règle de classification qui classe une nouvelle observation Z∈RdZ∈Rd dans la première ou la deuxième classe. Pour illustrer l'effet de l'accumulation de bruit dans la classification, nous fixons n = 100 et d = 1000. Nous définissons μ1 = 0μ1 = 0 et μ2 comme clairsemés, c'est-à-dire seuls les 10 premiers enregistrements de μ2 sont non nuls avec une valeur de 3, et tous les autres enregistrements sont nuls. La figure 1 montre les deux premiers composants principaux en utilisant les premiers m = 2, 40, 200 éléments et jusqu'à 1000 éléments. Comme le montrent ces graphiques, lorsque m = 2, nous obtenons un degré élevé de discrimination. Cependant, le pouvoir discriminant devient très faible lorsque m est trop grand en raison de l'accumulation de bruit. Les 10 premières fonctions contribuent au classement, les autres non. Par conséquent, lorsque m> 10, les procédures ne reçoivent pas de signaux supplémentaires, mais accumulent du bruit: plus m, plus de bruit s'accumule, ce qui aggrave la procédure de classification en raison de la dimensionnalité. À m = 40, les signaux accumulés compensent le bruit accumulé, de sorte que les deux premiers composants principaux ont toujours une bonne capacité de reconnaissance. Lorsque m = 200, le bruit accumulé dépasse le gain du signal.

La discussion ci-dessus motive l'utilisation de modèles clairsemés et le choix de variables pour surmonter l'effet de l'accumulation de bruit. Par exemple, dans le modèle de classification (2), au lieu d'utiliser toutes les fonctions, nous pourrions choisir un sous-ensemble des fonctionnalités qui offrent le meilleur rapport signal / bruit. Un tel modèle clairsemé offre une efficacité de classification plus élevée. En d'autres termes, le choix des variables joue un rôle clé pour surmonter l'accumulation de bruit dans la classification et la prévision de la régression. Cependant, la sélection de variables de grandes dimensions est difficile en raison de la fausse corrélation, de l'endogénéité aléatoire, de l'hétérogénéité et des erreurs de mesure.

Fausse corrélation


Une dimensionnalité élevée contient également une fausse corrélation, citant le fait que de nombreuses variables aléatoires non corrélées peuvent avoir des corrélations d'échantillonnage élevées dans de grandes dimensions. Une fausse corrélation peut conduire à des découvertes scientifiques erronées et à des conclusions statistiques incorrectes.

Considérons le problème d'estimation du vecteur coefficient β d'un modèle linéaire

$$ afficher $$ y = Xβ + ϵ, Var (ϵ) = σ2Id, y = Xβ + ϵ, Var (ϵ) = σ2Id, (3) $$ afficher $$


où y∈Rny∈Rn représente le vecteur de réponse, X = [x1, ..., xn] T∈Rn × dX = [x1, ..., xn] T∈Rn × d représente la matrice de projection, ∈Rnϵ∈Rn représente le vecteur aléatoire indépendant le bruit et Id est la matrice d'identité d × d. Pour faire face au problème de l'accumulation de bruit, lorsque la taille d est comparable ou supérieure à la taille de l'échantillon n, on suppose que la réponse ne donne qu'un petit nombre de variables, c'est-à-dire que β est un vecteur clairsemé. Conformément à cette hypothèse de rareté, une variable peut être sélectionnée pour éviter l'accumulation de bruit, améliorer les performances de prédiction et améliorer l'interprétabilité d'un modèle avec une représentation conservatrice.

Pour les grandes tailles, même pour un modèle aussi simple que (3), le choix des variables est difficile en raison de la présence d'une fausse corrélation. En particulier, avec une dimensionnalité élevée, des variables importantes peuvent être fortement corrélées avec plusieurs fausses variables qui ne sont pas scientifiquement liées. Prenons un exemple simple illustrant ce phénomène. Soit x1, ..., xn des observations indépendantes d'un vecteur aléatoire gaussien de dimension d X = (X1, ..., Xd) T∼Nd (0, Id) X = (X1, ..., Xd) T∼Nd (0, Id) ⁠ . Nous simulons à plusieurs reprises les données avec n = 60 et d = 800 et 6400 1000 fois. La figure 2a montre la distribution empirique du coefficient de corrélation absolu maximum de l'échantillon entre la première variable et les autres sont définis comme

$$ afficher $$ rˆ = maxj≥2 | Corrˆ (X1, Xj) |, r ^ = maxj≥2 | Corr ^ (X1, Xj) |, (4) $$ afficher $$


où Corr ^ (X1, Xj) Corr ^ (X1, Xj) est l'échantillon de corrélation entre les variables X1 et Xj. Nous voyons que la corrélation absolue maximale de l'échantillon augmente avec l'augmentation de la dimension.

De plus, nous pouvons calculer la corrélation multiple absolue maximale entre X1 et les combinaisons linéaires de plusieurs variables latérales non pertinentes:

$$ afficher $$ Rˆ = max | S | = 4max {βj} 4j = 1∣∣∣∣Corrˆ (X1, ∑j∈SβjXj) ∣∣∣∣.R ^ = max | S | = 4max {βj} j = 14 | Corr ^ (X1, ∑j∈SβjXj) |. (5) $$ afficher $$


En utilisant la configuration standard, la distribution empirique du coefficient absolu maximal de corrélation d'échantillon entre X1 et ∑j ∈ SβjXj est donnée, où S est n'importe quel sous-ensemble de la quatrième taille de {2, ..., d} et βj est le coefficient de régression des moindres carrés Xj lorsque X1 régresse sur {Xj} j ∈ S. Encore une fois, nous voyons que bien que X1 soit complètement indépendant de X2, ..., Xd, la corrélation entre X1 et la combinaison linéaire la plus proche de quatre variables quelconques de {Xj} j ≠ 1 à X1 peut être très élevée.

Une fausse corrélation a un effet significatif sur le choix des variables et peut conduire à des découvertes scientifiques erronées. Soit XS = (Xj) j ∈ S un vecteur aléatoire indexé par S, et soit SˆS ^ l'ensemble sélectionné qui a une corrélation parasite plus élevée avec X1, comme dans la Fig. 2. Par exemple, lorsque n = 60 et d = 6400, nous voyons que X1 est pratiquement indiscernable de XSXS ^ pour l'ensemble SS ^ | Sˆ | = 4 | S ^ | = 4⁠. Si X1 représente le niveau d'expression du gène responsable de la maladie, on ne peut pas le distinguer des quatre autres gènes de SS ^, qui ont un pouvoir pronostique similaire, bien que, d'un point de vue scientifique, cela n'a pas d'importance.

Outre le choix des variables, une fausse corrélation peut également conduire à une conclusion statistique incorrecte. Nous expliquons cela en considérant à nouveau le même modèle linéaire que dans (3). Ici, nous aimerions évaluer l'erreur standard σ du reste, qui se manifeste de manière notable dans les conclusions statistiques des coefficients de régression, la sélection du modèle, le test de conformité et la régression marginale. Soit SˆS ^ l'ensemble des variables sélectionnées, et PSˆPS ^ la matrice de projection sur l'espace de colonne XSˆXS ^ ⁠. Estimation standard de la variance résiduelle basée sur des variables sélectionnées:

$$ affiche $$ σˆ2 = yT (In - PSˆ) yn− | Sˆ | .σ ^ 2 = yT (In - PS ^) yn− | S ^ |. (6) $$ afficher $$


L'évaluateur (6) est impartial lorsque les variables ne sont pas sélectionnées à partir des données et que le modèle est correct. Cependant, la situation est complètement différente lorsque les variables sont sélectionnées en fonction des données. En particulier, les auteurs ont montré que lorsqu'il y a beaucoup de fausses variables, σ2 est sérieusement sous-estimé, cela conduit à des conclusions statistiques erronées, y compris le choix de modèles ou de tests de signification, et des découvertes scientifiques erronées, telles que la recherche de mauvais gènes pour les mécanismes moléculaires. Ils offrent également une méthode avancée de validation croisée pour atténuer le problème.

Endogénéité aléatoire


L'endogénéité aléatoire est un autre problème subtil découlant de la haute dimensionnalité. Dans le cadre de régression, Y = ∑dj = 1βjXj + εY = ∑j = 1dβjXj + ε⁠, le terme «endogénéité» signifie que certains prédicteurs {Xj} sont en corrélation avec le bruit résiduel ε. Le modèle clairsemé habituel suppose

$$ affiche $$ Y = ∑jβjXj + ε, et E (εXj) = 0 pour j = 1, ..., d, Y = ∑jβjXJ + ε, et E (εXj) = 0 pour j = 1, ..., d , (7) $$ afficher $$


avec un petit ensemble S = {j: βj ≠ 0}. L'hypothèse exogène (7) selon laquelle le bruit résiduel ε n'est pas corrélé avec tous les prédicteurs est cruciale pour la fiabilité de la plupart des méthodes statistiques existantes, y compris la cohérence dans le choix des variables. Bien que cette hypothèse semble innocente, il est facile de la violer dans les grandes dimensions, car certaines variables {Xj} sont en corrélation aléatoire avec ε, ce qui rend la plupart des procédures multidimensionnelles statistiquement invalides.

Pour expliquer le problème d'endogénéité plus en détail, supposons que la réponse inconnue Y soit associée aux trois covariables comme suit:

$$ affiche $$ Y = X1 + X2 + X3 + ε, avec EεXj = 0, pour j = 1, 2, 3.Y = X1 + X2 + X3 + ε, avecEεXj = 0, pour j = 1, 2, 3 . $$ afficher $$


Au stade de la collecte des données, nous ne connaissons pas le vrai modèle et donc nous collectons autant de covariables que potentiellement associées à Y dans l'espoir d'inclure tous les termes de S dans (7). Soit dit en passant, certains de ces Xj (pour jj 1, 2, 3) peuvent être associés à du bruit résiduel ε. Cela réfute l'hypothèse d'une modélisation exogène dans (7). En fait, plus il y a de covariables collectées ou mesurées, plus cette hypothèse est complexe.

Contrairement à la fausse corrélation, l'endogénéité aléatoire fait référence à l'existence réelle de corrélations entre des variables involontaires. La première est similaire au fait que deux personnes sont similaires, mais n'ont pas de lien génétique, et la seconde est comme une connaissance qui se déroule facilement dans une grande ville. Dans un sens plus général, l'endogénéité résulte d'un biais de choix, d'erreurs de mesure et de variables manquantes. Ces phénomènes surviennent souvent lors de l'analyse du Big Data, principalement pour deux raisons:

  • Grâce aux nouvelles méthodes de mesure hautes performances, les scientifiques peuvent collecter autant de fonctions que possible et s'efforcer de le faire. En conséquence, cela augmente la probabilité que certains d'entre eux soient corrélés avec du bruit résiduel.
  • Le Big Data est généralement combiné à partir de plusieurs sources avec des schémas de génération de données potentiellement différents. Cela augmente la probabilité de biais dans les erreurs de sélection et de mesure, ce qui entraîne également une endogénéité aléatoire potentielle.

L'endogénéité aléatoire apparaît-elle dans des ensembles de données réels et comment pouvons-nous tester cela dans la pratique? Nous envisageons une étude de génomique dans laquelle 148 échantillons de microréseaux sont téléchargés à partir des bases de données GEO et ArrayExpress. Ces échantillons ont été créés sur la plateforme Affymetrix HGU133a pour les personnes atteintes d'un cancer de la prostate. L'ensemble de données obtenu contient 22 283 sondes, ce qui correspond à 12 719 gènes. Dans cet exemple, nous nous intéressons à un gène appelé «membre de la famille des récepteurs du domaine discoïdine 1» (en abrégé DDR1). La DDR1 code pour les récepteurs tyrosine kinases, qui jouent un rôle important dans la connexion des cellules avec leur microenvironnement. Il est connu que DDR1 est étroitement lié au cancer de la prostate, et nous voulons étudier sa relation avec d'autres gènes chez les patients atteints de cancer. Nous avons pris l'expression du gène DDR1 comme variable de réponse Y, et l'expression de tous les 12 718 gènes restants comme prédicteurs. Dans le volet gauche, fig. La figure 3 montre la distribution empirique des corrélations entre la réponse et les prédicteurs individuels.

Pour illustrer l'existence de l'endogénéité, nous ajustons la régression des moindres carrés L1 (Lasso) aux données, et la pénalité est automatiquement sélectionnée à l'aide d'une validation croisée 10 fois (37 gènes sélectionnés). Ensuite, nous rétablirons la régression des moindres carrés habituelle pour le modèle sélectionné pour calculer le vecteur résiduel. Dans le volet droit, fig. 3, nous construisons une distribution empirique des corrélations entre les prédicteurs et les résidus. Nous voyons que le bruit résiduel est fortement corrélé avec de nombreux prédicteurs. Pour nous assurer que ces corrélations ne sont pas provoquées par une corrélation purement fausse, nous introduisons une «distribution nulle» de fausses corrélations en réarrangeant au hasard les ordres des lignes dans la matrice du projet, de sorte que les prédicteurs sont vraiment indépendants du bruit résiduel. En comparant ces deux distributions, nous voyons que la distribution des corrélations entre les prédicteurs et le bruit résiduel dans les données brutes (marquées comme «données brutes») a une queue plus lourde que dans les données réarrangées (marquées comme «données réarrangées»). Ce résultat fournit des preuves solides de l'endogénéité.

Source: https://habr.com/ru/post/fr456088/


All Articles