Probleme bei der Big Data-Analyse

Was sind die Herausforderungen der Big Data-Analyse?


Big Data erstellt Funktionen, die von herkömmlichen Datensätzen nicht gemeinsam genutzt werden. Diese Merkmale verursachen erhebliche Probleme bei der Datenanalyse und motivieren die Entwicklung neuer statistischer Methoden. Im Gegensatz zu herkömmlichen Datensätzen, bei denen die Stichprobengröße normalerweise größer als die Messung ist, zeichnet sich Big Data durch eine große Stichprobengröße und eine hohe Dimension aus. Zunächst werden wir die Auswirkung großer Stichprobengrößen auf das Verständnis der Heterogenität diskutieren: Einerseits ermöglichen große Stichprobengrößen die Aufdeckung verborgener Muster, die mit kleinen Untergruppen der Bevölkerung und einer schlechten Allgemeinheit der gesamten Bevölkerung verbunden sind. Andererseits erfordert die Modellierung der internen Heterogenität von Big Data komplexere statistische Methoden. Zweitens werden wir einige einzigartige Phänomene diskutieren, die mit einer hohen Dimensionalität verbunden sind, einschließlich Rauschakkumulation, falscher Korrelation und zufälliger Endogenität. Diese einzigartigen Merkmale machen herkömmliche statistische Verfahren ungültig.

Heterogenität


Big Data wird häufig durch Kombinieren mehrerer Datenquellen erstellt, die verschiedenen Untergruppen entsprechen. Jede Untergruppe kann einige einzigartige Merkmale aufweisen, die von anderen nicht gemeinsam genutzt werden. Unter klassischen Bedingungen, wenn die Stichprobengröße klein oder mäßig ist, werden Datenpunkte aus kleinen Subpopulationen normalerweise als „Abweichungen“ klassifiziert, und die Modellierung ist aufgrund der unzureichenden Anzahl von Beobachtungen systematisch schwierig. Im Zeitalter von Big Data können wir aufgrund der großen Stichprobengröße die Heterogenität besser verstehen, indem wir die Forschung beleuchten, beispielsweise die Beziehung zwischen bestimmten Kovariaten (z. B. Genen oder SNPs) und seltenen Ergebnissen (z. B. seltenen Krankheiten oder Krankheiten in kleinen Populationen) untersuchen und verstehen warum bestimmte Behandlungen (wie Chemotherapie) einer Bevölkerung zugute kommen und einer anderen schaden. Um diesen Punkt besser zu veranschaulichen, führen wir das folgende Modell für die Bevölkerung ein:

$$ Anzeige $$ λ1p1 (y; θ1 (x)) + ⋯ + λmpm (y; θm (x)), λ1p1 (y; θ1 (x)) + ⋯ + λmpm (y; θm (x)), ( 1) $$ Anzeige $$


Wenn λj ≥ 0 den Bruchteil der j-ten Untergruppe darstellt, ist pj (y; θj (x)) die Wahrscheinlichkeitsverteilung der Antwort der j-ten Untergruppe bei gegebenen Kovariaten von x mit θj (x) als Parametervektor. In der Praxis werden viele Subpopulationen selten beobachtet, dh λj ist sehr klein. Wenn die Stichprobengröße n moderat ist, kann nλj klein sein, was es aufgrund fehlender Informationen unmöglich macht, kovariatenabhängige Parameter θj (x) abzuleiten. Da Big Data jedoch eine große Stichprobengröße n hat, kann die Stichprobengröße nλj für die j-te Bevölkerungsgruppe mäßig groß sein, selbst wenn λj sehr klein ist. Dies ermöglicht es uns, eine genauere Schlussfolgerung über die Parameter der Subpopulation θj (·) zu ziehen. Kurz gesagt, der Hauptvorteil von Big Data ist das Verständnis der Heterogenität von Subpopulationen, beispielsweise der Vorteile bestimmter personalisierter Behandlungen, die mit einer kleinen oder moderaten Stichprobengröße nicht möglich sind.

Mit Big Data können wir aufgrund der großen Stichprobengröße auch eine schwache Community in der gesamten Bevölkerung identifizieren. Beispielsweise kann es ohne eine große Stichprobe schwierig sein, den Herznutzen eines Glases Rotwein pro Tag zu beurteilen. Ebenso können Gesundheitsrisiken, die mit der Exposition gegenüber bestimmten Umweltfaktoren verbunden sind, nur dann überzeugender bewertet werden, wenn die Stichprobengrößen groß genug sind.

Zusätzlich zu den oben genannten Vorteilen stellt die Heterogenität von Big Data auch die statistische Inferenz vor erhebliche Herausforderungen. Die Ableitung des Mischungsmodells in (1) für große Datenmengen erfordert komplexe statistische und rechnerische Methoden. Bei kleinen Messungen können Standardmethoden wie der Wartemaximierungsalgorithmus für die endgültigen Mischungsmodelle verwendet werden. In großem Maßstab müssen wir jedoch das Bewertungsverfahren sorgfältig rationalisieren, um eine Überanpassung oder Akkumulation von Rauschen zu vermeiden und gute Berechnungsalgorithmen zu entwickeln.

Geräuschansammlung


Bei der Big Data-Analyse müssen wir viele Parameter gleichzeitig bewerten und verifizieren. Schätzfehler häufen sich, wenn die Entscheidungs- oder Vorhersageregel von einer großen Anzahl solcher Parameter abhängt. Dieser Effekt der Rauschakkumulation ist in großen Dimensionen besonders schwerwiegend und kann sogar echte Signale dominieren. Dies wird normalerweise unter der Annahme von Spärlichkeit behandelt.

Nehmen Sie zum Beispiel eine mehrdimensionale Klassifizierung. Eine schlechte Klassifizierung ist auf das Vorhandensein vieler Schwachstellen zurückzuführen, die nicht zur Reduzierung von Klassifizierungsfehlern beitragen. Betrachten Sie als Beispiel das Klassifizierungsproblem, wenn Daten aus zwei Klassen stammen:

$$ Anzeige $$ X1 und Y1, ........ Xn∼Nd (μ1, Id), Yn∼Nd (μ2, Id) .X1, ..., Xn∼Nd (μ1, Id) und Y1, ..., Yn∼ Nd (μ2, Id). (2) $$ Anzeige $$


Wir wollen eine Klassifizierungsregel erstellen, die eine neue Beobachtung Z∈RdZ∈Rd entweder in der ersten oder in der zweiten Klasse klassifiziert. Um den Effekt der Rauschakkumulation in der Klassifizierung zu veranschaulichen, setzen wir n = 100 und d = 1000. Wir setzen μ1 = 0μ1 = 0 und μ2 als spärlich, d.h. Nur die ersten 10 Datensätze von μ2 sind ungleich Null mit einem Wert von 3, und alle anderen Datensätze sind Null. Abbildung 1 zeigt die ersten beiden Hauptkomponenten unter Verwendung der ersten m = 2, 40, 200 Elemente und bis zu 1000 Elemente. Wie in diesen Diagrammen gezeigt, erhalten wir bei m = 2 einen hohen Grad an Diskriminierung. Die Unterscheidungsleistung wird jedoch sehr gering, wenn m aufgrund der Rauschakkumulation zu groß ist. Die ersten 10 Funktionen tragen zur Klassifizierung bei, der Rest nicht. Wenn also m> 10 ist, empfangen die Prozeduren keine zusätzlichen Signale, sondern akkumulieren Rauschen: Je mehr m, desto mehr Rauschen akkumuliert, was das Klassifizierungsverfahren aufgrund der Dimensionalität verschlechtert. Bei m = 40 kompensieren die akkumulierten Signale das akkumulierte Rauschen, so dass die ersten beiden Hauptkomponenten noch eine gute Erkennungsfähigkeit aufweisen. Wenn m = 200 ist, überschreitet das akkumulierte Rauschen die Signalverstärkung.

Die obige Diskussion motiviert die Verwendung spärlicher Modelle und die Auswahl von Variablen, um den Effekt der Rauschakkumulation zu überwinden. Zum Beispiel könnten wir im Klassifizierungsmodell (2) anstelle aller Funktionen eine Teilmenge der Merkmale auswählen, die das beste Signal-Rausch-Verhältnis erzielen. Ein solches spärliches Modell bietet eine höhere Klassifizierungseffizienz. Mit anderen Worten, die Wahl der Variablen spielt eine Schlüsselrolle bei der Überwindung der Rauschakkumulation bei der Klassifizierung und Vorhersage der Regression. Die Auswahl von Variablen in großen Dimensionen ist jedoch aufgrund falscher Korrelation, zufälliger Endogenität, Heterogenität und Messfehlern schwierig.

Falsche Korrelation


Eine hohe Dimensionalität enthält auch eine falsche Korrelation, da viele nicht korrelierte Zufallsvariablen in großen Dimensionen hohe Stichprobenkorrelationen aufweisen können. Eine falsche Korrelation kann zu fehlerhaften wissenschaftlichen Entdeckungen und falschen statistischen Schlussfolgerungen führen.

Betrachten Sie das Problem der Schätzung des Koeffizientenvektors β eines linearen Modells

$$ Anzeige $$ y = Xβ + ϵ, Var (ϵ) = σ2Id, y = Xβ + ϵ, Var (ϵ) = σ2Id, (3) $$ Anzeige $$


wobei y∈Rny∈Rn den Antwortvektor darstellt, X = [x1, ..., xn] T∈Rn × dX = [x1, ..., xn] T∈Rn × d die Projektionsmatrix darstellt ,, ∈Rnϵ∈Rn den unabhängigen Zufallsvektor darstellt Rauschen und Id ist die d × d-Identitätsmatrix. Um das Problem der Rauschakkumulation zu bewältigen, wird angenommen, dass die Antwort nur eine kleine Anzahl von Variablen ergibt, wenn die Größe d mit der Stichprobengröße n vergleichbar oder größer als diese ist, dh β ist ein spärlicher Vektor. In Übereinstimmung mit dieser Spärlichkeitsannahme kann eine Variable ausgewählt werden, um eine Rauschakkumulation zu vermeiden, die Vorhersageleistung zu verbessern und die Interpretierbarkeit eines Modells mit einer konservativen Darstellung zu verbessern.

Bei großen Größen ist die Auswahl von Variablen selbst für ein so einfaches Modell wie (3) aufgrund des Vorhandenseins einer falschen Korrelation schwierig. Insbesondere bei hoher Dimensionalität können wichtige Variablen stark mit mehreren falschen Variablen korreliert werden, die nicht wissenschaftlich verwandt sind. Betrachten Sie ein einfaches Beispiel, das dieses Phänomen veranschaulicht. Sei x1, ..., xn unabhängige Beobachtungen eines d-dimensionalen Gaußschen Zufallsvektors X = (X1, ..., Xd) T∼Nd (0, Id) X = (X1, ..., Xd) T∼Nd (0, Id) ⁠ . Wir simulieren Daten wiederholt mit n = 60 und d = 800 und 6400 1000 Mal. Fig. 2a zeigt die empirische Verteilung des maximalen absoluten Probenkorrelationskoeffizienten zwischen der ersten Variablen und dem Rest, definiert als

$$ Anzeige $$ rˆ = maxj≥2 | Corrˆ (X1, Xj) |, r ^ = maxj≥2 | Corr ^ (X1, Xj) |, (4) $$ Anzeige $$


wobei Corr ^ (X1, Xj) Corr ^ (X1, Xj) die Stichprobenkorrelation zwischen den Variablen X1 und Xj ist. Wir sehen, dass die maximale absolute Korrelation der Probe mit zunehmender Dimension höher wird.

Zusätzlich können wir die maximale absolute Mehrfachkorrelation zwischen X1 und linearen Kombinationen mehrerer irrelevanter Seitenvariablen berechnen:

$$ display $$ Rˆ = max | S | = 4max {βj} 4j = 1∣∣∣∣Corrˆ (X1, ∑j∑SβjXj) ∣∣∣∣.R ^ = max | S | = 4max {βj} j = 14 | Corr ^ (X1, ∑j∑SβjXj) |. (5) $$ Anzeige $$


Unter Verwendung der Standardkonfiguration wird die empirische Verteilung des maximalen absoluten Koeffizienten der Probenkorrelation zwischen X1 und ∑j ∈ SβjXj angegeben, wobei S eine beliebige Teilmenge der vierten Größe von {2, ..., d} ist und βj der Regressionskoeffizient Xj der kleinsten Quadrate ist, wenn X1 auf {Xj} zurückgeht j ∈ S. Wiederum sehen wir, dass, obwohl X1 völlig unabhängig von X2, ..., Xd ist, die Korrelation zwischen X1 und der nächsten linearen Kombination von vier Variablen von {Xj} j ≠ 1 bis X1 sehr hoch sein kann.

Eine falsche Korrelation hat einen erheblichen Einfluss auf die Auswahl der Variablen und kann zu fehlerhaften wissenschaftlichen Entdeckungen führen. Sei XS = (Xj) j ∈ S ein durch S indizierter Zufallsvektor, und sei SˆS ^ die ausgewählte Menge, die eine höhere parasitäre Korrelation mit X1 aufweist, wie in Fig. 1 dargestellt. 2. Wenn zum Beispiel n = 60 und d = 6400 ist, sehen wir, dass X1 für die Menge SS ^ | praktisch nicht von XSXS ^ zu unterscheiden ist Sˆ | = 4 | S ^ | = 4⁠. Wenn X1 das Expressionsniveau des für die Krankheit verantwortlichen Gens darstellt, können wir es nicht von den anderen vier Genen in SS ^ unterscheiden, die eine ähnliche Prognosekraft haben, obwohl sie aus wissenschaftlicher Sicht keine Rolle spielen.

Neben der Auswahl der Variablen kann eine falsche Korrelation auch zu einer falschen statistischen Schlussfolgerung führen. Wir erklären dies, indem wir erneut dasselbe lineare Modell wie in (3) betrachten. Hier möchten wir den Standardfehler σ des Restes schätzen, der sich spürbar in den statistischen Schlussfolgerungen der Regressionskoeffizienten, der Modellauswahl, des Korrespondenztests und der marginalen Regression manifestiert. Sei SˆS ^ die Menge ausgewählter Variablen und PSˆPS ^ die Projektionsmatrix auf den Spaltenraum XSˆXS ^ ⁠. Standardschätzung der Restvarianz basierend auf ausgewählten Variablen:

$$ display $$ σˆ2 = yT (In - PSˆ) yn - | Sˆ | .σ ^ 2 = yT (In - PS ^) yn - | S ^ |. (6) $$ Anzeige $$


Der Bewerter (6) ist unparteiisch, wenn die Variablen nicht aus den Daten ausgewählt werden und das Modell korrekt ist. Die Situation ist jedoch völlig anders, wenn Variablen basierend auf Daten ausgewählt werden. Insbesondere haben die Autoren gezeigt, dass σ2 bei vielen falschen Variablen stark unterschätzt wird, was zu fehlerhaften statistischen Schlussfolgerungen führt, einschließlich der Auswahl von Modellen oder Signifikanztests, und zu fehlerhaften wissenschaftlichen Entdeckungen wie der Suche nach den falschen Genen für molekulare Mechanismen. Sie bieten auch eine erweiterte Kreuzvalidierungsmethode, um das Problem zu lösen.

Zufällige Endogenität


Zufällige Endogenität ist ein weiteres subtiles Problem, das sich aus der hohen Dimensionalität ergibt. In der Regressionseinstellung Y = ∑dj = 1βjXj + εY = ∑j = 1dβjXj + ε⁠ bedeutet der Begriff „Endogenität“, dass einige Prädiktoren {Xj} mit dem Restrauschen ε korrelieren. Das übliche spärliche Modell geht davon aus

$$ Anzeige $$ Y = ∑jβjXj + ε und E (εXj) = 0 für j = 1, ..., d, Y = ∑jβjXj + ε und E (εXj) = 0 für j = 1, ..., d , (7) $$ Anzeige $$


mit einer kleinen Menge S = {j: βj ≠ 0}. Die exogene Annahme (7), dass das Restrauschen ε nicht mit allen Prädiktoren korreliert, ist entscheidend für die Zuverlässigkeit der meisten vorhandenen statistischen Methoden, einschließlich der Konsistenz bei der Auswahl der Variablen. Obwohl diese Annahme unschuldig erscheint, ist es leicht, sie in großen Dimensionen zu verletzen, da einige Variablen {Xj} zufällig mit ε korrelieren, was die meisten mehrdimensionalen Verfahren statistisch ungültig macht.

Um das Endogenitätsproblem genauer zu erklären, nehmen wir an, dass die unbekannte Antwort Y wie folgt mit den drei Kovariaten assoziiert ist:

$$ Anzeige $$ Y = X1 + X2 + X3 + ε mit EεXj = 0 für j = 1, 2, 3.Y = X1 + X2 + X3 + ε mit EεXj = 0 für j = 1, 2, 3 $$ Anzeige $$


In der Phase der Datenerfassung kennen wir das wahre Modell nicht und erfassen daher so viele Kovariaten, wie möglicherweise mit Y assoziiert sind, in der Hoffnung, alle Begriffe in S in (7) aufzunehmen. Übrigens können einige dieser Xj (für jj 1, 2, 3) mit Restrauschen & egr; assoziiert sein. Dies widerlegt die Annahme einer exogenen Modellierung in (7). Je mehr Kovariaten gesammelt oder gemessen werden, desto komplexer ist diese Annahme.

Im Gegensatz zur falschen Korrelation bezieht sich die zufällige Endogenität auf die tatsächliche Existenz von Korrelationen zwischen unbeabsichtigten Variablen. Das erste ähnelt der Tatsache, dass zwei Menschen einander ähnlich sind, aber keine genetische Verbindung haben, und das zweite ist wie eine Bekanntschaft, die leicht in einer Großstadt stattfindet. Im Allgemeinen ergibt sich die Endogenität aus einer Verzerrung der Wahl, Messfehlern und fehlenden Variablen. Diese Phänomene treten häufig bei der Analyse von Big Data auf, hauptsächlich aus zwei Gründen:

  • Dank neuer Hochleistungsmessmethoden können Wissenschaftler möglichst viele Funktionen sammeln und danach streben. Dies erhöht dementsprechend die Wahrscheinlichkeit, dass einige von ihnen mit Restrauschen korrelieren.
  • Big Data wird normalerweise aus mehreren Quellen mit möglicherweise unterschiedlichen Datengenerierungsschemata kombiniert. Dies erhöht die Wahrscheinlichkeit einer Verzerrung der Auswahl- und Messfehler, die ebenfalls eine potenzielle zufällige Endogenität verursachen.

Erscheint zufällige Endogenität in realen Datensätzen und wie können wir dies in der Praxis testen? Wir erwägen eine Genomstudie, in der 148 Microarray-Proben aus den Datenbanken GEO und ArrayExpress heruntergeladen werden. Diese Proben wurden auf der Affymetrix HGU133a-Plattform für Menschen mit Prostatakrebs erstellt. Der erhaltene Datensatz enthält 22.283 Sonden, was 12.719 Genen entspricht. In diesem Beispiel interessieren wir uns für ein Gen namens "Discoidin Domain Rezeptor Family Member 1" (abgekürzt DDR1). DDR1 codiert Rezeptortyrosinkinasen, die eine wichtige Rolle bei der Verbindung von Zellen mit ihrer Mikroumgebung spielen. Es ist bekannt, dass DDR1 eng mit Prostatakrebs verwandt ist, und wir möchten seine Beziehung zu anderen Genen bei Krebspatienten untersuchen. Wir nahmen die DDR1-Genexpression als Antwortvariable Y und die Expression aller verbleibenden 12.718 Gene als Prädiktoren. Im linken Bereich Abb. Abbildung 3 zeigt die empirische Verteilung der Korrelationen zwischen der Antwort und einzelnen Prädiktoren.

Um die Existenz von Endogenität zu veranschaulichen, passen wir die L1-Regression der kleinsten Quadrate (Lasso) an die Daten an, und die Strafe wird automatisch unter Verwendung einer 10-fachen Kreuzvalidierung ausgewählt (37 Gene ausgewählt). Dann werden wir die übliche Regression der kleinsten Quadrate für das ausgewählte Modell wiederherstellen, um den Restvektor zu berechnen. Im rechten Bereich Abb. 3 konstruieren wir eine empirische Verteilung der Korrelationen zwischen Prädiktoren und Residuen. Wir sehen, dass das Restrauschen stark mit vielen Prädiktoren korreliert. Um sicherzustellen, dass diese Korrelationen nicht durch eine rein falsche Korrelation verursacht werden, führen wir eine „Nullverteilung“ falscher Korrelationen ein, indem wir die Zeilenreihenfolgen in der Projektmatrix zufällig neu anordnen, sodass die Prädiktoren wirklich unabhängig vom Restrauschen sind. Beim Vergleich dieser beiden Verteilungen sehen wir, dass die Verteilung der Korrelationen zwischen Prädiktoren und Restrauschen in den Rohdaten (als „Rohdaten“ gekennzeichnet) einen schwereren Schwanz aufweist als in den neu angeordneten Daten (als „neu angeordnete Daten“ gekennzeichnet). Dieses Ergebnis liefert starke Hinweise auf Endogenität.

Source: https://habr.com/ru/post/de456088/


All Articles