Problemas de análise de big data

Quais são os desafios da análise de big data


O Big Data cria recursos que não são compartilhados pelos conjuntos de dados tradicionais. Esses recursos criam problemas significativos para a análise de dados e motivam o desenvolvimento de novos métodos estatísticos. Diferentemente dos conjuntos de dados tradicionais, em que o tamanho da amostra geralmente é maior que a medição, o Big Data é caracterizado por um grande tamanho de amostra e alta dimensão. Primeiro, discutiremos o efeito de tamanhos grandes de amostras na compreensão da heterogeneidade: por um lado, tamanhos grandes de amostras nos permitem descobrir padrões ocultos associados a pequenos subgrupos da população e pouca generalidade entre toda a população. Por outro lado, modelar a heterogeneidade interna do Big Data requer métodos estatísticos mais sofisticados. Em segundo lugar, discutiremos vários fenômenos únicos associados à alta dimensionalidade, incluindo acúmulo de ruído, correlação falsa e endogeneidade aleatória. Esses recursos exclusivos invalidam os procedimentos estatísticos tradicionais.

Heterogeneidade


O Big Data geralmente é criado combinando várias fontes de dados correspondentes a diferentes subgrupos. Cada subgrupo pode exibir alguns recursos exclusivos que não são compartilhados por outros. Em condições clássicas, quando o tamanho da amostra é pequeno ou moderado, os pontos de dados de pequenas subpopulações são geralmente classificados como "desvios" e é sistematicamente difícil de modelar devido ao número insuficiente de observações. No entanto, na era do Big Data, o grande tamanho da amostra nos permite entender melhor a heterogeneidade, lançando luz sobre estudos como o estudo da relação entre certas covariáveis ​​(por exemplo, genes ou SNPs) e resultados raros (por exemplo, doenças raras ou doenças em pequenas populações) e a compreensão por que certos tratamentos (como quimioterapia) beneficiam uma população e prejudicam outra. Para ilustrar melhor esse ponto, apresentamos o seguinte modelo para a população:

$$ display $$ λ1p1 (y; θ1 (x)) + ⋯ + λmpm (y; θm (x)), λ1p1 (y; θ1 (x)) + ⋯ + λmpm (y; θm (x)), ( 1) $$ exibição $$


Onde λj ≥ 0 representa a fração do j-ésimo subgrupo, pj (y; θj (x)) é a distribuição de probabilidade da resposta do j-ésimo subgrupo, dadas as covariáveis ​​de x com θj (x) como vetor de parâmetro. Na prática, muitas subpopulações são raramente observadas, ou seja, λj é muito pequeno. Quando o tamanho da amostra n é moderado, nλj pode ser pequeno, o que torna impossível derivar parâmetros dependentes de covariáveis ​​θj (x) devido à falta de informações. No entanto, como o Big Data possui um grande tamanho de amostra n, o tamanho da amostra nλj para o j-ésimo grupo populacional pode ser moderadamente grande, mesmo que λj seja muito pequeno. Isso nos permite tirar uma conclusão mais precisa sobre os parâmetros da subpopulação θj (·). Em resumo, a principal vantagem do Big Data é o entendimento da heterogeneidade das subpopulações, como os benefícios de certos tratamentos personalizados que não são possíveis com um tamanho de amostra pequeno ou moderado.

O Big Data também nos permite, devido ao grande tamanho da amostra, identificar uma comunidade fraca entre toda a população. Por exemplo, avaliar o benefício do coração de um copo de vinho tinto por dia pode ser difícil sem um grande tamanho de amostra. Da mesma forma, os riscos à saúde associados à exposição a certos fatores ambientais só podem ser avaliados de maneira mais convincente quando o tamanho da amostra é grande o suficiente.

Além dos benefícios acima, a heterogeneidade do Big Data também apresenta desafios significativos para a inferência estatística. A derivação do modelo de mistura em (1) para grandes conjuntos de dados requer métodos estatísticos e computacionais complexos. Em pequenas medições, métodos padrão, como o algoritmo de maximização de espera para os modelos de mistura final, podem ser usados. Em larga escala, no entanto, precisamos racionalizar cuidadosamente o procedimento de avaliação para evitar o excesso de ajuste ou a acumulação de ruído e desenvolver bons algoritmos computacionais.

Acumulação de ruído


A análise de big data exige que avaliemos e verifiquemos muitos parâmetros ao mesmo tempo. Os erros de estimativa se acumulam quando a decisão ou regra de previsão depende de um grande número desses parâmetros. Esse efeito do acúmulo de ruído é especialmente sério em grandes dimensões e pode até dominar sinais verdadeiros. Isso geralmente é tratado pela suposição de escassez.

Tome, por exemplo, uma classificação multidimensional. Uma classificação ruim é devida à presença de muitas fraquezas que não contribuem para a redução de erros de classificação. Como exemplo, considere o problema de classificação quando os dados vierem de duas classes:

$$ exibir $$ X1 e Y1, ........ Xn∼Nd (μ1, Id), Yn∼Nd (μ2, Id) .X1, ..., Xn∼Nd (μ1, Id) e Y1, ..., Yn∼ Nd (μ2, Id). (2) $$ exibição $$


Queremos construir uma regra de classificação que classifique uma nova observação Z∈RdZ∈Rd na primeira ou na segunda classe. Para ilustrar o efeito do acúmulo de ruído na classificação, definimos n = 100 ed = 1000. Definimos μ1 = 0μ1 = 0 e μ2 como esparsos, ou seja, apenas os 10 primeiros registros de μ2 são diferentes de zero com um valor de 3 e todos os outros registros são zero. A Figura 1 mostra os dois primeiros componentes principais usando o primeiro m = 2, 40, 200 elementos e até 1000 elementos. Como mostrado nesses gráficos, quando m = 2, obtemos um alto grau de discriminação. No entanto, o poder discriminador se torna muito baixo quando m é muito grande devido ao acúmulo de ruído. As 10 primeiras funções contribuem para a classificação, enquanto as demais não. Portanto, quando m> 10, os procedimentos não recebem sinais adicionais, mas acumulam ruído: quanto mais m, mais ruído se acumula, o que piora o procedimento de classificação devido à dimensionalidade. Em m = 40, os sinais acumulados compensam o ruído acumulado, de modo que os dois primeiros componentes principais ainda possuem boa capacidade de reconhecimento. Quando m = 200, o ruído acumulado excede o ganho do sinal.

A discussão acima motiva o uso de modelos esparsos e a escolha de variáveis ​​para superar o efeito do acúmulo de ruído. Por exemplo, no modelo de classificação (2), em vez de usar todas as funções, poderíamos escolher um subconjunto de recursos que atinjam a melhor relação sinal / ruído. Esse modelo esparso fornece maior eficiência de classificação. Em outras palavras, a escolha de variáveis ​​desempenha um papel fundamental na superação do acúmulo de ruído na classificação e previsão de regressão. No entanto, a seleção de variáveis ​​em grandes dimensões é desafiadora devido à correlação falsa, endogeneidade aleatória, heterogeneidade e erros de medição.

Correlação falsa


A alta dimensionalidade também contém uma correlação falsa, citando o fato de que muitas variáveis ​​aleatórias não correlacionadas podem ter altas correlações amostrais em grandes dimensões. A correlação falsa pode levar a descobertas científicas errôneas e conclusões estatísticas incorretas.

Considere o problema de estimar o vetor de coeficiente β de um modelo linear

$$ display $$ y = Xβ + ϵ, Var (ϵ) = σ2Id, y = Xβ + ϵ, Var (ϵ) = σ2Id, (3) $$ display $$


onde y∈Rny∈Rn representa o vetor de resposta, X = [x1, ..., xn] T∈Rn × dX = [x1, ..., xn] T∈Rn × d representa a matriz de projeção, ∈Rnϵ∈Rn representa o vetor aleatório independente noise e Id é a matriz de identidade d × d. Para lidar com o problema da acumulação de ruído, quando o tamanho d é comparável ou maior que o tamanho da amostra n, supõe-se que a resposta dê apenas um pequeno número de variáveis, ou seja, β é um vetor esparso. De acordo com essa suposição de escassez, uma variável pode ser selecionada para evitar acúmulo de ruído, melhorar o desempenho da previsão e melhorar a interpretabilidade de um modelo com uma representação conservadora.

Para tamanhos grandes, mesmo para um modelo tão simples como (3), a escolha das variáveis ​​é difícil devido à presença de uma correlação falsa. Em particular, com alta dimensionalidade, variáveis ​​importantes podem ser fortemente correlacionadas com várias variáveis ​​falsas que não são cientificamente relacionadas. Considere um exemplo simples que ilustra esse fenômeno. Seja x1, ..., xn observações independentes de um vetor aleatório gaussiano d-dimensional X = (X1, ..., Xd) T∼Nd (0, Id) X = (X1, ..., Xd) T∼Nd (0, Id) ⁠ . Simulamos repetidamente os dados com n = 60 ed = 800 e 6400 1000 vezes. A Figura 2a mostra a distribuição empírica do coeficiente máximo de correlação absoluta da amostra entre a primeira variável e o restante é definido como

$$ display $$ rˆ = maxj≥2 | Corrˆ (X1, Xj) |, r ^ = maxj≥2 | Corr ^ (X1, Xj) |, (4) $$ display $$


onde Corr ^ (X1, Xj) Corr ^ (X1, Xj) é a correlação de amostra entre as variáveis ​​X1 e Xj. Vemos que a correlação absoluta máxima da amostra aumenta com a dimensão crescente.

Além disso, podemos calcular a correlação múltipla absoluta máxima entre X1 e combinações lineares de várias variáveis ​​secundárias irrelevantes:

$$ display $$ Rˆ = max | S | = 4máx {βj} 4j = 1∣∣∣∣Corrˆ (X1, ∑j∈SβjXj) ∣∣∣∣.R ^ = max | S | = 4máx {βj} j = 14 | Corr ^ (X1, ∑j∈SβjXj) |. (5) $$ exibição $$


Usando a configuração padrão, é dada a distribuição empírica do coeficiente absoluto máximo de correlação amostral entre X1 e ∑j ∈ SβjXj, onde S é qualquer subconjunto do quarto tamanho de {2, ..., d} e βj é o coeficiente de regressão de mínimos quadrados Xj quando X1 regride em {Xj} j ∈ S. Novamente, vemos que, embora X1 seja completamente independente de X2, ..., Xd, a correlação entre X1 e a combinação linear mais próxima de quaisquer quatro variáveis ​​de {Xj} j ≠ 1 a X1 pode ser muito alta.

A correlação falsa tem um efeito significativo na escolha das variáveis ​​e pode levar a descobertas científicas errôneas. Seja XS = (Xj) j ∈ S um vetor aleatório indexado por S e seja S setS ^ o conjunto selecionado que tenha uma correlação parasitária mais alta com X1, como na Fig. 2. Por exemplo, quando n = 60 ed = 6400, vemos que X1 é praticamente indistinguível de XSXS ^ para o conjunto SS ^ | Sˆ = 4 S ^ = 4⁠. Se X1 representa o nível de expressão do gene responsável pela doença, não podemos distingui-lo dos outros quatro genes em SS ^, que têm um poder prognóstico semelhante, embora eles, do ponto de vista científico, não importem.

Além da escolha das variáveis, uma correlação falsa também pode levar a uma conclusão estatística incorreta. Explicamos isso considerando novamente o mesmo modelo linear que em (3). Aqui gostaríamos de avaliar o erro padrão σ do restante, que se manifesta notavelmente nas conclusões estatísticas dos coeficientes de regressão, seleção do modelo, teste de conformidade e regressão marginal. Seja SˆS ^ o conjunto de variáveis ​​selecionadas e PSˆPS ^ seja a matriz de projeção no espaço da coluna XSˆXS ^ ⁠. Estimativa padrão da variação residual com base nas variáveis ​​selecionadas:

$$ display $$ σˆ2 = yT (In - PSˆ) yn− | Sˆ | .σ ^ 2 = yT (In - PS ^) yn− | S ^ |. (6) $$ exibição $$


O avaliador (6) é imparcial quando as variáveis ​​não são selecionadas dos dados e o modelo está correto. No entanto, a situação é completamente diferente quando as variáveis ​​são selecionadas com base nos dados. Em particular, os autores mostraram que, quando existem muitas variáveis ​​falsas, σ2 é seriamente subestimado, isso leva a conclusões estatísticas errôneas, incluindo a escolha de modelos ou testes de significância e a descobertas científicas errôneas, como a busca de genes errados para mecanismos moleculares. Eles também oferecem um método avançado de validação cruzada para facilitar o problema.

Endogeneidade aleatória


A endogenicidade aleatória é outro problema sutil que surge da alta dimensionalidade. No cenário de regressão, Y = jdj = 1βjXj + εY = ∑j = 1dβjXj + ε⁠, o termo “endogeneidade” significa que alguns preditores {Xj} se correlacionam com o ruído residual ε. O modelo esparso usual assume

$$ display $$ Y = βjβjXj + ε, e E (εXj) = 0 para j = 1, ..., d, Y = ∑jβjXJ + ε, e E (εXj) = 0 para j = 1, ..., d , (7) $$ exibir $$


com um pequeno conjunto S = {j: βj ≠ 0}. A suposição exógena (7) de que o ruído residual ε não se correlaciona com todos os preditores é crucial para a confiabilidade da maioria dos métodos estatísticos existentes, incluindo consistência na escolha das variáveis. Embora essa suposição pareça inocente, é fácil violá-la em grandes dimensões, pois algumas variáveis ​​{Xj} se correlacionam aleatoriamente com ε, o que torna a maioria dos procedimentos multidimensionais estatisticamente inválidos.

Para explicar o problema da endogeneidade com mais detalhes, suponha que a resposta desconhecida Y esteja associada às três covariáveis ​​da seguinte maneira:

$$ display $$ Y = X1 + X2 + X3 + ε, comEεXj = 0, para j = 1, 2, 3.Y = X1 + X2 + X3 + ε, comEεXj = 0, para j = 1, 2, 3 . $$ display $$


Na fase de coleta de dados, não conhecemos o modelo verdadeiro e, portanto, coletamos tantas covariáveis ​​quanto potencialmente associadas a Y na esperança de incluir todos os termos em S em (7). A propósito, alguns desses Xj (para os jj 1, 2, 3) podem estar associados ao ruído residual ε. Isso refuta a suposição de modelagem exógena em (7). De fato, quanto mais covariáveis ​​são coletadas ou medidas, mais complexa é essa suposição.

Ao contrário da correlação falsa, a endogeneidade aleatória refere-se à existência real de correlações entre variáveis ​​não intencionais. O primeiro é semelhante ao fato de que duas pessoas são semelhantes, mas não têm uma conexão genética, e o segundo é como um conhecido que ocorre facilmente em uma cidade grande. Em um sentido mais geral, a endogeneidade resulta do viés de escolha, erros de medição e variáveis ​​ausentes. Esses fenômenos geralmente surgem ao analisar o Big Data, principalmente por dois motivos:

  • Graças aos novos métodos de medição de alto desempenho, os cientistas podem coletar o maior número possível de funções e se esforçar para isso. Isso, consequentemente, aumenta a probabilidade de que alguns deles possam estar correlacionados com o ruído residual.
  • O Big Data geralmente é combinado de várias fontes com esquemas de geração de dados potencialmente diferentes. Isso aumenta a probabilidade de viés nos erros de seleção e medição, que também causam potencial endogeneidade aleatória.

A endogeneidade aleatória aparece em conjuntos de dados reais e como podemos testar isso na prática? Estamos considerando um estudo genômico no qual 148 amostras de microarrays são baixadas dos bancos de dados GEO e ArrayExpress. Essas amostras foram criadas na plataforma Affymetrix HGU133a para pessoas com câncer de próstata. O conjunto de dados obtido contém 22.283 sondas, o que corresponde a 12.719 genes. Neste exemplo, estamos interessados ​​em um gene chamado “membro da família 1 do receptor do domínio discoidina” (abreviado DDR1). O DDR1 codifica tirosina-quinases receptoras, que desempenham um papel importante na conexão das células com seu microambiente. Sabe-se que o DDR1 está intimamente relacionado ao câncer de próstata e queremos estudar sua relação com outros genes em pacientes com câncer. Tomamos a expressão do gene DDR1 como variável de resposta Y e a expressão de todos os 12.718 genes restantes como preditores. No painel esquerdo, fig. A Figura 3 mostra a distribuição empírica das correlações entre a resposta e os preditores individuais.

Para ilustrar a existência de endogeneidade, ajustamos a regressão de mínimos quadrados L1 (Lasso) aos dados, e a penalidade é automaticamente selecionada usando uma validação cruzada de 10 vezes (37 genes selecionados). Em seguida, restauraremos a regressão de mínimos quadrados usual para o modelo selecionado para calcular o vetor residual. No painel direito, fig. 3, construímos uma distribuição empírica de correlações entre preditores e resíduos. Vemos que o ruído residual se correlaciona fortemente com muitos preditores. Para garantir que essas correlações não sejam causadas por uma correlação puramente falsa, introduzimos uma "distribuição zero" de correlações falsas reorganizando aleatoriamente as ordens de linha na matriz do projeto, para que os preditores sejam realmente independentes do ruído residual. Comparando essas duas distribuições, vemos que a distribuição de correlações entre preditores e ruído residual nos dados brutos (marcados como “dados brutos”) tem uma cauda mais pesada do que nos dados rearranjados (marcados como “dados rearranjados”). Este resultado fornece fortes evidências de endogenicidade.

Source: https://habr.com/ru/post/pt456088/


All Articles