大数据分析问题

大数据分析面临哪些挑战


大数据可创建传统数据集无法共享的功能。 这些功能给数据分析带来了重大问题,并刺激了新统计方法的发展。 与传统数据集不同,传统数据集的样本量通常大于测量值,大数据的特点是样本量巨大且维度较大。 首先,我们将讨论大样本量对理解异质性的影响:一方面,大样本量使我们能够发现与人口小亚群相关的隐藏模式,以及整个人口中普遍性较差的情况。 另一方面,对大数据的内部异质性建模需要更复杂的统计方法。 其次,我们将讨论与高维相关的几种独特现象,包括噪声累积,错误相关和随机内生性。 这些独特的功能使传统的统计程序无效。

异质性


大数据通常是通过组合对应于不同子组的多个数据源来创建的。 每个子组可能会显示一些其他人无法共享的独特功能。 在经典条件下,当样本量较小或中等时,来自小亚群的数据点通常被归类为“偏差”,并且由于观测数量不足,因此系统上难以建模。 但是,在大数据时代,大样本量使我们能够通过研究诸如某些协变量(例如基因或SNP)与罕见结果(例如罕见疾病或小人群疾病)之间的关系等研究来更好地理解异质性。为什么某些疗法(例如化学疗法)使一个人口受益而又伤害另一个人口。 为了更好地说明这一点,我们为人口引入以下模型:

$$显示$$ $$λ1p1(y;θ1(x))+⋯+λmpm(y;θm(x)),λ1p1(y;θ1(x))+⋯+λmpm(y;θm(x)),( 1)$$显示$$


其中λj≥0表示第j个子组的分数,pj(y;θj(x))是第x个子组的响应的概率分布,假定x的协变量为θj(x)作为参数向量。 实际上,很少观察到许多亚群,即,λj非常小。 当样本大小n适中时,nλj可能很小,这由于缺乏信息而无法得出与协变量相关的参数θj(x)。 但是,由于大数据具有较大的样本量n,因此即使λj非常小,第j个总体组的样本量nλj也可以适度增大。 这使我们可以更准确地得出有关子种群θj(·)的参数的结论。 简而言之,大数据的主要优势是对亚群异质性的理解,例如某些中小样本量无法实现的个性化治疗的优势。

由于样本量大,大数据还使我们能够识别整个人口中的薄弱社区。 例如,如果没有大样本量,每天评估一杯红酒对心脏的好处可能会很困难。 同样,只有当样本量足够大时,才可以更有说服力地评估与暴露于某些环境因素有关的健康风险。

除了上述好处外,大数据的异构性还给统计推断带来了巨大挑战。 (1)中针对大型数据集的混合模型的推导需要复杂的统计和计算方法。 在小规模测量中,可以使用诸如最终混合物模型的等待最大化算法之类的标准方法。 但是,在很大程度上,我们需要仔细简化评估程序,以避免过度拟合或积累噪声,并开发出良好的计算算法。

噪音累积


大数据分析要求我们同时评估和验证许多参数。 当决策或预测规则取决于大量此类参数时,会累积估计误差。 噪声累积的这种影响在大尺寸上尤其严重,甚至可能支配真实信号。 这通常通过稀疏的假设来处理。

以多维分类为例。 分类不佳是由于存在许多不利于减少分类错误的弱点。 例如,当数据来自两个类别时,请考虑分类问题:

$$显示$$ X1,Y1,..... Xn〜Nd(μ1,Id),Yn〜Nd(μ2,Id).X1,...,Xn〜Nd(μ1,Id)和Y1,...,Yn〜 Nd(μ2,Id)。 (2)$$显示$$


我们想要建立一个分类规则,将新的观测值Z∈RdZ∈Rd分为第一类或第二类。 为了说明分类中噪声累积的影响,我们设置n = 100和d =1000。我们将μ1=0μ1= 0和μ2设置为稀疏,即 仅μ2的前10个记录为非零值3,所有其他记录均为零。 图1显示了使用前m = 2、40、200个元素和多达1000个元素的前两个主要组件。 如这些图所示,当m = 2时,我们得到很高的辨别力。 然而,当m由于噪声累积而太大时,鉴别能力变得非常低。 前10个功能有助于分类,而其余的则不起作用。 因此,当m> 10时,过程不会接收到任何其他信号,而是会累积噪声:m越大,累积的噪声就越大,由于维数,会使分类过程变差。 在m = 40时,累积的信号补偿了累积的噪声,因此前两个主要成分仍然具有良好的识别能力。 当m = 200时,累积的噪声超过信号增益。

上面的讨论激发了稀疏模型的使用和变量的选择,以克服噪声累积的影响。 例如,在分类模型(2)中,我们可以选择获得最佳信噪比的部分功能来代替使用所有功能。 这样的稀疏模型提供了更高的分类效率。 换句话说,在回归的分类和预测中,变量的选择在克服噪声累积方面起着关键作用。 但是,由于虚假的相关性,随机的内生性,异质性和测量误差,大尺寸变量的选择具有挑战性。

虚假相关


高维数还包含错误的相关性,理由是许多不相关的随机变量在较大的维数中可能具有较高的样本相关性。 错误的相关性会导致错误的科学发现和错误的统计结论。

考虑估计线性模型的系数向量β的问题

$$显示$$ y =Xβ+ ϵ,Var(ϵ)=σ2Id,y =Xβ+ ϵ,Var(ϵ)=σ2Id,(3)$$显示$$


其中y∈Rny∈Rn代表响应向量,X = [x1,...,xn]T∈Rn×dX = [x1,...,xn]T∈Rn×d代表投影矩阵,∈Rnϵ∈Rn代表独立随机向量噪声和Id是d×d单位矩阵。 为了解决噪声累积的问题,当大小d等于或大于样本大小n时,假定答案仅给出少量变量,即β是稀疏向量。 根据此稀疏性假设,可以选择一个变量以避免噪声累积,提高预测性能以及提高具有保守表示形式的模型的可解释性。

对于大尺寸,即使对于(3)这样的简单模型,由于存在错误的相关性,也很难选择变量。 特别是,在具有高维的情况下,重要变量可以与科学上不相关的几个错误变量紧密相关。 考虑一个说明此现象的简单示例。 令x1,...,xn是d维高斯随​​机向量X =(X1,...,Xd)T〜Nd(0,Id)X =(X1,...,Xd)T〜Nd(0,Id)的独立观测值。 我们反复模拟数据,其中n = 60,d = 800和6400 1000次。 图2a显示了第一个变量之间最大绝对样本相关系数的经验分布,其余变量定义为

$$显示$$ rˆ =maxj≥2| Corrˆ(X1,Xj)|,r ^ =maxj≥2| Corr ^(X1,Xj)|,(4)$$显示$$


其中Corr ^(X1,Xj)Corr ^(X1,Xj)是变量X1和Xj之间的样本相关性。 我们看到样本的最大绝对相关性随着尺寸的增加而变得更高。

此外,我们可以计算X1和几个不相关的侧变量的线性组合之间的最大绝对多重相关性:

$$显示$$ Rˆ = max | S | = 4max {βj} 4j = 1∣∣∣∣Corrˆ(X1,∑j∈SβjXjj)∣∣∣∣.R ^ = max | S | = 4max {βj} j = 14 | Corr ^(X1,∑j∈SβjXj)|。 (5)$$显示$$


使用标准配置,给出X1和∑j∈SβjXj之间的样本相关性的最大绝对系数的经验分布,其中S是{2,...,d}的第四大小的任何子集,当X1在{Xj}上回归时,βj是最小平方回归系数Xj。再次,我们看到尽管X1完全独立于X2,...,Xd,但X1与从{Xj} j≠1到X1的任意四个变量的最接近线性组合之间的相关性可能非常高。

错误的相关性对变量的选择有重大影响,并可能导致错误的科学发现。 令XS =(Xj)j∈S为由S索引的随机向量,令SˆS ^为与X1具有更高寄生相关性的选定集合,如图2所示。 2.例如,当n = 60且d = 6400时,对于集合SS^ | |,X1实际上与XSXS^不可区分。 Sˆ | = 4 | S ^ | =4⁠。 如果X1代表引起该疾病的基因的表达水平,我们就无法将其与SS^中具有相同预后能力的其他四个基因区分开,尽管它们在科学上并不重要。

除了选择变量之外,错误的相关性还可能导致错误的统计结论。 我们通过再次考虑与(3)中相同的线性模型来解释这一点。 在这里,我们要评估余数的标准误差σ,这在回归系数,模型选择,一致性检验和边际回归的统计结论中得到了明显体现。 令SˆS ^为所选变量的集合,PSˆPS ^为列空间XSˆXS ^⁠上的投影矩阵。 基于选定变量的残差方差的标准估计:

$$显示$$ σˆ2 = yT(In-PSˆ)yn− | Sˆ |.σ^ 2 = yT(In-PS ^)yn− | S ^ |。 (6)$$显示$$


当未从数据中选择变量且模型正确时,评估器(6)是公正的。 但是,根据数据选择变量时的情况完全不同。 特别是,作者表明,当存在许多错误变量时,σ2会被严重低估,这会导致错误的统计结论,包括选择模型或检验显着性,以及错误的科学发现,例如为分子机制寻找错误的基因。 他们还提供了一种高级的交叉验证方法来缓解该问题。

随机内生性


随机内生性是高维数引起的另一个细微问题。 在回归设置中,Y = ∑dj =1βjXj+εY= ∑j =1dβjXj+ε⁠,术语“内生性”意味着某些预测变量{Xj}与残留噪声ε相关。 通常的稀疏模型假定

$$显示$$ Y = ∑jβjXj +ε,并且对于j = 1,...,d E(εXj)= 0,对于j = 1,...,d,Y = ∑jβjXj +ε,E(εXj)= 0 ,(7)$$显示$$


带有一个小的集合S = {j:βj≠0}。 剩余噪声ε与所有预测变量都不相关的外生假设(7)对于大多数现有统计方法的可靠性(包括变量选择的一致性)至关重要。 尽管此假设看起来是无辜的,但由于某些变量{Xj}与ε随机相关,因此在大范围内容易违反该假设,这使大多数多维过程在统计上无效。

为了更详细地解释内生性问题,假设未知答案Y与以下三个协变量相关联:

$$显示$$ Y = X1 + X2 + X3 +ε,对于e = 1,2,3,EεXj= 0 Y = X1 + X2 + X3 +ε,对于j = 1,2,3,EεXj= 0 。$$显示$$


在数据收集阶段,我们不知道真正的模型,因此我们收集与Y潜在关联的尽可能多的协变量,以期将(7)中的S项包括在内。 顺便说一下,这些Xj中的一些(对于jj 1、2、3)可能与残留噪声ε相关。 这证明了(7)中外生建模的假设。 实际上,收集或测量的协变量越多,这个假设就越复杂。

与错误的相关性相反,随机内生性是指意外变量之间的相关性的真实存在。 第一个类似于两个人彼此相似但没有遗传联系的事实,第二个类似于在大城市中容易发生的熟人。 从更一般的意义上讲,内生性是由选择偏差,测量误差和缺失变量引起的。 这些现象通常在分析大数据时出现,主要有两个原因:

  • 得益于新的高性能测量方法,科学家可以收集尽可能多的功能并为此而努力。 因此,这增加了其中一些可能与残留噪声相关的可能性。
  • 通常,大数据通常是从多个来源合并而成的,这些来源可能具有不同的数据生成方案。 这增加了选择误差和测量误差的可能性,这也可能导致潜在的随机内生性。

随机内生性是否出现在真实数据集中,我们如何在实践中对此进行检验? 我们正在考虑一项基因组学研究,其中从GEO和ArrayExpress数据库下载了148个微阵列样品。 这些样本是在Affymetrix HGU133a平台上为前列腺癌患者创建的。 获得的数据集包含22,283个探针,对应于12,719个基因。 在此示例中,我们对一种称为“迪斯科汀域受体家族成员1”(缩写为DDR1)的基因感兴趣。 DDR1编码受体酪氨酸激酶,酪氨酸激酶在细胞与其微环境的连接中起重要作用。 众所周知,DDR1与前列腺癌密切相关,我们希望研究其与癌症患者中其他基因的关系。 我们将DDR1基因表达作为响应变量Y,并将所有其余12,718个基因的表达作为预测因子。 在左窗格中,图。 图3显示了响应和单个预测变量之间的相关性的经验分布。

为了说明内生性的存在,我们将L1最小二乘回归(Lasso)拟合到数据,并使用10倍交叉验证(选择了37个基因)自动选择惩罚。 然后,我们将为所选模型恢复通常的最小二乘回归,以计算残差矢量。 在右窗格中,图。 3,我们构建了预测变量和残差之间相关性的经验分布。 我们看到,残留噪声与许多预测因素密切相关。 为了确保这些相关性不是由纯粹的虚假相关性引起的,我们通过在项目矩阵中随机重新排列行顺序来引入虚假相关性的“零分布”,从而使预测变量实际上与残留噪声无关。 比较这两个分布,我们发现原始数据(标记为“原始数据”)中的预测变量和残留噪声之间的相关性分布比重排的数据(标记为“重排数据”)中的尾部重。 这一结果为内源性提供了有力的证据。

Source: https://habr.com/ru/post/zh-CN456088/


All Articles