《大数据的理论最低要求》一书。 您需要了解的有关大数据的所有信息”

图片 今天,大数据就是大生意。 信息控制着我们的生活,而利用信息是现代组织工作的核心。 不管您是谁-从事分析工作的业务人员,新手程序员或开发人员,“大数据理论最低限度”都将使您不会沉迷于动荡的现代技术海洋中,并了解新兴且快速发展的大数据处理行业的基础知识。

是否想了解大数据以及如何使用它? 每种算法都有单独的章节,不仅解释了工作的基本原理,还提供了在实际问题中使用的示例。 大量的插图和简单的注释使您可以轻松理解大数据的最复杂方面。

我们为您提供熟悉“主要组件”段落的信息

主成分分析(CIM)方法是一种找到以最佳方式区分数据元素的基本变量(称为主成分)的方法。 这些主要成分会最大程度地分散数据(图2)。

主要组件可以表达一个或多个变量。 例如,我们可以使用单个变量“维生素C”。 由于维生素C存在于蔬菜中,而不存在于肉中,因此最终图形(图3的左列)将分配蔬菜,但所有肉都集中在一堆中。

对于肉类产品的分配,我们可以使用脂肪作为第二变量,因为脂肪存在于肉中,而蔬菜中几乎不存在。 但是,由于脂肪和维生素C的计量单位不同,因此在将它们组合之前,我们必须对其进行标准化。

图片

标准化是以百分位数表示的每个变量的表达,这些变量将这些变量转换为单个比例,从而使我们可以将它们结合起来以计算新变量:

维生素C-脂肪

由于维生素C已经使蔬菜散布开来,因此我们减去了脂肪使肉散布下来。 这两个变量的组合将帮助我们分配蔬菜和肉类产品(图3中间的列)。

图片

我们可以考虑到膳食纤维的含量来改善传播,膳食纤维在蔬菜中的含量会有所不同:

(维生素C +膳食纤维)-脂肪。

这个新变量为我们提供了最佳的数据分散性(图3的右列)。
尽管我们通过反复试验获得了本示例中的主要组件,但CIM可以系统地执行此操作。 在下面的示例中,我们将了解其工作原理。

示例:食物组分析


利用美国农业部的数据,我们通过查看四个食物变量(脂肪,蛋白质,膳食纤维和维生素C)分析了一组随机食物的营养特性。 4,某些营养素经常在食物中一起发现。

特别是,脂肪和蛋白质的含量与纤维和维生素C含量的增加方向相反,我们可以通过检查哪些变量相互关联来确认我们的假设(参见6.5节)。 确实,我们发现蛋白质和脂肪水平之间(r = 0.56)以及膳食纤维和维生素C含量之间(r = 0.57)均存在显着正相关。

因此,我们可以将高度相关的那些变量组合在一起,而不是单独分析这四个食物变量,而只考虑其中两个变量。 因此,主成分法被称为降技术。

图片

将其应用于我们的食物数据集,我们得到了如图1所示的主要成分。 5,

每个主要成分都是食物变量的组合,其值可以为正,负或接近零。 例如,要获取单个产品的组件1,我们可以计算以下内容:

.55(膳食纤维)+ .44(维生素C)-.45(脂肪)-
.55(蛋白质)

图片

也就是说,主成分方法本身并没有像以前那样通过反复试验将变量组合在一起,而是计算出可以用来区分仓位的精确公式。

请注意,我们的主要成分1(PC1)立即将脂肪与蛋白质结合在一起,而膳食纤维与维生素C结合起来,而这对成反比。

PC1将肉与蔬菜区分开来,而成分2(PC2)更详细地标识了肉(基于脂肪含量)和蔬菜(基于维生素C含量)的内部子类别。 使用图的两个组件,我们将获得最佳的数据散布(图6)。

图片

肉制品的成分1值低,因此它们集中在图表的左侧,而在蔬菜的相反侧。 还可以看出,在非蔬菜产品中,海鲜的脂肪含量低,因此,成分2对它们的价值较小,并且它们本身往往位于图表的底部。 同样,那些不是绿色的蔬菜,其成分2的值较低,可以在右侧图表的底部看到。

零件数量的选择 。 在此示例中,通过数据集中的初始变量数量创建了四个主要组件。 由于主要组件是基于普通变量创建的,因此用于分配数据元素的信息仅限于其初始集合。

同时,为了保持结果的简单性和可伸缩性,我们应该只选择前几个主要组件进行分析和可视化。 主要组件在数据元素的分配效率上有所不同,并且第一个组件在最大程度上做到了这一点。 使用scree图确定要考虑的主要成分的数量,我们在上一章中进行了研究。

该图显示了在区分数据元素时后续主要组件的效率下降。 通常,使用一定数量的主成分,该数量与卵石图中急性骨折的位置相对应。

在图。 7骨折位于两个组件周围。 这意味着尽管三个或更多个主要组件可以更好地区分数据元素,但是这些附加信息可能无法证明最终解决方案的复杂性。 从scree图表可以看出,前两个主要成分已经产生了70%的价差。 使用少量主要组件进行数据分析可确保该方案适合将来的信息。

图片

局限性


主成分法是一种分析具有多个变量的数据集的有用方法。 但是,它也有缺点。

最大化分配 。 CIM源自这样一个重要的假设,即那些散射最大的测量最有用。 但是,并非总是如此。 一个众所周知的反例是计数一叠煎饼的问题。

图片

要计算薄煎饼,我们沿垂直轴(即堆栈的高度)将薄煎饼分开。 但是,如果堆栈很小,则MHC会错误地确定水平轴(薄饼直径)将是最佳的主要成分,因为在此测量中您可以找到很多值。

组件的解释。 CIM的主要困难在于,必须对生成的组件进行解释,有时您需要非常努力地解释为什么应按所选方式组合变量。

不过,初步的一般信息可以帮助我们。 在我们的示例中,主要成分的食品变量将产品与有关其类别的初步知识相结合。

»这本书的更多信息可以在出版商的网站上找到
» 目录
» 摘录

小贩 20%优惠券-BigData

Source: https://habr.com/ru/post/zh-CN428395/


All Articles