El libro "Mínimo teórico para Big Data. Todo lo que necesitas saber sobre big data ”

imagen Big Data es un gran negocio hoy. La información controla nuestra vida, y capitalizarla es fundamental para el trabajo de las organizaciones modernas. No importa quién es usted: una persona de negocios que trabaja con análisis, un programador o desarrollador principiante, el "Mínimo Teórico de Big Data" le permitirá no ahogarse en el tormentoso océano de la tecnología moderna y comprender los conceptos básicos de una nueva industria de procesamiento de grandes datos en rápido desarrollo.

¿Quiere aprender sobre big data y cómo trabajar con él? Se dedica un capítulo separado a cada algoritmo, que no solo explica los principios básicos del trabajo, sino que también proporciona ejemplos de uso en problemas reales. Una gran cantidad de ilustraciones y comentarios simples facilitan la comprensión de los aspectos más complejos de Big Data.

Le ofrecemos familiarizarse con el pasaje "Componentes principales"

El método de Análisis de componentes principales (CIM) es una forma de encontrar las variables fundamentales (conocidas como componentes principales) que diferencian sus elementos de datos de manera óptima. Estos componentes principales dan la mayor dispersión de datos (Fig. 2).

El componente principal puede expresar una o más variables. Por ejemplo, podemos usar la variable única "Vitamina C". Como la vitamina C se encuentra en los vegetales pero no en la carne, el gráfico final (columna izquierda en la Fig. 3) distribuirá los vegetales, pero toda la carne estará en un montón.

Para la distribución de productos cárnicos, podemos utilizar la grasa como segunda variable, ya que está presente en la carne, pero está casi ausente en las verduras. Sin embargo, dado que la grasa y la vitamina C se miden en diferentes unidades, debemos estandarizarlas antes de combinarlas.

imagen

La estandarización es la expresión de cada variable en percentiles, que convierten estas variables en una sola escala, lo que nos permite combinarlas para calcular una nueva variable:

Vitamina C - Grasa

Como la vitamina C ya ha extendido las verduras, restamos la grasa para distribuir la carne. La combinación de estas dos variables nos ayudará a distribuir tanto vegetales como productos cárnicos (la columna en el medio de la Fig. 3).

imagen

Podemos mejorar la propagación teniendo en cuenta la fibra dietética, cuyo contenido en verduras varía:

(Vitamina C + fibra dietética) - grasa.

Esta nueva variable nos da la dispersión de datos óptima (columna derecha en la Figura 3).
Si bien obtuvimos los componentes principales en este ejemplo por prueba y error, el CIM puede hacer esto de manera sistemática. Veremos cómo funciona esto en el siguiente ejemplo.

Ejemplo: análisis de grupos de alimentos.


Utilizando datos del Departamento de Agricultura de EE. UU., Analizamos las propiedades nutricionales de una selección aleatoria de alimentos al observar cuatro variables dietéticas: grasas, proteínas, fibra dietética y vitamina C. Como se puede ver en la Fig. 4, ciertos nutrientes a menudo se encuentran en los alimentos juntos.

En particular, los niveles de grasas y proteínas aumentan en una dirección opuesta a la que aumentan los niveles de fibra y vitamina C. Podemos confirmar nuestras suposiciones al verificar qué variables se correlacionan (ver sección 6.5). De hecho, encontramos una correlación positiva significativa tanto entre los niveles de proteínas y grasas (r = 0.56) como entre los niveles de fibra dietética y vitamina C (r = 0.57).

Por lo tanto, en lugar de analizar las cuatro variables alimentarias individualmente, podemos combinar las altamente correlacionadas, obteniendo solo dos para su consideración. Por lo tanto, el método del componente principal se denomina técnicas de reducción dimensional .

imagen

Al aplicarlo a nuestro conjunto de datos de alimentos, obtenemos los componentes principales que se muestran en la Fig. 5)

Cada componente principal es una combinación de variables alimentarias, cuyo valor puede ser positivo, negativo o cercano a cero. Por ejemplo, para obtener el componente 1 para un producto individual, podemos calcular lo siguiente:

.55 (fibra dietética) + .44 (vitamina C) - .45 (grasa) -
.55 (proteína)

imagen

Es decir, en lugar de combinar variables por prueba y error, como lo hicimos antes, el método del componente principal calcula las fórmulas exactas con las que podemos diferenciar nuestras posiciones.

Tenga en cuenta que nuestro componente principal 1 (PC1) combina inmediatamente las grasas con las proteínas y la fibra dietética con la vitamina C, y estos pares son inversamente proporcionales.

Mientras que PC1 diferencia la carne de las verduras, el componente 2 (PC2) identifica con más detalle las subcategorías internas de carne (en función del contenido de grasa) y verduras (en función del contenido de vitamina C). Obtendremos la mejor dispersión de datos utilizando ambos componentes para el gráfico (Fig. 6).

imagen

Los productos cárnicos tienen valores bajos del componente 1, por lo que se concentran en el lado izquierdo de la tabla, en el lado opuesto al vegetal. También se ve que entre los productos no vegetales, el bajo contenido de grasa de los mariscos, por lo tanto, el valor del componente 2 para ellos es menor, y ellos mismos tienden a la parte inferior del gráfico. Del mismo modo, las verduras que no son verdes tienen valores bajos del componente 2, que se puede ver en la parte inferior del gráfico a la derecha.

La elección del número de componentes . En este ejemplo, se crean cuatro componentes principales por el número de variables iniciales en el conjunto de datos. Dado que los componentes principales se crean sobre la base de variables ordinarias, la información para la distribución de elementos de datos se limita a su conjunto inicial.

Al mismo tiempo, para preservar la simplicidad y la escalabilidad de los resultados, debemos elegir solo los primeros componentes principales para el análisis y la visualización. Los componentes principales difieren en la eficiencia de la distribución de elementos de datos, y el primero de ellos lo hace al máximo. El número de componentes principales a considerar se determina usando el gráfico de pantalla, que examinamos en el capítulo anterior.

El gráfico muestra la eficiencia decreciente de los componentes principales posteriores en la diferenciación de elementos de datos. Como regla general, se utiliza una cantidad de componentes principales que corresponde a la posición de una fractura aguda en la gráfica de la pantalla.

En la fig. 7 fractura se encuentra alrededor de dos componentes. Esto significa que aunque tres o más componentes principales podrían diferenciar mejor los elementos de datos, esta información adicional puede no justificar la complejidad de la solución final. Como se puede ver en el gráfico de pantalla, los dos primeros componentes principales ya dan una extensión del 70%. El uso de una pequeña cantidad de componentes principales para el análisis de datos garantiza que el esquema sea adecuado para la información futura.

imagen

Limitaciones


El método del componente principal es una forma útil de analizar conjuntos de datos con múltiples variables. Sin embargo, también tiene inconvenientes.

Maximiza la distribución . El CIM parte de la importante suposición de que las mediciones que dan la mayor dispersión son las más útiles. Sin embargo, este no es siempre el caso. Un contraejemplo bien conocido es el problema de contar panqueques en una pila.

imagen

Para contar panqueques, separamos uno del otro a lo largo del eje vertical (es decir, la altura de la pila). Sin embargo, si la pila es pequeña, el MHC decidirá erróneamente que el eje horizontal (diámetro del panqueque) será el mejor componente principal, debido al hecho de que en esta medición puede encontrar un amplio rango de valores.

Interpretación de componentes. La principal dificultad con el CIM es que es necesario interpretar los componentes generados y, a veces, debe esforzarse mucho para explicar por qué las variables deben combinarse de la manera elegida.

Sin embargo, la información general preliminar puede ayudarnos. En nuestro ejemplo, las variables alimentarias para los componentes principales combinan los productos con la ayuda de un conocimiento preliminar sobre sus categorías.

»Se puede encontrar más información sobre el libro en el sitio web del editor
» Contenidos
» Extracto

Cupón de 20% de descuento para vendedores ambulantes - BigData

Source: https://habr.com/ru/post/es428395/


All Articles