O livro “Teórico mínimo para Big Data. Tudo o que você precisa saber sobre big data ”

imagem Big Data é um grande negócio hoje. A informação controla nossa vida, e a capitalização é essencial para o trabalho das organizações modernas. Não importa quem você é - uma pessoa de negócios que trabalha com análise, programador iniciante ou desenvolvedor, o "Big Data Theoretical Minimum" permitirá que você não se afogue no oceano tempestuoso da tecnologia moderna e compreenda o básico de um novo e rápido desenvolvimento da indústria de processamento de dados.

Deseja aprender sobre big data e como trabalhar com ele? Um capítulo separado é dedicado a cada algoritmo, que não apenas explica os princípios básicos do trabalho, mas também fornece exemplos de uso em problemas reais. Um grande número de ilustrações e comentários simples facilitam a compreensão dos aspectos mais complexos do Big Data.

Oferecemos a você se familiarizar com a passagem "Componentes principais"

O método Principal Component Analysis (CIM) é uma maneira de encontrar as variáveis ​​fundamentais (conhecidas como componentes principais) que diferenciam seus elementos de dados da melhor maneira possível. Esses componentes principais fornecem a maior dispersão de dados (fig. 2).

O componente principal pode expressar uma ou mais variáveis. Por exemplo, podemos usar a variável única "Vitamina C". Como a vitamina C é encontrada nos vegetais, mas não na carne, o gráfico final (coluna da esquerda na Fig. 3) distribuirá os vegetais, mas toda a carne estará em uma pilha.

Para a distribuição de produtos à base de carne, podemos usar a gordura como segunda variável, uma vez que está presente na carne, mas quase ausente nos vegetais. No entanto, como a gordura e a vitamina C são medidas em diferentes unidades, devemos padronizá-las antes de combiná-las.

imagem

Padronização é a expressão de cada variável em percentis, que converte essas variáveis ​​em uma única escala, permitindo combiná-las para calcular uma nova variável:

Vitamina C - Gordura

Como a vitamina C já espalhou os vegetais, subtraímos a gordura para distribuir a carne. A combinação dessas duas variáveis ​​nos ajudará a distribuir vegetais e produtos à base de carne (a coluna no meio da Fig. 3).

imagem

Podemos melhorar a propagação levando em consideração as fibras alimentares, cujo conteúdo varia em vegetais:

(Vitamina C + fibra alimentar) - gordura.

Essa nova variável nos fornece a dispersão ideal de dados (coluna da direita na Figura 3).
Embora tenhamos obtido os principais componentes neste exemplo por tentativa e erro, o CIM pode fazer isso de forma sistemática. Veremos como isso funciona no exemplo a seguir.

Exemplo: análise de grupo de alimentos


Usando dados do Departamento de Agricultura dos EUA, analisamos as propriedades nutricionais de uma seleção aleatória de alimentos observando quatro variáveis ​​alimentares: gorduras, proteínas, fibras alimentares e vitamina C. Como pode ser visto na Fig. 4, certos nutrientes são frequentemente encontrados em alimentos juntos.

Em particular, os níveis de gorduras e proteínas aumentam em uma direção oposta àquela em que os níveis de fibra e vitamina C. Podemos confirmar nossas suposições verificando quais variáveis ​​se correlacionam (consulte a seção 6.5). De fato, encontramos uma correlação positiva significativa entre os níveis de proteínas e gorduras (r = 0,56) e entre os níveis de fibra alimentar e vitamina C (r = 0,57).

Assim, em vez de analisar as quatro variáveis ​​alimentares individualmente, podemos combinar as altamente correlacionadas, obtendo apenas duas para consideração. Portanto, o método do componente principal é referido como técnicas de redução dimensional .

imagem

Aplicando-o ao nosso conjunto de dados de alimentos, obtemos os principais componentes mostrados na Fig. 5)

Cada componente principal é uma combinação de variáveis ​​alimentares, cujo valor pode ser positivo, negativo ou próximo de zero. Por exemplo, para obter o componente 1 de um produto individual, podemos calcular o seguinte:

.55 (fibra alimentar) + .44 (vitamina C) - .45 (gordura) -
0,55 (proteína)

imagem

Ou seja, em vez de combinar variáveis ​​por tentativa e erro, como fizemos anteriormente, o próprio método do componente principal calcula as fórmulas exatas com as quais podemos diferenciar nossas posições.

Observe que nosso principal componente 1 (PC1) combina imediatamente gorduras com proteínas e fibras alimentares com vitamina C, e esses pares são inversamente proporcionais.

Enquanto PC1 diferencia carne de vegetais, o componente 2 (PC2) identifica mais detalhadamente as subcategorias internas de carne (com base no teor de gordura) e vegetais (com base no teor de vitamina C). Obteremos a melhor dispersão de dados usando os dois componentes para o gráfico (Fig. 6).

imagem

Os produtos à base de carne têm valores baixos do componente 1, portanto, eles estão concentrados no lado esquerdo do gráfico, no lado oposto aos vegetais. Observa-se também que, entre os produtos não vegetais, o baixo teor de gordura dos frutos do mar, portanto, o valor do componente 2 para eles é menor e eles mesmos tendem à parte inferior do gráfico. Da mesma forma, os vegetais que não são verdes têm baixos valores do componente 2, que podem ser vistos na parte inferior do gráfico à direita.

A escolha do número de componentes . Neste exemplo, quatro componentes principais são criados pelo número de variáveis ​​iniciais no conjunto de dados. Como os principais componentes são criados com base em variáveis ​​comuns, as informações para a distribuição dos elementos de dados são limitadas ao seu conjunto inicial.

Ao mesmo tempo, para preservar a simplicidade e a escalabilidade dos resultados, devemos escolher apenas os primeiros componentes principais para análise e visualização. Os principais componentes diferem na eficiência da distribuição dos elementos de dados, e o primeiro deles faz isso na extensão máxima. O número de componentes principais a considerar é determinado usando o gráfico de scree, que examinamos no capítulo anterior.

O gráfico mostra a eficiência decrescente dos principais componentes subsequentes na diferenciação dos elementos de dados. Como regra, é utilizada uma quantidade de componentes principais que corresponde à posição de uma fratura aguda no gráfico de seixos.

Na fig. A fratura 7 está localizada em torno de dois componentes. Isso significa que, embora três ou mais componentes principais possam diferenciar melhor os elementos de dados, essas informações adicionais podem não justificar a complexidade da solução final. Como pode ser visto no gráfico de scree, os dois primeiros componentes principais já oferecem um spread de 70%. O uso de um pequeno número de componentes principais para análise de dados garante que o esquema seja adequado para informações futuras.

imagem

Limitações


O método do componente principal é uma maneira útil de analisar conjuntos de dados com várias variáveis. No entanto, também tem desvantagens.

Maximize a distribuição . A CIM parte da importante suposição de que as medidas que dão maior dispersão são mais úteis. No entanto, esse nem sempre é o caso. Um contra-exemplo bem conhecido é o problema de contar panquecas em uma pilha.

imagem

Para contar panquecas, separamos uma da outra ao longo do eixo vertical (ou seja, a altura da pilha). No entanto, se a pilha for pequena, o MHC decidirá erroneamente que o eixo horizontal (diâmetro da panqueca) será o melhor componente principal, devido ao fato de que nessa medição você pode encontrar uma ampla gama de valores.

Interpretação de componentes. A principal dificuldade com o CIM é que a interpretação dos componentes gerados é necessária e, às vezes, você precisa se esforçar bastante para explicar por que as variáveis ​​devem ser combinadas da maneira escolhida.

No entanto, informações gerais preliminares podem nos ajudar. No nosso exemplo, as variáveis ​​alimentares dos principais componentes combinam os produtos com a ajuda de conhecimentos preliminares sobre suas categorias.

»Mais informações sobre o livro podem ser encontradas no site do editor
» Conteúdo
» Trecho

Cupom de 20% de desconto para vendedores ambulantes - BigData

Source: https://habr.com/ru/post/pt428395/


All Articles