
Big Data é um grande negócio hoje. A informação controla nossa vida, e a capitalização é essencial para o trabalho das organizações modernas. Não importa quem você é - uma pessoa de negócios que trabalha com análise, programador iniciante ou desenvolvedor, o "Big Data Theoretical Minimum" permitirá que você não se afogue no oceano tempestuoso da tecnologia moderna e compreenda o básico de um novo e rápido desenvolvimento da indústria de processamento de dados.
Deseja aprender sobre big data e como trabalhar com ele? Um capítulo separado é dedicado a cada algoritmo, que não apenas explica os princípios básicos do trabalho, mas também fornece exemplos de uso em problemas reais. Um grande número de ilustrações e comentários simples facilitam a compreensão dos aspectos mais complexos do Big Data.
Oferecemos a você se familiarizar com a passagem "Componentes principais"
O método Principal Component Analysis (CIM) é uma maneira de encontrar as variáveis fundamentais (conhecidas como componentes principais) que diferenciam seus elementos de dados da melhor maneira possível. Esses componentes principais fornecem a maior dispersão de dados (fig. 2).
O componente principal pode expressar uma ou mais variáveis. Por exemplo, podemos usar a variável única "Vitamina C". Como a vitamina C é encontrada nos vegetais, mas não na carne, o gráfico final (coluna da esquerda na Fig. 3) distribuirá os vegetais, mas toda a carne estará em uma pilha.
Para a distribuição de produtos à base de carne, podemos usar a gordura como segunda variável, uma vez que está presente na carne, mas quase ausente nos vegetais. No entanto, como a gordura e a vitamina C são medidas em diferentes unidades, devemos padronizá-las antes de combiná-las.
Padronização é a expressão de cada variável em percentis, que converte essas variáveis em uma única escala, permitindo combiná-las para calcular uma nova variável:
Vitamina C - Gordura
Como a vitamina C já espalhou os vegetais, subtraímos a gordura para distribuir a carne. A combinação dessas duas variáveis nos ajudará a distribuir vegetais e produtos à base de carne (a coluna no meio da Fig. 3).
Podemos melhorar a propagação levando em consideração as fibras alimentares, cujo conteúdo varia em vegetais:
(Vitamina C + fibra alimentar) - gordura.
Essa nova variável nos fornece a dispersão ideal de dados (coluna da direita na Figura 3).
Embora tenhamos obtido os principais componentes neste exemplo por tentativa e erro, o CIM pode fazer isso de forma sistemática. Veremos como isso funciona no exemplo a seguir.
Exemplo: análise de grupo de alimentos
Usando dados do Departamento de Agricultura dos EUA, analisamos as propriedades nutricionais de uma seleção aleatória de alimentos observando quatro variáveis alimentares: gorduras, proteínas, fibras alimentares e vitamina C. Como pode ser visto na Fig. 4, certos nutrientes são frequentemente encontrados em alimentos juntos.
Em particular, os níveis de gorduras e proteínas aumentam em uma direção oposta àquela em que os níveis de fibra e vitamina C. Podemos confirmar nossas suposições verificando quais variáveis se correlacionam (consulte a seção 6.5). De fato, encontramos uma correlação positiva significativa entre os níveis de proteínas e gorduras (r = 0,56) e entre os níveis de fibra alimentar e vitamina C (r = 0,57).
Assim, em vez de analisar as quatro variáveis alimentares individualmente, podemos combinar as altamente correlacionadas, obtendo apenas duas para consideração. Portanto, o método do componente principal é referido como técnicas de
redução dimensional .
Aplicando-o ao nosso conjunto de dados de alimentos, obtemos os principais componentes mostrados na Fig. 5)Cada componente principal é uma combinação de variáveis alimentares, cujo valor pode ser positivo, negativo ou próximo de zero. Por exemplo, para obter o componente 1 de um produto individual, podemos calcular o seguinte:
.55 (fibra alimentar) + .44 (vitamina C) - .45 (gordura) -
0,55 (proteína)
Ou seja, em vez de combinar variáveis por tentativa e erro, como fizemos anteriormente, o próprio método do componente principal calcula as fórmulas exatas com as quais podemos diferenciar nossas posições.
Observe que nosso principal componente 1 (PC1) combina imediatamente gorduras com proteínas e fibras alimentares com vitamina C, e esses pares são inversamente proporcionais.
Enquanto PC1 diferencia carne de vegetais, o componente 2 (PC2) identifica mais detalhadamente as subcategorias internas de carne (com base no teor de gordura) e vegetais (com base no teor de vitamina C). Obteremos a melhor dispersão de dados usando os dois componentes para o gráfico (Fig. 6).
Os produtos à base de carne têm valores baixos do componente 1, portanto, eles estão concentrados no lado esquerdo do gráfico, no lado oposto aos vegetais. Observa-se também que, entre os produtos não vegetais, o baixo teor de gordura dos frutos do mar, portanto, o valor do componente 2 para eles é menor e eles mesmos tendem à parte inferior do gráfico. Da mesma forma, os vegetais que não são verdes têm baixos valores do componente 2, que podem ser vistos na parte inferior do gráfico à direita.
A escolha do número de componentes . Neste exemplo, quatro componentes principais são criados pelo número de variáveis iniciais no conjunto de dados. Como os principais componentes são criados com base em variáveis comuns, as informações para a distribuição dos elementos de dados são limitadas ao seu conjunto inicial.
Ao mesmo tempo, para preservar a simplicidade e a escalabilidade dos resultados, devemos escolher apenas os primeiros componentes principais para análise e visualização. Os principais componentes diferem na eficiência da distribuição dos elementos de dados, e o primeiro deles faz isso na extensão máxima. O número de componentes principais a considerar é determinado usando o gráfico de scree, que examinamos no capítulo anterior.
O gráfico mostra a eficiência decrescente dos principais componentes subsequentes na diferenciação dos elementos de dados. Como regra, é utilizada uma quantidade de componentes principais que corresponde à posição de uma fratura aguda no gráfico de seixos.
Na fig. A fratura 7 está localizada em torno de dois componentes. Isso significa que, embora três ou mais componentes principais possam diferenciar melhor os elementos de dados, essas informações adicionais podem não justificar a complexidade da solução final. Como pode ser visto no gráfico de scree, os dois primeiros componentes principais já oferecem um spread de 70%. O uso de um pequeno número de componentes principais para análise de dados garante que o esquema seja adequado para informações futuras.
Limitações
O método do componente principal é uma maneira útil de analisar conjuntos de dados com várias variáveis. No entanto, também tem desvantagens.
Maximize a distribuição . A CIM parte da importante suposição de que as medidas que dão maior dispersão são mais úteis. No entanto, esse nem sempre é o caso. Um contra-exemplo bem conhecido é o problema de contar panquecas em uma pilha.
Para contar panquecas, separamos uma da outra ao longo do eixo vertical (ou seja, a altura da pilha). No entanto, se a pilha for pequena, o MHC decidirá erroneamente que o eixo horizontal (diâmetro da panqueca) será o melhor componente principal, devido ao fato de que nessa medição você pode encontrar uma ampla gama de valores.
Interpretação de componentes. A principal dificuldade com o CIM é que a interpretação dos componentes gerados é necessária e, às vezes, você precisa se esforçar bastante para explicar por que as variáveis devem ser combinadas da maneira escolhida.
No entanto, informações gerais preliminares podem nos ajudar. No nosso exemplo, as variáveis alimentares dos principais componentes combinam os produtos com a ajuda de conhecimentos preliminares sobre suas categorias.
»Mais informações sobre o livro podem ser encontradas no
site do editor»
Conteúdo»
TrechoCupom de 20% de desconto para
vendedores ambulantes -
BigData