
Le Big Data est aujourd'hui une grande entreprise. L'information contrôle notre vie et en tirer parti est au cœur du travail des organisations modernes. Peu importe qui vous êtes - un homme d'affaires travaillant avec l'analytique, un programmeur débutant ou un développeur, le «Big Data Theoretical Minimum» vous permettra de ne pas vous noyer dans l'océan tumultueux de la technologie moderne et de comprendre les bases d'une nouvelle industrie du traitement des données volumineuses qui se développe rapidement.
Vous voulez en savoir plus sur les mégadonnées et comment les utiliser? Un chapitre séparé est consacré à chaque algorithme, qui explique non seulement les principes de base du travail, mais donne également des exemples d'utilisation dans des problèmes réels. Un grand nombre d'illustrations et de commentaires simples facilitent la compréhension des aspects les plus complexes du Big Data.
Nous vous proposons de vous familiariser avec le passage "Composants principaux"
La méthode CIM (Principal Component Analysis) est un moyen de trouver les variables fondamentales (appelées composants principaux) qui différencient vos éléments de données de manière optimale. Ces composants principaux donnent la plus grande dispersion des données (Fig. 2).
Le composant principal peut exprimer une ou plusieurs variables. Par exemple, nous pouvons utiliser la seule variable «Vitamine C». Étant donné que la vitamine C se trouve dans les légumes mais pas dans la viande, le graphique final (colonne de gauche sur la figure 3) répartira les légumes, mais toute la viande sera dans un seul tas.
Pour la distribution des produits à base de viande, nous pouvons utiliser la graisse comme deuxième variable, car elle est présente dans la viande, mais elle est presque absente dans les légumes. Cependant, comme la graisse et la vitamine C sont mesurées dans des unités différentes, nous devons les standardiser avant de les combiner.
La normalisation est l'expression de chaque variable en centiles, qui convertit ces variables en une seule échelle, ce qui nous permet de les combiner pour calculer une nouvelle variable:
Vitamine C - Lipides
Puisque la vitamine C a déjà réparti les légumes, nous soustrayons la graisse pour répartir la viande. La combinaison de ces deux variables nous aidera à répartir à la fois les légumes et les produits à base de viande (la colonne au milieu de la figure 3).
Nous pouvons améliorer la propagation en prenant en compte les fibres alimentaires dont la teneur en légumes varie:
(Vitamine C + fibres alimentaires) - matières grasses.
Cette nouvelle variable nous donne la dispersion optimale des données (colonne de droite sur la figure 3).
Bien que nous ayons obtenu les principaux composants de cet exemple par essais et erreurs, le CIM peut le faire de manière systématique. Nous verrons comment cela fonctionne dans l'exemple suivant.
Exemple: analyse des groupes d'aliments
En utilisant des données du département américain de l'Agriculture, nous avons analysé les propriétés nutritionnelles d'une sélection aléatoire d'aliments en examinant quatre variables alimentaires: les graisses, les protéines, les fibres alimentaires et la vitamine C.Comme le montre la Fig. 4, certains nutriments se retrouvent souvent dans les aliments ensemble.
En particulier, les niveaux de graisses et de protéines augmentent dans une direction opposée à celle dans laquelle les niveaux de fibres et de vitamine C. Nous pouvons confirmer nos hypothèses en vérifiant quelles variables sont en corrélation (voir section 6.5). En effet, nous trouvons une corrélation positive significative à la fois entre les niveaux de protéines et de graisses (r = 0,56), et entre les niveaux de fibres alimentaires et de vitamine C (r = 0,57).
Ainsi, au lieu d'analyser les quatre variables alimentaires individuellement, nous pouvons combiner celles qui sont fortement corrélées, en obtenant seulement deux pour examen. Par conséquent, la méthode du composant principal est appelée techniques de
réduction dimensionnelle .
En l'appliquant à notre ensemble de données sur les aliments, nous obtenons les principaux composants illustrés à la Fig. 5.Chaque composante principale est une combinaison de variables alimentaires, dont la valeur peut être positive, négative ou proche de zéro. Par exemple, pour obtenir le composant 1 pour un produit individuel, nous pouvons calculer les éléments suivants:
.55 (fibres alimentaires) + .44 (vitamine C) - .45 (lipides) -
.55 (protéine)
C'est-à-dire qu'au lieu de combiner des variables par essais et erreurs, comme nous l'avons fait auparavant, la méthode du composant principal calcule elle-même les formules exactes avec lesquelles nous pouvons différencier nos positions.
Veuillez noter que notre composant principal 1 (PC1) combine immédiatement les graisses avec des protéines et les fibres alimentaires avec la vitamine C, et ces paires sont inversement proportionnelles.
Alors que PC1 différencie la viande des légumes, le composant 2 (PC2) identifie plus en détail les sous-catégories internes de viande (sur la base de la teneur en matières grasses) et de légumes (sur la base de la teneur en vitamine C). Nous obtiendrons la meilleure dispersion des données en utilisant les deux composantes du graphique (Fig. 6).
Les produits à base de viande ont de faibles valeurs de composant 1, ils sont donc concentrés sur le côté gauche du graphique, sur le côté opposé aux légumes. On voit également que parmi les produits non végétaux, la faible teneur en matières grasses des fruits de mer, par conséquent, la valeur du composant 2 pour eux est moindre, et ils tendent eux-mêmes au bas du graphique. De même, ces légumes qui ne sont pas verts ont de faibles valeurs de composant 2, qui peuvent être vus en bas du graphique à droite.
Le choix du nombre de composants . Dans cet exemple, quatre composants principaux sont créés par le nombre de variables initiales dans l'ensemble de données. Étant donné que les principaux composants sont créés sur la base de variables ordinaires, les informations pour la distribution des éléments de données sont limitées à leur ensemble initial.
Dans le même temps, pour préserver la simplicité et l'évolutivité des résultats, nous ne devons choisir que les premiers composants principaux pour l'analyse et la visualisation. Les principaux composants diffèrent par l'efficacité de la distribution des éléments de données, et le premier d'entre eux le fait au maximum. Le nombre de composants majeurs à considérer est déterminé à l'aide du graphe d'éboulis, que nous avons examiné dans le chapitre précédent.
Le graphique montre l'efficacité décroissante des principaux composants suivants dans la différenciation des éléments de données. En règle générale, une quantité de composants principaux est utilisée qui correspond à la position d'une fracture aiguë dans le tracé d'éboulis.
Dans la fig. 7 fracture se situe autour de deux composantes. Cela signifie que bien que trois composants principaux ou plus puissent mieux différencier les éléments de données, ces informations supplémentaires peuvent ne pas justifier la complexité de la solution finale. Comme le montre le graphique d'éboulis, les deux premiers composants principaux donnent déjà un écart de 70%. L'utilisation d'un petit nombre de composants principaux pour l'analyse des données garantit que le schéma est adapté aux informations futures.
Limitations
La méthode du composant principal est un moyen utile d'analyser des ensembles de données avec plusieurs variables. Cependant, il présente également des inconvénients.
Maximisez la distribution . Le CIM part de l'hypothèse importante que les mesures qui donnent la plus grande dispersion sont les plus utiles. Mais ce n'est pas toujours le cas. Un contre-exemple bien connu est le problème du comptage des crêpes dans une pile.
Pour compter les crêpes, nous séparons les unes des autres le long de l'axe vertical (c'est-à-dire la hauteur de la pile). Cependant, si la pile est petite, le MHC décidera à tort que l'axe horizontal (diamètre de la crêpe) sera le meilleur composant principal, car dans cette mesure, vous pouvez trouver une large gamme de valeurs.
Interprétation des composants. La principale difficulté avec le CIM est qu'il est nécessaire d'interpréter les composants générés, et parfois vous devez essayer très fort d'expliquer pourquoi les variables doivent être combinées de la manière choisie.
Néanmoins, des informations générales préliminaires peuvent nous aider. Dans notre exemple, les variables alimentaires pour les principaux composants combinent les produits à l'aide de connaissances préliminaires sur leurs catégories.
»Plus d'informations sur le livre sont disponibles sur
le site Web de l'éditeur»
Contenu»
Extrait20% de réduction sur les
colporteurs -
BigData