rached-innov: Analyse en composantes principales : utilité et grandes lignes

jeudi 4 août 2011

Analyse en composantes principales : utilité et grandes lignes

L'analyse en composante principale (ACP) ou en anglais : principal component analysis (PCA) est une technique d'analyse statistique multivariée. Elle consiste à résumer un jeu de données multivariées de très grandes dimensions en seulement quelques composantes principales (habituellement de 2 à 4), de manière à pouvoir interpréter les données. Cet article vous donnera quelques notions théoriques et vous renseignera sur son utilité et sa mise en oeuvre.

L'utilité

Lorsque l'on a un jeu de données numériques multivariées (par exemple, si l'on mesure pour un chat à la fois la taille de sa tête, la longueur de ses pattes, la longueur de sa queue, son âge, son poids, sa vitesse de course maximale, etc.), on se retrouve parfois avec beaucoup de variables par unité statistique (ici un même chat).

Il convient donc de résumer ces données : peut-être la longueur des pattes covarie-t-elle tellement avec celle de la queue qu'une seule variable résumerait les 2 ? De même, peut être que l'âge et la vitesse de course covariante.

Une ACP permet de répondre à toutes ces questions et en même temps permet d'avoir un diagnostic sur la qualité de la décomposition, la représentation des variables dans les composantes, etc.

La mise en oeuvre
Pour répondre à ces questions, l'ACP est très utilisée. Le principe est de trouver successivement les axes (combinaisons linéaires des variables d'origine) qui maximisent la variance expliquée. Pour cela, il convient de calculer la matrice de variance/covariance, puis de chercher une décomposition en différents axes orthogonaux (autant d'axes que de variables).

Les axes sont calculés successivement de manière à expliquer le plus de variances : il suffit en fait de prendre les vecteurs propres associés aux valeurs propres de la matrice de variance/covariance. Les valeurs propres donnent en effet la quantité de variances expliquée par cet axe, ce qui est utile pour choisir le nombre d'axes à prendre en compte, puisque la somme de leurs valeurs propres est la quantité de "variance" expliquée par ces composantes principales.

On peut ensuite regarder la contribution des variables aux axes, de manière à voir les différentiations entre les unités statistiques. On peut aussi regarder la contribution des unités aux axes, ce qui permet de déceler si certains individus ayant des valeurs "extrêmes" pour certaines variables ne faussent pas les résultats.

Fort heureusement, des logiciels permettent de réaliser automatiquement ces traitements : le logiciel SPSS d'IBM (Ibm.com). Ils permettent en plus de réaliser l'analyse, de présenter graphiquement les résultats de manière claire, ce qui facilite grandement l'interprétation.

Par : Crearine

http://www.les-experts.com/article-356949-analyse-en-composantes-principales-utilite-et-grandes-lignes.html