Commit c9c93702 authored by Laurence Viry's avatar Laurence Viry
Browse files

ajout exercice notebook

parent 0b4b3015
%% Cell type:markdown id: tags:
# TP - Analyse en composantes principales
%% Cell type:markdown id: tags:
## Données
Analyse en composantes principales sur un jeu de données qui contient les performances
réalisées par des athlètes lors de deux compétitions d'athlétisme qui on eu lieu a un mois
d'intervalle: les jeux Olympiques d'Athènes et le Décastar en 2004.<br\>
<br\>
Le tableau contient pour chaque athlète, ses performances à 10 épreuves, son classement
final, son nombre de points final et la compétition à laquelle il a participée.<br\>
<br\>
Les données sont dans le package **FactoMineR**, on les récupére avec la commande **data**:<br\>
%% Cell type:markdown id: tags:
## Objectifs
L'objectif de l'ACP sur ce jeu de données est de déterminer des profils de performances
similaires:<br\>
<br\>
* **Etude des individus**:
- Peut-on déterminer des profils d'athlètes?
- Peut-on opposer un groupe d'individus à un autre?
- Est ce que certaines épreuves se ressemblent : si un athlète est performant pour une
épreuve, est-il plutôt performant pour une autre?<br\>
<br\>
* **Etude des variables **:
- Peut-on résumer les performances des athlètes par un petit nombre
de variables?
- Lien entre les deux études: peut-on caractériser un groupe d'individus par un petit nombre de variables?
%% Cell type:markdown id: tags:
## Traitements
Les différents étapes que nous vous conseillons pour cette étude sont les suivantes:
### Importer le jeu de données.
%% Cell type:code id: tags:
``` R
# Chargement des données de l'etude decathlon
.libPaths("/home/viryl/R/lib")
library(FactoMineR)
data(decathlon)
ls()
```
%% Cell type:markdown id: tags:
### Traitements descriptifs
* Faire un traitement descriptif univarié et bivarié sur ces données. Une bonne connaissance des données sera une aide à l'interprétation de l'ACP.
%% Cell type:code id: tags:
``` R
# Traitement avec R
```
%% Cell type:code id: tags:
``` R
# Scaterplot
```
%% Cell type:code id: tags:
``` R
# Correlation
```
%% Cell type:markdown id: tags:
### ACP
* Choisir les variables et les individus actifs.
* Faut-il standardiser ou pas les variables actives?
%% Cell type:markdown id: tags:
* A l'issue de ces choix, effectuer l'ACP.
%% Cell type:code id: tags:
``` R
# ACP avec R
# Utilisation du package FactoMineR
help("PCA")
```
%% Cell type:code id: tags:
``` R
```
%% Cell type:code id: tags:
``` R
# decathlon.pca est un objet de type "PCA" et "list"
# on observe ses composantes
```
%% Cell type:markdown id: tags:
* Utiliser la variable "Competition" (13) et les variables quantitatives "Rank" et "Points" comme illustratives pour l'aide a l'interpretation
%% Cell type:code id: tags:
``` R
```
%% Cell type:markdown id: tags:
### Analyse des résultats
* Choisir le nombre d'axes à analyser : afficher les valeurs propres et construire le graphiques des valeurs propres.
%% Cell type:code id: tags:
``` R
# Choisir les axes
```
%% Cell type:markdown id: tags:
* Observer les individus dans le premier plan factoriel.
* Positionner les modalités d'une variable illustrative qualitative.
%% Cell type:code id: tags:
``` R
# Observer les individus dans le premier plan factoriel.
```
%% Cell type:code id: tags:
``` R
# Positionner les modalités d'une variable illustrative qualitative.
```
%% Cell type:code id: tags:
``` R
# Individu sur les axes 3 et 4
```
%% Cell type:markdown id: tags:
* Construire le cercle de corrélations.
* Positionner des variables illustratives quantitatives dans le cercle des corrélations.
%% Cell type:code id: tags:
``` R
# Cercle de correlation - premier plan factoriel
```
%% Cell type:markdown id: tags:
* Décrire les principales dimensions de variabilité
%% Cell type:code id: tags:
``` R
# Decrire les principales dimensions de variabilite (fonction dimdesc)
```
%% Cell type:markdown id: tags:
# TP - Analyse en composantes principales
%% Cell type:markdown id: tags:
## Données
Analyse en composantes principales sur un jeu de données qui contient les performances
réalisées par des athlètes lors de deux compétitions d'athlétisme qui on eu lieu a un mois
d'intervalle: les jeux Olympiques d'Athènes et le Décastar en 2004.<br\>
<br\>
Le tableau contient pour chaque athlète, ses performances à 10 épreuves, son classement
final, son nombre de points final et la compétition à laquelle il a participée.<br\>
<br\>
Les données sont dans le package **FactoMineR**, on les récupére avec la commande **data**:<br\>
%% Cell type:markdown id: tags:
## Objectifs
L'objectif de l'ACP sur ce jeu de données est de déterminer des profils de performances
similaires:<br\>
<br\>
* **Etude des individus**:
- Peut-on déterminer des profils d'athlètes?
- Peut-on opposer un groupe d'individus à un autre?
- Est ce que certaines épreuves se ressemblent : si un athlète est performant pour une
épreuve, est-il plutôt performant pour une autre?<br\>
<br\>
* **Etude des variables **:
- Peut-on résumer les performances des athlètes par un petit nombre
de variables?
- Lien entre les deux études: peut-on caractériser un groupe d'individus par un petit nombre de variables?
%% Cell type:markdown id: tags:
## Traitements
Les différents étapes que nous vous conseillons pour cette étude sont les suivantes:
### Importer le jeu de données.
%% Cell type:code id: tags:
``` R
# Chargement des données de l'etude decathlon
.libPaths("/home/viryl/R/lib")
library(FactoMineR)
data(decathlon)
ls()
```
%% Cell type:markdown id: tags:
### Traitements descriptifs
* Faire un traitement descriptif univarié et bivarié sur ces données. Une bonne connaissance des données sera une aide à l'interprétation de l'ACP.
%% Cell type:code id: tags:
``` R
# Traitement avec R
summary(decathlon)
```
%% Cell type:code id: tags:
``` R
# Scaterplot
pairs(decathlon[,1:12])
```
%% Cell type:code id: tags:
``` R
# Correlation
cor(decathlon[,1:12])
```
%% Cell type:markdown id: tags:
### ACP
* Choisir les variables et les individus actifs.
* Faut-il standardiser ou pas les variables actives?
%% Cell type:markdown id: tags:
* A l'issue de ces choix, effectuer l'ACP.
%% Cell type:code id: tags:
``` R
# ACP avec R
# Utilisation du package FactoMineR
help("PCA")
```
%% Cell type:code id: tags:
``` R
decathlon.pca <- PCA(decathlon[,1:10])
```
%% Cell type:code id: tags:
``` R
# decathlon.pca est un objet de type "PCA" et "list"
# on observe ses composantes
attributes(decathlon.pca)
```
%% Cell type:markdown id: tags:
* Utiliser la variable "Competition" (13) et les variables quantitatives "Rank" et "Points" comme illustratives pour l'aide a l'interpretation
%% Cell type:code id: tags:
``` R
decathlon.pca <- PCA(decathlon, quali.sup=13,quanti.sup=11:12)
```
%% Cell type:markdown id: tags:
### Analyse des résultats
* Choisir le nombre d'axes à analyser : afficher les valeurs propres et construire le graphiques des valeurs propres.
%% Cell type:code id: tags:
``` R
# Choisir les axes
barplot(decathlon.pca$eig[,2])
round(decathlon.pca$eig[,2],2)
```
%% Cell type:markdown id: tags:
* Observer les individus dans le premier plan factoriel.
* Positionner les modalités d'une variable illustrative qualitative.
%% Cell type:code id: tags:
``` R
plot(decathlon.pca, choix="ind",cex=0.8)
```
%% Cell type:code id: tags:
``` R
plot(decathlon.pca, choix="ind", habillage=13,cex=0.8)
```
%% Cell type:code id: tags:
``` R
# Individu sur les axes 3 et 4
plot(decathlon.pca, choix="ind", habillage=13,cex=0.8,axes=3:4)
```
%% Cell type:markdown id: tags:
* Construire le cercle de corrélations.
* Positionner des variables illustratives quantitatives dans le cercle des corrélations.
%% Cell type:code id: tags:
``` R
plot(decathlon.pca, choix="var",cex=0.8)
```
%% Cell type:markdown id: tags:
* Décrire les principales dimensions de variabilité
%% Cell type:code id: tags:
``` R
# Decrire les principales dimensions de variabilite
dimdesc(decathlon.pca)
```
......@@ -1048,11 +1048,10 @@
# Other methods of multidimensional analysis
[Approach in multidimensional data analysis](http://math.agrocampus-ouest.fr/infoglueDeliverLive/membres/Francois.Husson/Rcorner) <br\>
<br\>
<img src="../../figures/demarcheAD.jpg",width="80%",height="80%">
 
[Approach in multidimensional data analysis](http://math.agrocampus-ouest.fr/infoglueDeliverLive/membres/Francois.Husson/Rcorner)
## Correspondence Analysis
### Data et objectifs
The main point of **correspondence analysis** is studying the **links between pairs of qualitative variables**. This really means looking at the difference between the given data, and what it would be like if the variables were independent. We're therefore going to see how the analysis captures deviation from independence. Our reasoning will mainly be geometrical, creating point clouds for the rows and point clouds for the columns. Projecting these clouds onto planes will give some useful representations.
 
## Multiple Correspondence Analysis
......
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment