Commit 232b6a86 authored by Laurence Viry's avatar Laurence Viry
Browse files

modif manipDon

parent 4f64f424
......@@ -13,22 +13,22 @@
R fournit des outils et des capacités de programmation pour effectuer ces différentes tâches.
## Importer des données
Les données sont initialement collectées, éventuellement prétraitées par un logiciel.
Les données sont initialement collectées, syckées sous différents formats, éventuellement prétraitées par un logiciel ou extraites d'une base de données.
Chaque logiciel ayant son propre format de stockage, le plus simple est souvent d'échanger les données par un format commun à tous, **le format texte** ( .csv par exemple).
Chaque logiciel ayant son propre format de stockage, le plus simple est souvent d'échanger les données par un format commun à tous qui sera le plus souvent **le format texte** ( .csv par exemple).
On peut également utiliser **les formats propriétaires** des autres logiciels en utilisant un package adapté (le package foreign par exemple), le choix dépendant du contexte et du volume des données.
On peut également utiliser **les formats propriétaires** des autres logiciels en utilisant un package adapté (le package **foreign** par exemple), le choix dépendant du contexte et du volume des données.
### Cas des fichiers **csv**
Les avantages des fichiers **csv**:
- Peut être lu par n'importe quel logiciel passé, présent et probablement futur,
- Pour la compatibilité entre plate-forme (Windows, Mac, Linux),
- Peut être lu par n'importe quel logiciel passé, présent et probablement futur.
- Pour la compatibilité entre plate-forme (Windows, Mac, Linux).
- Pour la facilité de lecture par un être humain comparativement à d'autres formats tels que XML, HL7, JSON etc.
**Mais** pas forcément adapté aux gros volumes de données pour son volume de stockage et la rapidité de lecture.
R lit des données en format texte avec les fonctions **read.table()**,**read.csv()**,**scan()**,**read.fwf()**,$\ldots$
......@@ -44,32 +44,32 @@
``` R
# Lecture du fichier donnees.csv
getwd() # repertoire de travail
don <- read.csv(file = "data/donnees.csv",header=TRUE,sep=";",dec=",",row.names=1)
summary(don)
class(don)
summary(don)
```
%%%% Output: display_data
'/home/viryl/notebooks/CED-IntroR/notebooks'
'/home/viryl/notebooks/CED-IntroR/notebooks'
'/home/viryl/notebooks/ATMO_IntroR/notebooks'
'/home/viryl/notebooks/ATMO\_IntroR/notebooks'
%%%% Output: display_data
'data.frame'
'data.frame'
%%%% Output: display_data
'data.frame'
'data.frame'
%% Cell type:markdown id: tags:
- l'argument **sep** : indique que les valeurs sont séparées par **";"** (**" "** pour un espace, **"\t"** pour une tabulation)
- l'argument **dep** : indique que le séparateur de décimal est **","**
- l'argument **header**: indique si la première ligne contient les noms des variables (TRUE) ou non(FALSE).
- l'argument **header** : indique si la première ligne contient les noms des variables (TRUE) ou non(FALSE).
- l'argument **row.names** : indique que la colonne 1 n'est pas une variable mais l'identifiant des individus.
%% Cell type:markdown id: tags:
......@@ -82,37 +82,125 @@
``` R
don2 <- read.csv(file = "data/don2.csv",header=TRUE,sep=";",dec=",",row.names=1,na.strings="***")
summary(don2)
mode(don2)
class(don2)
attributes(don2)
mean(don2$poids)
mean(don2$poids,na.rm=TRUE)
```
%%%% Output: display_data
%%%% Output: display_data
'list'
'list'
%%%% Output: display_data
'data.frame'
'data.frame'
%%%% Output: display_data
$names
: 1. 'taille'
2. 'poids'
3. 'pointure'
4. 'sexe'
$class
: 'data.frame'
$row.names
: 1. 'roger'
2. 'theodule'
3. 'nicolas'
4. 'Alice'
5. 'Marcel'
6. 'Claire'
\begin{description}
\item[\$names] \begin{enumerate*}
\item 'taille'
\item 'poids'
\item 'pointure'
\item 'sexe'
\end{enumerate*}
\item[\$class] 'data.frame'
\item[\$row.names] \begin{enumerate*}
\item 'roger'
\item 'theodule'
\item 'nicolas'
\item 'Alice'
\item 'Marcel'
\item 'Claire'
\end{enumerate*}
\end{description}
%%%% Output: display_data
%%%% Output: display_data
55
55
%% Cell type:markdown id: tags:
* Le chemin peut-être une URL:
%% Cell type:code id: tags:
``` R
decath <- read.table("http://www.agrocampus-ouest.fr/math/livreR/decathlon.csv",header=TRUE,sep=";",row.names=1)
summary(decath)
df <- read.table("https://s3.amazonaws.com/assets.datacamp.com/blog_assets/scores_timed.csv",header=TRUE,row.names = 1,sep = ",")
summary(df)
```
%%%% Output: display_data
%% Cell type:markdown id: tags:
### Fonctions utiles dans un data-frame
%% Cell type:markdown id: tags:
#### Fonctions utiles dans un data-frame
* **head()** - pour voir les 6 premières lignes
* **tail()** - pour voir les 6 dernières lignes
* **dim()** - ses dimensions
* **nrow()** - le nombre de lignes
* **ncol()** - le nombre de colonnes
* **str()** - structure de chaque colonne
* **names()** - liste l'attribut **names** d'un data.frame (ou n'importe quel autre objet), les noms des colonnes
* **dimnanes()** - liste l'attribut **row.names** d'un data.frame.
%% Cell type:code id: tags:
``` R
str(df)
names(df)
nrow(df)
ncol(df)
dimnames(df)
```
%% Cell type:markdown id: tags:
### La fonction **scan**
La fonction **scan** est plus flexible que **read.table**.
* Une différence est qu'il est possible de spécifier le mode des variables:
......@@ -144,10 +232,14 @@
Pour en savoir plus **help(scan)**
%% Cell type:markdown id: tags:
### Cas des fichiers Excel
%% Cell type:markdown id: tags:
### Les formats propriétaires
R peut également lire des fichiers dans d'autres formats (**Excel, SAS, SPSS**,$\ldots$) et accéder à des **bases de données**.
* Le package **foreign** permet d'importer des données en format propriétaire binaire tels que **Stata, SAS, SPSS, etc**.
......
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment