README.md 2.42 KB
Newer Older
Jonathan Schaeffer's avatar
Jonathan Schaeffer committed
1
2
# datadump

3
4
5
6
7
Export des données RESIF

## Workflow

Description du workflow dans notre wiki : https://wiki.osug.fr/!isterre-geodata/resif/systemes/services/datadump
Jonathan Schaeffer's avatar
Jonathan Schaeffer committed
8
9
10

## Utilisation

11
Le script lance 4 jobs en parallele pour effectuer ses tâches.
Jonathan Schaeffer's avatar
Jonathan Schaeffer committed
12
13
14

Les configurations se font par variable d'environnement :

15
16
  * `RESIFDD_WORKDIR` : *obligatoire* le répertoire de travail dans lequel le script prépare ses paquets avant expédition, écrit son rapport, etc.
  * `RESIFDD_DATADIR` : *obligatoire* le répertoire où le script pourra trouver les points de montage SUMMER `validated_seismic_metadata` et `validated_seismic_data`
17
  * `RESIFDD_CONTINUE_FROM_FILE` : la valeur est un fichier de rapport précédent à partir duquel le script pourra reprendre le travail là où il l'a laissé. Si le rapport mentionne des erreurs de transfert, le script réessayera
Jonathan Schaeffer's avatar
Jonathan Schaeffer committed
18
  * `RESIFDD_START_AT` : permet d'indiquer une année à partir de laquelle reprendre le transfert. Tous les éléments appartenant à une année inférieur sont ignorés
Jonathan Schaeffer's avatar
Jonathan Schaeffer committed
19
  * `RESIFDD_KEYFILE` : si cette variable indique le chemin d'un fichier valide, alors il sera utilisé pour transférer les données correspondantes aux clés listées dans le fichier.
20
  * `GITLAB_TOKEN` : si cette variable est fournie, alors le script va récupérer tous les projets GIT pour les sauvegarder. Ce token doit avoir les privilègres `read_api` et `read_repository` sur tout le groupre OSUG/RESIF.
21
22
23
24
25
26
27
28
  
Et pour la connexion à la base de donnée, il faut renseigner :

  * `PGHOST`: le serveur postgres (par défaut `localhost`)
  * `PGPORT` : le port de connexion (par défaut 5432)
  * `PGUSER` : l'utilisateur pour la connexion. Il doit avoir les droits SELECT sur la table rall
  * `PGDATABASE` : la base de donnée d'inventaire
  * `PGPASSWORD` : le mot de passe postgres
Jonathan Schaeffer's avatar
Jonathan Schaeffer committed
29
30

## Exemples
Jonathan Schaeffer's avatar
Jonathan Schaeffer committed
31
### Lancer tout le dump
Jonathan Schaeffer's avatar
Jonathan Schaeffer committed
32

Jonathan Schaeffer's avatar
Jonathan Schaeffer committed
33
``` shell
34
GITLAB_TOKEN=plop RESIFDD_WORKDIR=/osug-dc/resif RESIFDD_DATATIR=/scratch/resifdumper resifdatadump
Jonathan Schaeffer's avatar
Jonathan Schaeffer committed
35
36
37
```

### Options particulières de l'outil
Jonathan Schaeffer's avatar
Jonathan Schaeffer committed
38

Jonathan Schaeffer's avatar
Jonathan Schaeffer committed
39
Lancer la sauvegarde d'une liste de stations :
Jonathan Schaeffer's avatar
Jonathan Schaeffer committed
40
``` shell
Jonathan Schaeffer's avatar
Jonathan Schaeffer committed
41
RESIFDD_DATADIR=/osug-dc/resif RESIFDD_WORKDIR=/scratch/resif_datadump src/resifdatadump 2011/RA/NCAD 2012/MT/THE
Jonathan Schaeffer's avatar
Jonathan Schaeffer committed
42
```
Jonathan Schaeffer's avatar
Jonathan Schaeffer committed
43

Jonathan Schaeffer's avatar
Jonathan Schaeffer committed
44
45
46
Sauvegarder les métadonnées
``` shell
RESIFDD_DATADIR=/osug-dc/resif RESIFDD_WORKDIR=/scratch/resif_datadump src/resifdatadump validated_seismic_metadata
Jonathan Schaeffer's avatar
Jonathan Schaeffer committed
47
```
48

Jonathan Schaeffer's avatar
Jonathan Schaeffer committed
49
On peut générer un fichier de clés avec le script python `src/scan_dupms.py` qui contrôle la présence des dumps distants