-
Elias Chetouane authoredElias Chetouane authored
Scripts & codes for the UGA Open research data monitor
See contextualized results on the website : mlarrieu.gricad-pages.univ-grenoble-alpes.fr/open-research-data-monitor
Sources & identification methods
Recherche Data Gouv
- Recherche en format texte de
UGA
etgrenoble AND alpes
dans les champs suivants :author
,contributor
,datasetContactAffiliation
,producerAffiliation
DataCite
-
recherche avec les clients Datacite de l'UGA :
inist.osug
,client.uid:inist.sshade
,client.uid:inist.resif
,client_id:inist.persyval
-
avec les ROR de l'université sur les champs
creators
etcontributors
-
en format texte
grenoble AND alpes
sur le champspublisher
-
instruire l'UGA comme financeur
Zenodo
-
recherche en format texte
"(\"grenoble alpes\" OR \"grenoble alps\" OR \"grenoble INP\" OR \"polytechnique de grenoble\" OR \"Grenoble Institute of Technology\" OR \"univeristé de grenoble\" )"
sur les champsauthor
etcontributor
-
veille sur l'API car demain il devrait être possible de requêter par ROR ?
Nakala
-
recherche par les déposants relevant de l'UGA. Liste obtenues via HumaNum et enrichie manuellement
-
instruire côté
dcterms:publisher
Barometre de la science ouverte UGA
- a faire annuellement à chaque MAJ du jeux de données
- récupérer la liste de publications, filter sur celles où des jeux de données ont été produits
- passer par HAL pour retrouver les DOI de ces jeux de données (champs
researchData_s
)
Filters
- we remove the following datacite types
["Book", "ConferencePaper", "ConferenceProceeding", "JournalArticle", "BookChapter", "Service", "Preprint"]
- we remove the following datacite clients
["rg.rg", "inist.epure"]
Comment sont comptées les données de la recherche ?
Le monitor prend en compte les données dotées d'un DOI de l'agence DataCite, c'est-à-dire qu'elles sont Findable. Un dépôt de données comprend des métadonnées conformes au schéma de données DataCite et un ou plusieurs fichiers pouvant être organisés en arborescence. Ce sont les dépôts qui sont comptés et non les fichiers intégrés aux dépôts : un DOI compte donc pour une donnée de recherche.
Le schéma de Datacite permet de déclarer des relations entre DOI, ce que nous utilisons pour gérer les versions ou les doublons de données.
Afin d'éviter de compter deux pour un même dépôt, ou bien pour un dépôt mis à jour, le monitor est doté d'une fonction qui navigue entre les DOIs dont la relation est de type isVersionOf
ou isIdenticalTo
. Dans le premier cas, la fonction "remonte" les versions jusqu'à la version parente, c'est-à-dire un DOI stable qui redirige vers la version la plus récente.
Dans le deuxième cas, la fonction garde simplement la version signalée comme étant identique. Cette relation n'étant pas symétrique, le DOI conservé n'aura pas de relation "isIdenticalTo" et la redondance est évitée.
Data schema
Les champs du tableau produit reprennent ceux du schéma de données de DataCite (cf. https://datacite-metadata-schema.readthedocs.io/en/4.5/), auquel deux champs sont ajoutés :
-
all_relation
toutes les relations attachées au DOI identifié. -
traveled_dois
liste des DOIs parcourus par le script pour obtenir le DOI de concept
Credits
- Élias Chetouane: collecting data, program automation
- Maxence Larrieu: collecting data, enrichment & visualisation
as members of GRICAD & CDGA