Skip to content
Snippets Groups Projects

Scripts & codes for the UGA Open research data monitor

See contextualized results on the website : mlarrieu.gricad-pages.univ-grenoble-alpes.fr/open-research-data-monitor



Sources & identification methods

Recherche Data Gouv

  • Recherche en format texte de UGA et grenoble AND alpes dans les champs suivants : author, contributor, datasetContactAffiliation, producerAffiliation

DataCite

  • recherche avec les clients Datacite de l'UGA : inist.osug, client.uid:inist.sshade, client.uid:inist.resif, client_id:inist.persyval

  • avec les ROR de l'université sur les champs creators et contributors

  • en format texte grenoble AND alpes sur le champs publisher

  • instruire l'UGA comme financeur

Zenodo

  • recherche en format texte "(\"grenoble alpes\" OR \"grenoble alps\" OR \"grenoble INP\" OR \"polytechnique de grenoble\" OR \"Grenoble Institute of Technology\" OR \"univeristé de grenoble\" )" sur les champs author et contributor

  • veille sur l'API car demain il devrait être possible de requêter par ROR ?

Nakala

  • recherche par les déposants relevant de l'UGA. Liste obtenues via HumaNum et enrichie manuellement

  • instruire côté dcterms:publisher

Barometre de la science ouverte UGA

  • a faire annuellement à chaque MAJ du jeux de données
  • récupérer la liste de publications, filter sur celles où des jeux de données ont été produits
  • passer par HAL pour retrouver les DOI de ces jeux de données (champs researchData_s)

Filters

  • we remove the following datacite types ["Book", "ConferencePaper", "ConferenceProceeding", "JournalArticle", "BookChapter", "Service", "Preprint"]
  • we remove the following datacite clients ["rg.rg", "inist.epure"]

Comment sont comptées les données de la recherche ?

Le monitor prend en compte les données dotées d'un DOI de l'agence DataCite, c'est-à-dire qu'elles sont Findable. Un dépôt de données comprend des métadonnées conformes au schéma de données DataCite et un ou plusieurs fichiers pouvant être organisés en arborescence. Ce sont les dépôts qui sont comptés et non les fichiers intégrés aux dépôts : un DOI compte donc pour une donnée de recherche. Le schéma de Datacite permet de déclarer des relations entre DOI, ce que nous utilisons pour gérer les versions ou les doublons de données. Afin d'éviter de compter deux pour un même dépôt, ou bien pour un dépôt mis à jour, le monitor est doté d'une fonction qui navigue entre les DOIs dont la relation est de type isVersionOf ou isIdenticalTo. Dans le premier cas, la fonction "remonte" les versions jusqu'à la version parente, c'est-à-dire un DOI stable qui redirige vers la version la plus récente. Dans le deuxième cas, la fonction garde simplement la version signalée comme étant identique. Cette relation n'étant pas symétrique, le DOI conservé n'aura pas de relation "isIdenticalTo" et la redondance est évitée.



Data schema

Les champs du tableau produit reprennent ceux du schéma de données de DataCite (cf. https://datacite-metadata-schema.readthedocs.io/en/4.5/), auquel deux champs sont ajoutés :

  • all_relation toutes les relations attachées au DOI identifié.

  • traveled_dois liste des DOIs parcourus par le script pour obtenir le DOI de concept



Credits

  • Élias Chetouane: collecting data, program automation
  • Maxence Larrieu: collecting data, enrichment & visualisation

as members of GRICAD & CDGA