Bancariser Ensemble les Données

Financeur du programme

programme national
Allenvi

Résumé

Le projet BED (Bancariser Ensemble les Données) consiste à concevoir et mettre en œuvre un pôle de compétences et d’outils pour la gestion de données, dédié aux ZA.  Il vise à terme une meilleure bancarisation des données des ZA, afin d'atteindre les standards internationaux dans ce domaine, requis par les autorités européennes et nationales. Il s’agit par exemple de donner les clés aux ZAs  pour les leurs données soient interopérables avec les standards OGC (donc avec les plateformes Indigeo et Cigale), avec EML (donc avec les IR ANEE, et DEIMS), ou les standards du Web sémantique  (dont O&M et OBOE) et l’IR OZCAR. Il comporte deux volets.


Objectifs

Volet 1

Concevoir une méthodologie pour la bancarisation des données, tenant compte du degré d’hétérogénéité existant sur les Zones Ateliers, expérimentée  sur des jeux de données tests. Les résultats doivent être transposables facilement et réutilisables par les communautés de l’Infrastructure de Recherche. A ce titre, les outils et méthodes proposées sont open-source et déployés en démonstration sur une machine virtuelle de test louée durant la durée du projet et un guide d’installation et utilisation sera diffusé.

 

Ce volet comporte 3 sous-projets à différents stades de maturité :

1.1 - QR code – piloté par Christine Plumejeaud

Achever la mise en œuvre de la traçabilité des échantillons par l'installation et la configuration de COLLEC. Ce volet doit contribuer à terme à améliorer la traçabilité et la qualité des données collectés et diffusées. Cet axe met en œuvre un accompagnement des utilisateurs et une amélioration de l’ergonomie du logiciel. Il permet aussi lorsque nécessaire l’achat groupé de consommables pour l’impression.

1.2 – ROZA – piloté par Cécile Pignol (ZA Alpes) et Pierre Stéphan (ZA Brest Iroise)

A partir du besoin d’une communauté identifiée (géologues travaillant sur les sédiments, continentaux ou côtiers), développer une chaîne intégrative (dite verticale) des données du terrain au Web, avec une démonstration de l’intérêt à la fois par des analyses croisées sur le Web sémantique et une visualisation des données. L’approche se fonde sur l’usage de vocabulaires contrôlés. Les chercheurs impliqués dans le projet sont : Pierre Stephan (LETG, ZABRI), Maxime Debret (M2C, ZA Seine Aval), Fabien Arnaud (Edytem, ZAA), Kevin Jack (Edytem, ZAA), Olivier Evrard (LSCE, ZA PIREN), Brice Mourrier (ENTP Lyon ZABR), Mattias Rouen (LETG, ZABRI), Christine Plumejeaud (Inter ZA, Lienss, ZA Plaine & Val de Sevre). 

1.3 - ELK  – piloté par David Sarramia

Mettre en œuvre ElasticSearch-Logstash-Kibana pour explorer la capacité d'intégration de données hétérogènes à travers l’exemple des données de flux de capteurs en environnement. Ces capteurs adressent des thématiques très différentes, et à ce titre permettent de réfléchir à une intégration horizontale entre silos de données portant sur des thématiques très différentes. L’approche est complètement orthogonale à une approche par vocabulaires contrôlés, mais questionne également l’interopérabilité sémantique des données.

 

Volet 2

Favoriser le déploiement de ces outils génériques de gestion des données dans les ZA, pour les plus démunies en ETPs (cf slide 6 de la présentation de Vincent Bretagnolle au CS). Il s'agit en 2018 de  5 ZAs : ZA Hwange, ZA Territoires Uranifères, ZA Environnement Urbain, ZA Arc Jurassien, ZA PVS. Il s’agit d’aider concrètement les ZAs à s’emparer des méthodes développées dans le volet 1, par un accompagnement technique dans leurs locaux.

Méthodologie

  • Travail par étapes, sur des sous-actions ayant des objectifs bien définis, mais dont les résultats sont généralisables à d'autres sujets.
  • Solutions libres et open-sources, documentées et partagées avec le plus grand nombre. 
  • Soutien technique aux ZAs sur site si possible 
  • Mise en place d'un serveur "bac-à-sable" donnant une visibilité maximum aux travaux effectués

Résultats attendus

- visibilité des données au niveau international à travail des portails comme DEIMS

- traçabilité des données et gain de temps pour leur saisie dès le terrain

- facilitation du croisement de données hétérogènes

Perspectives

Atteindre un niveau FAIR et s'interfacer avec les SI existants des autres IR. 

Commentaire Général

- soutien de Allenvi avec les crédits SOERE

- soutien du projet européen H2020 eLTER