Dans le cadre de sa recherche scientifique, le CRC produit de nombreuses données, issues de différents types d’instrumentation, entrainant un traitement spécifique et une gestion comprenant notamment leur stockage et leur diffusion. Parmi les techniques analytiques utilisées, certaines, comme l’imagerie scientifique, engendrent des fichiers présentant un poids important, ce qui complique leur gestion. Dans le contexte actuel de Science Ouverte, ces questions prennent une importance particulière et s’inscrivent dans un environnement plus large à considérer.
La gestion des données est une question qui s’intègre dans une réflexion globale menée par plusieurs groupes de travail de projets PIA4 de la communauté autour de l’application des principes FAIR (Facile à trouver, Accessible, Interopérable, Réutilisable) aux données et dans lesquels le CRC est fortement engagé. Les objectifs de stockage et d’archivage des données scientifiques sont étroitement liés aux questions portant sur leur structuration, leur nomenclature, et en particulier sur les métadonnées les accompagnant. Les trois équipes du CRC souhaitent mettre en commun leurs forces pour mettre en place une production de ces métadonnées conjointement aux données elles-mêmes tout en gardant en ligne de mire leur diffusion et leur intégration au sein de projets plus larges (EquipEx+ Espadon, Biblissima +, etc.).
De nombreuses techniques analytiques sont communes aux trois équipes, ainsi que le traitement de gros jeux de données par différents outils, notamment statistiques. Les jeux de données peuvent être conséquents par leur taille, comme dans le cas de l’utilisation des spectro-imageries hyperspectrales visible, infrarouge et de fluorescence des rayons X sur plusieurs manuscrits du Mont Saint-Michel, pour le traitement des données générées en chromatographie bidimensionnelle ou par leur nombre, comme dans les cas de l’étude d’importants corpus d’objets. Par exemple, 50 violoncelles ont été étudiés sous de multiples angles (géométriques, métrologiques, acoustiques…) et la corrélation de ces données nécessite la mise en place d’un modèle robuste pouvant émaner de traitements utilisés dans d’autres contextes dans les projets du CRC.
De même, plusieurs programmes de recherche sur les photographies s’appuient sur des corpus étendus caractérisés par plusieurs approches spectrales et d’imagerie. L’utilisation d’outils permettant l’automatisation, le clustering (regroupement), la corrélation et l’interopérabilité des données tels que l’intelligence artificielle ou les traitements statistiques, fera l’objet de discussions entre les trois équipes. Un échange régulier sur ces questions de traitement de donnés permettra donc un partage d’expériences et une diffusion des connaissances au sein de l’unité.
L’animation de cet axe transversal méthodologique est assurée par trois agents de deux équipes de l’unité. Les actions d’animation prennent différentes formes, en commençant par la poursuite des réunions de réflexion (autour de six par an) sur des points spécifiques de la gestion et du traitement des données scientifiques. Des communications dédiées à ces questions sont organisées dans le cadre d’ateliers, des assemblées générales ou des séminaires du CRC sous forme de présentation d’outils ou de logiciels notamment ouverts, d’interventions autour de la question de la production des données scientifiques, de leur traitement notamment statistique, de la gestion de leur archivage et leur diffusion. De plus, un accompagnement par des formations spécifiques des personnels sera être envisagé en fonction des besoins. Enfin, le soutien de la direction pour les réflexions et les actions mises en place dans le contexte de cet axe transversal pourra notamment se réaliser via des financements, en particulier dans le cadre des stages inter-équipes, pour la réalisation d’outils d’aide à la gestion des données et à la production des métadonnées par exemple.