Données d'observation sur les espèces - Principes de qualité

La qualité des données : une problématique majeure pour le SINP

La qualité est un concept subjectif et relatif qui correspond à l'adéquation entre la représentation donnée par un système d'information d'une réalité et la réalité telle qu'elle est perçue par les utilisateurs.

L'enregistrement des observations naturalistes est la source qui alimente de nombreuses démarches de diagnostic, d'évaluation et de suivi de la biodiversité. La saisie est réalisée par l'observateur sur des supports matériels (papier) ou numériques (informatique).

Les informations et la précision des éléments constituant une donnée naturaliste vont déterminer si elle pourra être prise en compte ou si elle devra être écartée pour son utilisation, notamment pour la réalisation d'analyses scientifiques pertinentes. Cette qualité de la donnée permet la qualification des données (jeux de données) pour un usage défini.

Au-delà de l'observateur, d'autres personnes (opérateurs) vont accompagner les données dans leur parcours entre la saisie et les multiples utilisations possibles : naturalistes, gestionnaires et administrateurs de base de données, programmeurs, analystes, utilisateurs, etc.

Tous les opérateurs doivent veiller à préserver la qualité des données car une dégradation de l'information (simplification, perte d'attributs, etc.) peut intervenir à chaque étape de la vie de la donnée (à la collecte, à la numérisation, durant la documentation, la sauvegarde, l'analyse ou la manipulation).

La qualité des données sur les espèces dans un système d'information se définit selon différents critères, notamment :

  • la précision taxonomique, géographique, temporelle,
  • la complétude des informations fournies (stade de vie, statut biologique, informations demandées par le protocole de collecte, etc.),
  • la structuration des données selon le protocole (par exemple regroupement des observations par transect, à l'aide des regroupements prévus dans le standard d'échange, ...),
  • le renseignement du contexte d'acquisition (transmission de métadonnées décrivant notamment les protocoles et les méthodes de collecte),
  • la traçabilité / les sources (observateur, déterminateur, validateur),
  • l'utilisation de référentiels (liste de noms scientifiques ou de descripteurs) ce qui est indispensable pour un traitement homogène des données et assurer l'interopérabilité (notion de langage commun pour permettre une bonne communication entre les systèmes),
  • la validité scientifique (fiabilité de la détermination taxonomique notamment),
  • la cohérence des données entre elles,
  • l'unicité des données au sein du système (identification des éventuels doublons),
  • l'actualisation des données (vérification d'éventuelles mises à jour, prise en compte de corrections signalées).

Composantes de la qualité des données

© INPN

Grands principes pour assurer la qualité des données

Pour assurer la mise à disposition de données de qualité, il est important d'agir sur toute la chaine de traitement et le plus tôt possible dans le cycle de vie de la donnée, c'est-à-dire en premier lieu au niveau de la collecte.
En savoir plus sur la collecte : Guide de bonnes pratiques pour la collecte et la saisie de données naturalistes

Il est également nécessaire de proposer aux acteurs des outils de saisie et de gestion de données qui soient adaptés à leur besoin et qui soient le plus interopérables possibles pour faciliter le partage des données.
En savoir plus sur les outils : Guide pratique pour le développement et le choix d'un outil de saisie de données naturalistes

Les traitements réalisés sur les données, notamment la standardisation (normalisation du format), doivent être le moins possible source de dégradation/dénaturation des informations transmises.
En savoir plus sur la standardisation : Guide pratique pour la standardisation des données naturalistes

Les usages des données doivent également être adaptés aux données disponibles ou sélectionnées.
En savoir plus sur la valorisation : Guide pratique pour la valorisation et le post-traitement de données naturalistes

À noter
La démarche de validation au sein du SINP est décrite dans le guide méthodologique pour la conformité, la cohérence et la validation scientifique des données et des métadonnées du SINP. Ce guide décrit la méthodologie générale, définit les éléments de terminologie et les principes pour l'identification des doublons, la conformité, la cohérence et la validation scientifique.