Data quality management

Le data quality management (DQM), ou gestion de la qualité des données en français, regroupe l'ensemble des processus, outils et pratiques visant à garantir que les données sont fiables, cohérentes, complètes et utilisables.

Cette discipline est essentielle pour assurer une exploitation efficace et pertinente des données dans les systèmes d’information, notamment dans des contextes tels que la prise de décision, la conformité réglementaire, l’analyse métier ou la planification stratégique. Elle s’applique à tout type de données, qu’elles soient structurées ou non structurées, qualitatives ou quantitatives.

La qualité des données peut être définie de plusieurs manières, mais elle est souvent considérée comme élevée lorsque les données sont adaptées à leur usage prévu (« fit for use ») ou lorsqu’elles représentent correctement les entités du monde réel auxquelles elles se rapportent »

La qualité des données est généralement évaluée selon plusieurs dimensions : exactitude, complétude, cohérence, actualité et accessibilité[1].

Le DQM remplit les mêmes objectifs que la gestion des données de référence.

Dimensions de la qualité des données

La qualité des données peut être analysée à travers plusieurs dimensions ou critères d’évaluation. Celles-ci permettent de mesurer si les données sont adaptées à leur finalité, et d’identifier les axes d’amélioration potentiels. Bien que les dimensions puissent varier légèrement selon les sources, les plus couramment reconnues sont les suivantes[1] :

  • Exactitude (accuracy) : correspondance entre la donnée et la réalité qu’elle est censée représenter. Une donnée exacte reflète fidèlement une situation ou un événement réel.
  • Complétude (completeness) : mesure dans laquelle l’ensemble des données nécessaires est présent. Une base de données incomplète peut compromettre l’analyse ou la prise de décision.
  • Cohérence (consistency) : absence de contradictions entre différentes sources ou systèmes. Par exemple, une même entité (client, produit...) doit être représentée de manière uniforme dans tous les systèmes d'information.
  • Actualité (timeliness) : disponibilité des données au bon moment. Des données obsolètes peuvent être inexploitables ou conduire à des erreurs d’interprétation.
  • Accessibilité (accessibility) : facilité d’accès aux données pour les utilisateurs autorisés, tout en garantissant la sécurité et la confidentialité.
  • Traçabilité (traceability ou lineage) : capacité à retracer l’origine et l’historique des données, depuis leur création jusqu’à leur utilisation.
  • Fiabilité (reliability) : stabilité des données dans le temps et confiance qu’on peut leur accorder pour prendre des décisions.

Certaines approches intègrent également d'autres dimensions comme la précision, la compréhensibilité ou la unicité (uniqueness), selon les contextes d’application (secteur, réglementation, finalité métier, etc.).

Notes et références

  1. a et b Wang, R. Y. et Strong, D. M., « Beyond accuracy: What data quality means to data consumers. », Journal of Management Information Systems, vol. 12, no 4,‎ , p. 5-33

Lien externe

Prefix: a b c d e f g h i j k l m n o p q r s t u v w x y z 0 1 2 3 4 5 6 7 8 9

Portal di Ensiklopedia Dunia

Kembali kehalaman sebelumnya