DATA - Data Governance > Conformité > Qualité des données > Évaluer la qualité des données
Évaluer la qualité des données
L'évaluation peut être effectuée directement sur les données ou à distance via des questionnaires.
HOPEX Data Governance fournit par défaut un modèle d'évaluation des données qui porte sur les dimensions suivantes :
complétude
exactitude
cohérence
validité
unicité
fraîcheur
Dimensions de qualité
Une dimension de la qualité des données est une caractéristique mesurable des données. Les dimensions de la qualité des données permettent d'établir les exigences en matière de qualité des données.
HOPEX Data Governance livre un certain nombre de dimensions prédéfinies. Pour afficher la liste des dimensions prédéfinies :
1. Cliquez sur le menu de navigation Conformité > Qualité des données.
2. Dans la zone d'édition, cliquez sur l'onglet Dimensions.
 
Dimension
Description
Accessibilité
Traduit la facilité d'accès et d'utilisation des données, à un niveau pratique (rapide, sans intervention de personnes extérieures).
Actualité
Mesure dans laquelle les données représentent la réalité à partir du moment requis. L'actualité des données implique que les données aient été mises à jour si besoin pour rester pertinentes.
Cohérence
Identifie le niveau de cohérence dans les données, l'absence de différence lorsqu'on compare deux ou plusieurs représentations d'une chose à une définition.
Exemple
Ci-dessous une incohérence dans le format des données.
 
Complétude
Identifie le niveau d'exhaustivité des données et les propriétés manquantes.
Exemple :
Ci-dessous certaines colonnes n'ont pas de valeur (en rouge) et d'autres sont tronquées (Dupont@Samp.gm)
 
Confiance
La gouvernance des données, la protection des données et la sécurité des données sont-elles en place ? Quelle est la réputation des données, et sont-elles vérifiées et vérifiables ?
 
Exactitude
Identifie le niveau de données exactes, fiables.
Exemple :
Ci-dessous, pour Dupont, le poste et le département sont inversés.
Pour Durand, le poste affiche une erreur typographique
Pour René, le département affiche une valeur erronée.
 
Fraîcheur
Ce critère évalue si l'information est disponible au moment requis.
La fraîcheur des données est essentielle pour avoir une bonne vision d'une situation à un moment donné et pour prendre les décisions relatives aux données. La fraîcheur est importante à deux égards : un court délai entre la collecte des données et leur analyse et un court délai entre la notification et l'action d'optimisation ou de correction qui en résulte.
 
Pertinence
La pertinence des données indique dans quelle mesure les données répondent aux besoins des utilisateurs. Les besoins d'information peuvent changer et il est important que des évaluations aient lieu pour s'assurer que les données collectées sont toujours pertinentes pour les décideurs.
 
Sécurité des données
La sécurité des données couvre la notion d'empowerment (autorisation d'accès à des données sensibles), les mesures prises contre la perte d'informations, le contrôle du risque de fuite d'informations sensibles.
 
Traçabilité
La traçabilité permet de suivre l'évolution des informations depuis leur collecte jusqu'à leur restitution, y compris leur traitement. Très souvent, elle est associée à l'historique d'un processus ou d'un produit.
 
Unicité
Ce critère évalue le niveau d'unicité des données.
Exemple :
On ne doit pas trouver dans la table "Client" deux fois la même occurrence, chaque enregistrement doit être unique.
 
Utilisabilité
Les données sont-elles compréhensibles, simples, pertinentes, accessibles, maintenables et au bon niveau de précision ?
 
Valeur
La valeur des données traduit leur intérêt : existe-t-il un bon rapport coût / bénéfice pour les données ? Sont-elles utilisées de manière optimale ? Mettent-elles en danger la sécurité ou la vie privée des personnes ou les responsabilités légales de l'entreprise ? Soutiennent-elles ou contredisent-elle l'image de marque ou le message de l'entreprise ?
 
Validité
Identifie le niveau de données valides. Les données sont valides lorsqu'elles sont conformes à la syntaxe (format, type) de leur définition.
Exemple :
La valeur du champ "Unités disponibles" sur Prod1 ne devrait pas être négative.
Une date de retrait est définie sur Prod2 mais le champ "Unités disponibles" n'affiche pas une valeur nulle.
 
Vraisemblance
La vraisemblance examine si les données se situent dans une fourchette acceptée, par exemple, entre le maximum et le minimum, la distribution et les valeurs aberrantes.
HOPEX fournit un modèle Excel qui vous permet d'évaluer les critères de données dans un fichier et de les importer dans votre référentiel.
 
Objets de l'évaluation
L'évaluation peut porter sur les objets suivants :
concept, vue de concept
classe, vue de données
table, vue physique
tous les domaines de données (métier, logique et physique)
Évaluation directe
Pour évaluer de façon directe une donnée :
1. Ouvrez les propriété de la donnée en question.
2. Sélectionnez la page Evaluation.
3. Cliquez sur Evaluer.
4. Dans la page qui apparaît, sélectionnez une valeur pour chaque question. Voir Dimensions de qualité.
5. Cliquez sur OK.
Évaluation par campagne
L'administrateur fonctionnel peut créer des campagnes ou des sessions d'évaluation des données.
Lors de la création d'une campagne, des questionnaires sont envoyés aux répondants désignés afin d'obtenir des estimations qualitatives sur des objets dont ils sont responsables.
Pour plus de détails sur les campagnes et sessions, voir Campagnes d'évaluation.
Conditions préalables à l'évaluation des données
Avant de lancer une campagne d'évaluation de données vous devez avoir préparé l'environnement de travail. Assurez-vous d'avoir défini des répondants pour les données, et spécifié pour chacun l'entité à laquelle il est rattaché ainsi qu'un email.
Créer une campagne d'évaluation
Pour créer une campagne d'évaluation avec le modèle fourni en standard :
1. Cliquez sur le menu de navigation Outils > Campagnes d'évaluation.
2. Dans la fenêtre d'édition, sous l'onglet Campagnes, cliquez sur Nouveau.
La page de création d'une campagne apparaît.
3. Indiquez le nom de la campagne.
4. Sélectionnez le Modèle d'évaluation "Data Quality Assessment".
5. Modifiez éventuellement le Calendrier.
*Le calendrier sert à initialiser les dates de début et de fin de la campagne d'évaluation.
6. Indiquez la Date de Début et la Date de fin.
7. Cliquez sur Suivant.
8. Dans la fenêtre Sélection du périmètre, sélectionnez les objets qui définissent le contexte de l'évaluation.
Le contexte englobe les éléments de la branche qui remonte de l'objet en question jusqu'à la racine.
*Si vous dé-sélectionnez un nœud d'une branche, seuls les enfants de cette branche sont dé-sélectionnés.
9. Cliquez sur Suivant.
10. Dans la fenêtre de prévisualisation, cliquez sur Rafraîchir le rapport.
Les éléments qui vont être évalués apparaissent.
Vous pouvez visualiser notamment :
les caractéristiques évaluées (définies dans le modèle d'évaluation)
les objets évalués
les objets contextes
les nœuds d'évaluation, qui correspondent aux objets placés dans les différents objets contextes, associés aux répondants.
les répondants
11. Cliquez sur OK.
Pour plus d'informations sur les campagnes, voir Campagnes d'évaluation.
Voir aussi :