En quoi consiste la gestion des données?

Dans ce chapitre nous allons nous pencher sur les concepts sous-jacents à la maîtrise des données dans l’objectif de poser les bases théoriques d’une bonne gestion pour enclencher un cercle vertueux sur les bénéfices en aval.

La découverte des données

Est une première phase primordiale lorsque vous lancez votre stratégie d’exploitation des données RH. Il s’agit d’une approche de plus en plus appliquée qui consiste à cataloguer les données pour fournir une compréhension dynamique et spécifique de vos données en fonction de la façon dont elles sont ingérées, stockées, agrégées et utilisées. Cette pratique va permettre de modéliser et visualiser en temps réel l'état actuel de la santé de vos données, et non leur état idéal.

Ce dispositif fait partie intégrante de la gouvernance des données et va permettre de définir les ensembles de données en fonction de leur finalité et autres variables utiles pour visualiser l’organisation des données, notamment leurs utilisateurs et le champ d’application, leur date d’utilisation, de mise à jour, leur risque de dépréciation. Autres questions à se poser :

- Qui a accès à cette donnée ? Quand cette donnée a-t-elle été utilisée pour la dernière fois ? Par qui ?

- Quelles sont les dépendances en amont et en aval de ces données ?

- Quelles sont les données importantes pour les besoins de mon domaine métier ?

- Quelles sont mes hypothèses concernant ces données, et sont-elles satisfaites ?

Lorsqu'il s'agit de construire des jeux de données fiables et dignes de confiance, la première étape consiste à comprendre la santé de vos données dans leur état actuel. De la même manière que les équipes de software developers développent la confiance dans leurs applications logicielles grâce à l'observabilité et au DevOps, les équipes en charge des données doivent adopter des pratiques similaires lorsqu'il s'agit de développer la confiance dans leurs données.

Ce que l’on peut définir comme l'observabilité des données, c’est-à-dire leur disponibilité et leur qualité, est une première étape fondamentale dans la mise en place d’une gouvernance. HRConseil vous en dira plus sur ses tenants et aboutissants.

Aparté: DataOps

Autre concept plus récent, la DataOps qui s’inspire du devops pour appliquer des principes méthodiques de garantie de la qualité des données. Tel qu’introduit par IBM, il s’agit de l'orchestration des personnes, des processus et de la technologie pour fournir des données continues et de haute qualité aux citoyens des données (comprendre ici ceux qui vont les exploiter d’une manière ou d’une autre en aval), en mettant l'accent sur la collaboration au sein d'une organisation pour favoriser l'agilité, la vitesse et les nouvelles initiatives à l'échelle. La DataOps aide les organisations à démontrer la valeur des données dans l'optimisation des décisions et du temps passé sur leur gestion.

L’objectif sera d'automatiser la DataOps afin de relever les défis liés à l'inefficacité de l'accès aux données, de leur préparation, de leur intégration et de leur mise à disposition.

‍

Qualité des donnée

Qu'est-ce que la "qualité des données" ?

Ataccama la définit parfaitement bien (pour les données de manière générale) mais la définition vaut pour les données RH.

Voici les 6 dimensions qui permettent de définir la qualité des données à un instant T :

1/ Exhaustivité

Y a-t-il des lacunes, des trous, dans les données et si oui, où ?

Par exemple, si le service de RH a besoin à la fois du numéro de téléphone et de l'adresse électronique, un enregistrement n'ayant pas l'un ou l'autre ne peut pas être considéré comme complet. Vous pouvez également mesurer l'exhaustivité pour une colonne particulière. Le profilage de vos données permettra de découvrir ces lacunes.

2/ Validité

Les enregistrements de codes postaux que vous détenez ont-ils un format valide ? Êtes-vous sûr que les enregistrements d'adresses électroniques et postales que vous détenez dans votre base de données sont capables de recevoir des messages ?

Les contrôles de validité vérifient que les données sont conformes à un format, un type de données et une plage de valeurs particuliers.

L'automatisation basée sur les données (les variables d'automatisation) étant si importante de nos jours que les données doivent être valides pour être acceptées par les processus et les systèmes qui les nécessitent.

3/ Actualité ou fraîcheur

De nouvelles informations entrent-elles chaque jour dans votre SIRH en temps réel ou devez-vous les importer manuellement ? À quelle fréquence les données sont-elles "rafraîchies" ?

L'actualité est une dimension cruciale en raison du besoin croissant de données à jour. Le manager du collaborateur Y est-il le bon? Le département affilié à un poste est-il bien défini dans l’org chart la plus récente?

L'actualité est définie par l'utilisateur par exemple sur une base mensuelle pour la paie mais sur une base annuelle ou semestrielle pour les entretiens de performances etc.

4/ Unicité

Le même employé est-il enregistré deux fois dans votre SIRH ?

L'unicité mesure la quantité de données dupliquées. Par exemple, dans la table des commandes, chaque commande ne doit comporter qu'une seule ligne. Si, par contre, vous rencontrez deux enregistrements avec le même identifiant de commande, vous avez un doublon. Comment en est-on arrivé là ? Quelqu'un a pu faire une erreur de frappe dans le numéro de commande. Cela nous amène à la dimension suivante : la précision.

5/ Précision

Peut-être la dimension la plus importante, la précision fait référence au nombre d'erreurs dans les données. En d'autres termes, est ce que les données enregistrées représentent la vérité. L'exactitude est délicate car les données peuvent être valides, opportunes, uniques, complètes, mais inexactes. C’est notamment une dimension que l’on peut retrouver dans la gestion des compétences: la compétence “coder avec javascript” est potentiellement déclarée sur le profil d’un collaborateur. Mais est-ce le cas dans les faits?

L’ensemble de ces dimensions vont faire la cohérence de vos données

Avez-vous des informations contradictoires sur le même employé dans deux systèmes différents ? Cela signifie que les données sont incohérentes, ce qui peut entraîner des rapports incohérents et un mauvais suivi RH.

‍

Data downtime (Monte Carlo)

Il s’agit d’une nouvelle notion pertinente dans la gouvernance des données et la compréhension du coût de gestion. Les temps d'arrêt des données (data downtime) désignent les périodes pendant lesquelles les données sont manquantes, erronées ou imprécises, et suggèrent donc une faille dans votre circuit de données.

En mesurant le temps d'indisponibilité des données, vous pouvez déterminer la fiabilité de vos données et garantir la confiance nécessaire à leur utilisation.

Alors que le SRE (site reliability engineers) mesure le temps d'indisponibilité des applications en fonction du temps, nous pouvons également mesurer le temps d'arrêt des données.

Comme les données sont de plus en plus liées aux résultats de l'entreprise, nous observons un changement de cap vers des mesures moins subjectives et plus quantifiables, et pour de nombreuses équipes, la mesure du temps de fonctionnement et d'arrêt des données est un outil très utile.

Le temps d'arrêt des données est largement applicable et constitue un bon point de départ pour comprendre la santé des données.

Ce temps d’arrêt est composé de deux phases successives, celle du temps de la détection de l’anomalie suivi du temps de sa résolution.

C’est un bonne transition pour s’ateler aux facteurs clés dans la mise en place d’une stratégie viable de gestion des données.

‍

Facteurs clés de succès

Dans un contexte de digitalisation, il y a 3 points en particulier qui sont clés dans le déploiement d'une solution qui permettra réellement d'améliorer l'exploitation et la qualité des données:

Adoption

engager les parties prenantes par un usage intuitif, sans friction, dont le but principal est de leur simplifier la vie, notamment en automatisant ou en laissant à l'IA tout ce qui peut l'être;

Intégration

pour ne pas faire de doublon, pour ne pas ajouter encore une autre interface, un mot de passe de plus à gérer et donc plutôt capitaliser/exploiter/augmenter l'existant;

Synchronisation

(qui découle du point précédent faire parler, circuler et enrichir les outils en place pour assurer des synergies, éliminer les répétitions et les risques d'erreur de retranscriptions

Pour le 1e point, c’est le facteur humain,

Pour les 2 autres, le facteur tech avec des bénéfices directs pour les collaborateurs.

C'est d’ailleurs soit dit en passant l'objectif de la solution Revolv : Capitaliser sur votre écosystème SIRH en place et le pousser à son plein potentiel dans l'exploitation des données pour booster son ROI et réduire son TCO.

‍

Conclusion

Une qualité élevée des données c’est la capacité d'une organisation à assurer une disponibilité et une santé élevées des données tout au long de leur cycle de vie.

Les RH vont ingérer plus de données sur leurs collaborateurs, de données opérationnelles et tierces que jamais, et les employés de toute l'organisation interagissent avec ces données à toutes les étapes de leur cycle de vie, directement car c’est eux qui les produisent et qui les exploitent et indirectement car c’est aussi eux qui sont concernés par les décisions RH dans la gestion de carrière qui dépendent de ces données.

Il est de plus en plus important et primordial que ces données soient fiables.

La fiabilité des données doit être intégrée intentionnellement à tous les niveaux de la gestion des ressources humaines, depuis les processus et les technologies que vous utilisez pour créer et gérer la saisie de données, jusqu'à la façon dont vous communiquez et traitez les problèmes de données en aval. Dans le chapitre suivant, nous verrons quels sont les éléments fondamentaux pour assurer la fiabilité des données.

‍

Chapitre précédent

Pourquoi les données en RH

Chapitre SUIVANT

La gouvernance des données