Qualité des données en santé : pourquoi c'est plus difficile qu'ailleurs
Ce qui rend la santé différente
En santé, une erreur de données n’est pas juste un dashboard faux. C’est potentiellement une décision clinique affectée. Le niveau d’exigence n’est pas le même que dans le e-commerce ou le marketing.
Trois facteurs rendent le sujet plus complexe :
1. Fragmentation des systèmes
Les données vivent dans des dizaines de systèmes : DPI (dossier patient informatisé), LIMS (labo), imagerie, pharmacie, RH. Chacun a son propre schéma, ses propres identifiants, ses propres conventions.
Résultat : des doublons patients, des identifiants qui ne matchent pas, des données incomplètes à chaque interface.
2. Réglementation stricte
RGPD, hébergement HDS, consentement patient, traçabilité des accès. Chaque manipulation de données doit être justifiable et auditable. On ne peut pas simplement “corriger” une donnée sans trace.
3. Risque clinique
Un montant de facture erroné se corrige. Un résultat de labo mal rattaché à un patient peut avoir des conséquences graves. La tolérance à l’erreur est quasi nulle sur certains flux.
Cadre pratique
Classifier les flux par criticité
Tous les flux data n’ont pas le même niveau de risque. Distinguer :
- Critique : données patients, résultats cliniques, prescriptions
- Important : données de recherche, échantillons biologiques
- Standard : données RH, finances, reporting opérationnel
La rigueur des contrôles qualité doit suivre cette classification.
Contrats de données à chaque interface
Entre chaque système source et la plateforme data, un contrat explicite :
- schéma attendu
- règles de validation
- format d’identifiant patient
- fréquence de livraison
Toute déviation déclenche une alerte, pas un chargement silencieux.
Quarantaine avant publication
Les enregistrements qui échouent aux validations ne sont pas supprimés. Ils sont isolés en quarantaine avec un code raison. Les équipes métier peuvent les corriger à la source.
Lignage et audit
Chaque donnée publiée doit pouvoir répondre à : d’où vient cette valeur, quand a-t-elle été chargée, par quel pipeline ?
Sans traçabilité, impossible de passer un audit ou de débugger un incident.
Les erreurs classiques en santé
Faire confiance au DPI. Les systèmes sources hospitaliers ont souvent des problèmes de qualité. Ne jamais charger sans valider.
Ignorer les doublons patients. L’identité patient est le problème numéro un. Investir dans le matching et la déduplication dès le départ.
Construire sans les métiers. En santé, le data engineer seul ne peut pas définir les règles de qualité. Impliquer médecins, biologistes, pharmaciens dans la définition des contrôles.
En résumé
La qualité des données en santé exige plus de rigueur, plus de traçabilité et plus de collaboration avec les métiers. Le cadre technique (tests, quarantaine, lignage) est le même qu’ailleurs — mais le niveau d’exigence et les conséquences d’un échec sont d’un autre ordre.
Vous avez un projet data similaire ? Parlons-en → isdataconsulting.com
Besoin d'aide pour mettre ça en place ?
Missions Data Engineering, Architecture Data, Data Product Owner — ISData Consulting.