Construire un data warehouse de zéro : retour d'expérience à l'Institut Jérôme Lejeune
Le vrai défi
Construire un warehouse de zéro n’est pas d’abord un problème d’outillage. C’est un problème de séquencement : décider quoi faire maintenant, quoi reporter, et quoi standardiser dès le départ.
En contexte recherche médicale, c’est encore plus critique : la qualité, la traçabilité et la confiance doivent être intégrées dès le premier jour.
Phase 1 — Cadrage (semaines 1-4)
Avant d’écrire du code, comprendre :
- quels systèmes sources existent (DPI, LIMS, fichiers Excel, bases Access)
- qui a besoin de quoi (médecins, chercheurs, direction)
- quelles décisions seront prises avec ces données
Le livrable : un périmètre clair avec 3-5 cas d’usage prioritaires.
Phase 2 — Modélisation (semaines 3-6)
Commencer par un schéma en étoile sur le premier cas d’usage :
- une table de faits (consultations, échantillons, prescriptions)
- les dimensions associées (patient, médecin, date, protocole)
Ne pas modéliser tout le SI. Commencer petit, livrer, itérer.
Phase 3 — Pipelines (semaines 5-10)
Architecture en 3 couches :
- raw : copie brute des sources, sans transformation
- staging : nettoyage, renommage, typage
- marts : logique métier, tables consommables
Chaque couche est idempotente. On peut tout relancer sans risque de duplication.
Phase 4 — Gouvernance (continu)
Dès le premier pipeline en production :
- documentation des tables et des colonnes (dbt docs ou simple fichier)
- tests de qualité automatisés (unicité, non-null, cohérence)
- lignage : savoir d’où vient chaque donnée
En contexte médical, la traçabilité n’est pas optionnelle. C’est une exigence réglementaire.
Phase 5 — Adoption (continu)
Le meilleur warehouse du monde est inutile si personne ne l’utilise.
- Former les équipes métier à interroger les marts (SQL basique ou BI)
- Livrer des dashboards concrets dès les premières semaines
- Intégrer les retours métier dans les itérations suivantes
Ce que cette expérience m’a appris
Le séquencement compte plus que la techno. Les quick wins construisent la confiance. Et en santé, la gouvernance n’est pas un luxe — c’est la condition pour que le projet survive.
Vous avez un projet data similaire ? Parlons-en → isdataconsulting.com
Besoin d'aide pour mettre ça en place ?
Missions Data Engineering, Architecture Data, Data Product Owner — ISData Consulting.