Posts

Articles techniques sur l'architecture data, les pipelines fiables, la qualité des données, SQL, Python et l'orchestration.

Monitoring des pipelines data en production

15 mars 2026

Comment surveiller ses pipelines data efficacement. Les métriques essentielles, les alertes utiles et les patterns de monitoring qui marchent en production.

MinIO et Airflow : construire un data lake local

8 mars 2026

Comment combiner MinIO et Apache Airflow pour monter un data lake S3-compatible en local. Architecture, configuration et pipelines concrets.

Qualité des données en santé : pourquoi c'est plus difficile qu'ailleurs

2 mars 2026

La qualité des données en santé est un défi unique : systèmes fragmentés, réglementation stricte, risque clinique. Un cadre pratique pour la fiabiliser.

Tester ses pipelines data : ce qui compte vraiment

1 mars 2026

Comment tester des pipelines data efficacement. Tests unitaires, d'intégration et de données — les approches pragmatiques qui protègent la production.

Construire un pipeline production-grade : idempotence, erreurs et traitement incrémental

22 février 2026

Trois propriétés que tout pipeline data doit avoir avant de toucher la prod : idempotence, gestion des erreurs et traitement incrémental. En pratique, avec du code.

Modélisation dimensionnelle : structurer un data warehouse

20 février 2026

Tables de faits, tables de dimensions, schéma en étoile. Comment structurer un warehouse que les analystes peuvent interroger facilement.

PostgreSQL en production : ce que j'ai appris en optimisant des requêtes sur de vraies données

8 février 2026

ACID, index, transactions, EXPLAIN — les fondamentaux PostgreSQL vus sous l'angle du data engineer qui doit optimiser des requêtes sur des tables de plusieurs centaines de millions de lignes.

Les 6 dimensions de la qualité des données — et celles qu'on oublie toujours

3 février 2026

La qualité des données est le socle de tout projet data fiable. Les 6 dimensions, les erreurs courantes et les stratégies concrètes pour l'implémenter.

Le Zen du data engineering

2 février 2026

Les principes qui séparent un pipeline fragile d'un pipeline fiable. Inspiré du Zen of Python : lisibilité, explicité, simplicité, pragmatisme.

Batch, micro-batch, streaming : quel pattern pour quel besoin

1 février 2026

Les 3 patterns d'architecture de pipeline data comparés. Critères de choix concrets selon la fraîcheur, le volume et la complexité de votre contexte.

Structurer un projet Python pour les pipelines data

1 février 2026

Comment organiser un projet Python data proprement. Arborescence, packaging, configuration et bonnes pratiques pour des projets maintenables.

Data products : penser produit quand on est data engineer

31 janvier 2026

Un data engineer qui pense produit crée plus de valeur. Comment passer de la livraison technique à la résolution de vrais problèmes métier.

Modern data stack : ce qui compte vraiment

30 janvier 2026

Les composants essentiels d'une plateforme data moderne. Ce qu'il faut choisir, dans quel ordre, et ce qui peut attendre.

ETL vs ELT : comment choisir

26 janvier 2026

ETL ou ELT n'est pas un choix dogmatique. Un cadre de décision basé sur la sensibilité des données, la latence, les compétences de l'équipe et la plateforme.

dbt en production : au-delà du getting started

5 janvier 2026

dbt en production, c'est autre chose que le getting started. Tests de non-régression, sources contractuelles, séparation staging/marts, gestion des environnements.