Posts

Articles techniques sur l'architecture data, les pipelines fiables, la qualité des données, SQL, Python et l'orchestration.

Monitoring des pipelines data en production

Comment surveiller ses pipelines data efficacement. Les métriques essentielles, les alertes utiles et les patterns de monitoring qui marchent en production.

MinIO et Airflow : construire un data lake local

Comment combiner MinIO et Apache Airflow pour monter un data lake S3-compatible en local. Architecture, configuration et pipelines concrets.

Qualité des données en santé : pourquoi c'est plus difficile qu'ailleurs

La qualité des données en santé est un défi unique : systèmes fragmentés, réglementation stricte, risque clinique. Un cadre pratique pour la fiabiliser.

Tester ses pipelines data : ce qui compte vraiment

Comment tester des pipelines data efficacement. Tests unitaires, d'intégration et de données — les approches pragmatiques qui protègent la production.

Construire un pipeline production-grade : idempotence, erreurs et traitement incrémental

Trois propriétés que tout pipeline data doit avoir avant de toucher la prod : idempotence, gestion des erreurs et traitement incrémental. En pratique, avec du code.

Modélisation dimensionnelle : structurer un data warehouse

Tables de faits, tables de dimensions, schéma en étoile. Comment structurer un warehouse que les analystes peuvent interroger facilement.

PostgreSQL en production : ce que j'ai appris en optimisant des requêtes sur de vraies données

ACID, index, transactions, EXPLAIN — les fondamentaux PostgreSQL vus sous l'angle du data engineer qui doit optimiser des requêtes sur des tables de plusieurs centaines de millions de lignes.

Les 6 dimensions de la qualité des données — et celles qu'on oublie toujours

La qualité des données est le socle de tout projet data fiable. Les 6 dimensions, les erreurs courantes et les stratégies concrètes pour l'implémenter.

Le Zen du data engineering

Les principes qui séparent un pipeline fragile d'un pipeline fiable. Inspiré du Zen of Python : lisibilité, explicité, simplicité, pragmatisme.

Batch, micro-batch, streaming : quel pattern pour quel besoin

Les 3 patterns d'architecture de pipeline data comparés. Critères de choix concrets selon la fraîcheur, le volume et la complexité de votre contexte.

Structurer un projet Python pour les pipelines data

Comment organiser un projet Python data proprement. Arborescence, packaging, configuration et bonnes pratiques pour des projets maintenables.

Data products : penser produit quand on est data engineer

Un data engineer qui pense produit crée plus de valeur. Comment passer de la livraison technique à la résolution de vrais problèmes métier.

Modern data stack : ce qui compte vraiment

Les composants essentiels d'une plateforme data moderne. Ce qu'il faut choisir, dans quel ordre, et ce qui peut attendre.

ETL vs ELT : comment choisir

ETL ou ELT n'est pas un choix dogmatique. Un cadre de décision basé sur la sensibilité des données, la latence, les compétences de l'équipe et la plateforme.

dbt en production : au-delà du getting started

dbt en production, c'est autre chose que le getting started. Tests de non-régression, sources contractuelles, séparation staging/marts, gestion des environnements.