Modern data stack : ce qui compte vraiment

30 janvier 2026

Ce qui a changé

Il y a 10 ans, une plateforme data coûtait des millions et prenait des mois à déployer. Aujourd’hui, une startup peut avoir une stack data solide pour quelques centaines d’euros par mois.

La raison : le cloud, le pay-per-use, et des outils composables qui font chacun une seule chose bien.

Les 5 couches d’une stack moderne

1. Sources

Tout ce qu’on veut analyser : bases applicatives (PostgreSQL, MySQL), outils SaaS (Salesforce, Stripe, HubSpot), fichiers, flux d’événements.

2. Ingestion

Déplacer la donnée des sources vers le warehouse. L’approche moderne est ELT : on charge d’abord brut, on transforme après dans le warehouse.

Outils courants : Fivetran, Airbyte, scripts custom pour les sources exotiques.

Règle : ne construire du custom que si aucun connecteur n’existe, si la latence requise est inférieure à la minute, ou si le volume rend les connecteurs trop chers.

3. Stockage (warehouse)

Le cœur de la stack. Toute la donnée vit ici, toutes les transformations y tournent.

Les options principales :

Snowflake : séparation stockage/calcul, facturation à la seconde
BigQuery : serverless, paiement à la requête, écosystème Google
Databricks : lakehouse (lac + warehouse combiné), bon pour le ML

Pour la plupart des cas, le choix entre ces 3 dépend de l’écosystème existant et du budget.

4. Transformation

C’est là que la donnée brute devient exploitable. L’outil dominant est dbt : SQL versionné, testé, documenté.

Le pattern :

staging : nettoyage léger, renommage
marts : logique métier, indicateurs, tables consommables

5. Restitution

Dashboards, rapports, API. Looker, Metabase, Tableau, Power BI.

La couche la plus visible mais la moins importante à choisir en premier. Un bon warehouse avec des transformations propres rend n’importe quel outil de visualisation efficace.

Les couches transverses

Orchestration : Airflow ou Dagster pour planifier et enchaîner les jobs
Observabilité : monitoring des pipelines, alertes sur la qualité de données
Catalogue : documentation des métriques et des tables

Par où commencer

Warehouse : choisir et déployer en premier
Ingestion : connecter les 3-5 sources prioritaires
Transformation : structurer staging + marts pour un premier cas d’usage
Dashboard : livrer un premier indicateur utile

Ne pas tout déployer en même temps. Rendre une couche fiable avant de passer à la suivante.

Ce qui peut attendre

Le catalogue de données (utile à partir de 10+ sources)
Le streaming (commencer par du batch)
La couche sémantique (attendre d’avoir des incohérences de métriques)
Le data mesh (attendre d’avoir plusieurs domaines data matures)

La meilleure stack est celle qui livre de la valeur vite, pas celle qui a le plus de composants.

Pour aller plus loin

Articles associés pour approfondir chaque couche :

Ingestion → ETL vs ELT : comment choisir
Transformation → dbt en production : au-delà du getting started
Orchestration → MinIO et Airflow : construire un data lake local
Fiabilité → Monitoring des pipelines data en production
Architecture → Batch, micro-batch, streaming : quel pattern ?