↓Aller au contenu

Modélisation DGP

5 avril 2026·2 mins·

Time Series Causalité

TimeSeries - Cet article fait partie d'une série.

Partie 1: Forecasting business

Partie 2: Impact et décisions

Partie 3: Allocation

Partie 4: Statistiques et probabilités

Partie 5: Modélisation

Partie 6: Modélisation DGP

Partie 7: Fondamentaux (stationnarité, autocorrélation, décomposition)

Partie 8: Modèles classiques (AR / MA / ARMA / ARIMA)

Partie 9: Feature engineering temporel (lags, rolling stats)

Partie 10: Validation et pièges (time-based CV, data leakage)

Partie 11: Avancé / Moderne (multivariate time series, hierarchical forecasting)

Partie 12: Probabilistic forecasting (quantiles, prédiction de distribution)

Partie 13: Cet article

Partie 14: Méthodes fondamentales - Causalité

Partie 15: Méthodes avancées - Causalité

Corrélation ≠ causalité
#

On observe souvent que deux variables évoluent ensemble. Mais ça ne veut pas dire que l’une cause l’autre.

corrélation = relation statistique
causalité = relation de cause à effet

Exemples classiques :

les ventes de glace et les noyades augmentent ensemble → variable cachée : la température
une hausse du trafic est associée à une hausse des ventes → mais est-ce vraiment le trafic qui cause les ventes ?

👉 Le point clé : on cherche à comprendre ce qui se serait passé “si on n’avait rien fait” (contre-factuel).

DAGs (graphes causaux)
#

Un DAG (Directed Acyclic Graph) est une représentation des relations causales entre variables.

les nœuds = variables
les flèches = relations causales (X → Y)

Exemple simple :

Marketing → Ventes
Saison → Marketing
Saison → Ventes

👉 Les DAGs servent à :

expliciter nos hypothèses (souvent implicites sinon)
identifier les biais
savoir quelles variables contrôler

Sans DAG, on raisonne souvent “à l’intuition” → et on se trompe facilement.

Variables confondantes
#

Une variable confondante influence à la fois :

la variable explicative (X)
la variable cible (Y)

Exemple :

Marketing → Ventes
Saison → Marketing
Saison → Ventes

Ici, la saison est une confondante.

👉 Problème : on peut attribuer à tort à X un effet qui vient en réalité de la confondante.

👉 Solution (en simplifiant) : contrôler ces variables (modélisation, stratification, matching…)

Biais de sélection
#

Le biais de sélection apparaît quand les données observées ne sont pas représentatives.

Exemples :

on analyse uniquement les clients exposés à une campagne
on compare des groupes qui ne sont pas comparables dès le départ

👉 Résultat : on introduit des différences structurelles qui faussent les conclusions.

Cas typique :

les “meilleurs clients” reçoivent plus souvent certaines offres
on observe ensuite qu’ils achètent plus → mais ce n’est pas forcément l’effet de l’offre

Intuition globale
#

On peut résumer l’objectif de la causalité comme :

isoler l’effet propre d’une variable en éliminant les explications alternatives

Et concrètement, ça revient toujours à se poser ces questions :

qu’est-ce qui influence à la fois X et Y ?
est-ce que mes groupes sont comparables ?
qu’est-ce que je ne vois pas dans mes données ?

Auteur

Thibault CLEMENT - Intechnia

Data scientist

TimeSeries - Cet article fait partie d'une série.

Partie 1: Forecasting business

Partie 2: Impact et décisions

Partie 3: Allocation

Partie 4: Statistiques et probabilités

Partie 5: Modélisation

Partie 6: Modélisation DGP

Partie 7: Fondamentaux (stationnarité, autocorrélation, décomposition)

Partie 8: Modèles classiques (AR / MA / ARMA / ARIMA)

Partie 9: Feature engineering temporel (lags, rolling stats)

Partie 10: Validation et pièges (time-based CV, data leakage)

Partie 11: Avancé / Moderne (multivariate time series, hierarchical forecasting)

Partie 12: Probabilistic forecasting (quantiles, prédiction de distribution)

Partie 13: Cet article

Partie 14: Méthodes fondamentales - Causalité

Partie 15: Méthodes avancées - Causalité