Méthodes fondamentales - Causalité

TimeSeries - Cet article fait partie d'une série.

Partie 14: Cet article

Partie 15: Méthodes avancées - Causalité

On cherche à estimer un effet causal :

quelle est la différence entre ce qu’on observe et ce qui se serait passé sans intervention ?

Problème : on n’observe jamais les deux à la fois → il faut reconstruire un contrefactuel.

Les méthodes fondamentales sont différentes façons de s’en approcher.

🧪 A/B testing (expérimentation)
#

Idée : on crée nous-mêmes le contrefactuel via la randomisation.

on assigne aléatoirement :
- groupe traité (A)
- groupe contrôle (B)
la randomisation garantit (en moyenne) que les groupes sont comparables

👉 Effet causal estimé : \[ \mathbb{E}[Y \mid T=1] - \mathbb{E}[Y \mid T=0] \]

Hypothèse clé :

la randomisation est bien faite (pas de biais de sélection)

Forces :

méthode la plus fiable
interprétation directe

Limites :

parfois impossible (coût, éthique, contraintes produit)
effet mesuré dans un contexte spécifique (validité externe)

🤝 Matching
#

Idée : on reconstruit un groupe contrôle comparable a posteriori.

pour chaque individu traité, on cherche un “jumeau” non traité
similarité basée sur des variables observées (âge, historique, comportement…)

👉 On compare ensuite les outcomes entre “pairs” similaires.

Hypothèse clé :

pas de variables confondantes non observées (selection on observables)

Forces :

utilisable sur données observationnelles
intuitif

Limites :

dépend fortement des variables disponibles
ne corrige pas les biais cachés

📉 Regression adjustment
#

Idée : on modélise la relation entre traitement et outcome en contrôlant les variables.

Exemple : \[ Y = \beta_0 + \beta_1 T + \beta_2 X + \epsilon \]

\(T\) : traitement
\(X\) : variables de contrôle

👉 \(\beta_1\) est interprété comme effet causal (sous conditions)

Hypothèse clé :

modèle bien spécifié
toutes les variables confondantes sont incluses

Forces :

flexible
facile à implémenter

Limites :

très sensible aux erreurs de modélisation
extrapolation dangereuse (zones sans données)

🧠 Ce qu’il faut vraiment retenir
#

Ces méthodes diffèrent, mais reposent toutes sur la même idée :

rendre les groupes comparables pour isoler l’effet du traitement

A/B testing → comparabilité par design
Matching → comparabilité par construction
Regression → comparabilité par modélisation

Et surtout :

👉 dès qu’il y a des variables confondantes non observées, tout devient fragile.

Auteur

Thibault CLEMENT - Intechnia

Data scientist

TimeSeries - Cet article fait partie d'une série.

Partie 1: Forecasting business

Partie 2: Impact et décisions

Partie 3: Allocation

Partie 4: Statistiques et probabilités

Partie 5: Modélisation

Partie 6: Modélisation DGP

Partie 7: Fondamentaux (stationnarité, autocorrélation, décomposition)

Partie 8: Modèles classiques (AR / MA / ARMA / ARIMA)

Partie 9: Feature engineering temporel (lags, rolling stats)

Partie 10: Validation et pièges (time-based CV, data leakage)

Partie 11: Avancé / Moderne (multivariate time series, hierarchical forecasting)

Partie 12: Probabilistic forecasting (quantiles, prédiction de distribution)

Partie 13: Modélisation DGP

Partie 14: Cet article

Partie 15: Méthodes avancées - Causalité

🧪 A/B testing (expérimentation)#

🤝 Matching#

📉 Regression adjustment#

🧠 Ce qu’il faut vraiment retenir#

🧪 A/B testing (expérimentation)
#

🤝 Matching
#

📉 Regression adjustment
#

🧠 Ce qu’il faut vraiment retenir
#