Aller au contenu

Méthodes fondamentales - Causalité

·2 mins·
Time Series Causalité
TimeSeries - Cet article fait partie d'une série.
Partie 14: Cet article

On cherche à estimer un effet causal :

quelle est la différence entre ce qu’on observe et ce qui se serait passé sans intervention ?

Problème : on n’observe jamais les deux à la fois → il faut reconstruire un contrefactuel.

Les méthodes fondamentales sont différentes façons de s’en approcher.


🧪 A/B testing (expérimentation)
#

Idée : on crée nous-mêmes le contrefactuel via la randomisation.

  • on assigne aléatoirement :

    • groupe traité (A)
    • groupe contrôle (B)
  • la randomisation garantit (en moyenne) que les groupes sont comparables

👉 Effet causal estimé : \[ \mathbb{E}[Y \mid T=1] - \mathbb{E}[Y \mid T=0] \]

Hypothèse clé :

  • la randomisation est bien faite (pas de biais de sélection)

Forces :

  • méthode la plus fiable
  • interprétation directe

Limites :

  • parfois impossible (coût, éthique, contraintes produit)
  • effet mesuré dans un contexte spécifique (validité externe)

🤝 Matching
#

Idée : on reconstruit un groupe contrôle comparable a posteriori.

  • pour chaque individu traité, on cherche un “jumeau” non traité
  • similarité basée sur des variables observées (âge, historique, comportement…)

👉 On compare ensuite les outcomes entre “pairs” similaires.

Hypothèse clé :

  • pas de variables confondantes non observées (selection on observables)

Forces :

  • utilisable sur données observationnelles
  • intuitif

Limites :

  • dépend fortement des variables disponibles
  • ne corrige pas les biais cachés

📉 Regression adjustment
#

Idée : on modélise la relation entre traitement et outcome en contrôlant les variables.

Exemple : \[ Y = \beta_0 + \beta_1 T + \beta_2 X + \epsilon \]

  • \(T\) : traitement
  • \(X\) : variables de contrôle

👉 \(\beta_1\) est interprété comme effet causal (sous conditions)

Hypothèse clé :

  • modèle bien spécifié
  • toutes les variables confondantes sont incluses

Forces :

  • flexible
  • facile à implémenter

Limites :

  • très sensible aux erreurs de modélisation
  • extrapolation dangereuse (zones sans données)

🧠 Ce qu’il faut vraiment retenir
#

Ces méthodes diffèrent, mais reposent toutes sur la même idée :

rendre les groupes comparables pour isoler l’effet du traitement

  • A/B testing → comparabilité par design
  • Matching → comparabilité par construction
  • Regression → comparabilité par modélisation

Et surtout :

👉 dès qu’il y a des variables confondantes non observées, tout devient fragile.

Thibault CLEMENT - Intechnia
Auteur
Thibault CLEMENT - Intechnia
Data scientist
TimeSeries - Cet article fait partie d'une série.
Partie 14: Cet article