Méthodes avancées - Causalité

TimeSeries - Cet article fait partie d'une série.

Partie 15: Cet article

On sort ici des méthodes simples (A/B tests, matching) pour traiter des situations plus réalistes : pas de randomisation, données imparfaites, biais potentiels.

L’objectif reste le même : estimer un effet causal crédible malgré ces contraintes.

Diff-in-Diff (Difference-in-Differences)
#

👉 On compare l’évolution dans le temps entre un groupe traité et un groupe de contrôle.

idée : regarder la différence des différences
hypothèse clé : tendances parallèles

👉 Intuition :

“Sans traitement, les deux groupes auraient évolué de la même manière”

✔️ Cas typiques :

impact d’une promo
changement de prix dans certaines régions
rollout progressif d’une feature

⚠️ Risque principal :

violation des tendances parallèles

Synthetic Control
#

👉 On construit un “groupe de contrôle artificiel” comme combinaison d’autres unités.

utile quand on a un seul groupe traité (ex : un pays, une ville)

👉 Intuition :

“On reconstruit ce qui se serait passé sans intervention”

✔️ Cas typiques :

politique publique
ouverture d’un magasin
campagne marketing majeure

⚠️ Risque :

mauvais matching → contrefactuel peu crédible

Instrumental Variables (IV)
#

👉 On utilise une variable externe (instrument) qui influence le traitement mais pas directement l’outcome.

👉 Intuition :

“On exploite une variation quasi-aléatoire du traitement”

✔️ Exemple classique :

distance géographique
règles administratives
variation exogène

⚠️ Hypothèses fortes :

validité de l’instrument (exclusion restriction)

👉 Si l’instrument est mauvais → résultats biaisés

Double Machine Learning (Double ML)
#

👉 On combine machine learning + causalité pour corriger les biais.

on modélise :
- le traitement
- l’outcome
puis on “retire” ces effets pour isoler le causal

👉 Intuition :

“On utilise le ML pour mieux contrôler les variables confondantes”

✔️ Utile quand :

beaucoup de variables
relations non linéaires

⚠️ Risque :

croire que le ML “fait la causalité tout seul” (faux)

Causal Forests
#

👉 Extension des random forests pour estimer des effets causaux hétérogènes.

on ne cherche plus un effet moyen
mais qui est impacté, et combien

👉 Intuition :

“L’effet n’est pas le même pour tout le monde”

✔️ Cas typiques :

ciblage marketing
personnalisation
uplift modeling

⚠️ Risque :

interprétation difficile
nécessite beaucoup de données

🧠 À retenir
#

Ces méthodes existent parce que le monde réel est imparfait
Chaque méthode repose sur des hypothèses fortes
Le vrai travail n’est pas de choisir une méthode, mais : 👉 de comprendre si ses hypothèses sont crédibles

👉 En pratique :