Aller au contenu

Méthodes avancées - Causalité

·2 mins·
Time Series Causalité
TimeSeries - Cet article fait partie d'une série.
Partie 15: Cet article

On sort ici des méthodes simples (A/B tests, matching) pour traiter des situations plus réalistes : pas de randomisation, données imparfaites, biais potentiels.

L’objectif reste le même : estimer un effet causal crédible malgré ces contraintes.


Diff-in-Diff (Difference-in-Differences)
#

👉 On compare l’évolution dans le temps entre un groupe traité et un groupe de contrôle.

  • idée : regarder la différence des différences
  • hypothèse clé : tendances parallèles

👉 Intuition :

“Sans traitement, les deux groupes auraient évolué de la même manière”

✔️ Cas typiques :

  • impact d’une promo
  • changement de prix dans certaines régions
  • rollout progressif d’une feature

⚠️ Risque principal :

  • violation des tendances parallèles

Synthetic Control
#

👉 On construit un “groupe de contrôle artificiel” comme combinaison d’autres unités.

  • utile quand on a un seul groupe traité (ex : un pays, une ville)

👉 Intuition :

“On reconstruit ce qui se serait passé sans intervention”

✔️ Cas typiques :

  • politique publique
  • ouverture d’un magasin
  • campagne marketing majeure

⚠️ Risque :

  • mauvais matching → contrefactuel peu crédible

Instrumental Variables (IV)
#

👉 On utilise une variable externe (instrument) qui influence le traitement mais pas directement l’outcome.

👉 Intuition :

“On exploite une variation quasi-aléatoire du traitement”

✔️ Exemple classique :

  • distance géographique
  • règles administratives
  • variation exogène

⚠️ Hypothèses fortes :

  • validité de l’instrument (exclusion restriction)

👉 Si l’instrument est mauvais → résultats biaisés


Double Machine Learning (Double ML)
#

👉 On combine machine learning + causalité pour corriger les biais.

  • on modélise :

    • le traitement
    • l’outcome
  • puis on “retire” ces effets pour isoler le causal

👉 Intuition :

“On utilise le ML pour mieux contrôler les variables confondantes”

✔️ Utile quand :

  • beaucoup de variables
  • relations non linéaires

⚠️ Risque :

  • croire que le ML “fait la causalité tout seul” (faux)

Causal Forests
#

👉 Extension des random forests pour estimer des effets causaux hétérogènes.

  • on ne cherche plus un effet moyen
  • mais qui est impacté, et combien

👉 Intuition :

“L’effet n’est pas le même pour tout le monde”

✔️ Cas typiques :

  • ciblage marketing
  • personnalisation
  • uplift modeling

⚠️ Risque :

  • interprétation difficile
  • nécessite beaucoup de données

🧠 À retenir
#

  • Ces méthodes existent parce que le monde réel est imparfait
  • Chaque méthode repose sur des hypothèses fortes
  • Le vrai travail n’est pas de choisir une méthode, mais : 👉 de comprendre si ses hypothèses sont crédibles

👉 En pratique :

une bonne stratégie d’identification > une méthode sophistiquée

Thibault CLEMENT - Intechnia
Auteur
Thibault CLEMENT - Intechnia
Data scientist
TimeSeries - Cet article fait partie d'une série.
Partie 15: Cet article