Dans beaucoup de cas, on ne peut pas faire d’expérimentation contrôlée (A/B test). On doit alors travailler avec des données observationnelles : on observe ce qui s’est passé, sans contrôle sur qui reçoit le “traitement”.
👉 Problème : le monde réel n’est pas randomisé.
🧭 Identification strategy#
Avant même de parler de modèle, on doit répondre à une question clé :
Comment est-ce qu’on va isoler un effet causal crédible ?
C’est ce qu’on appelle une identification strategy.
On ne “laisse pas parler les données”. On fait des hypothèses sur le processus qui a généré les données.
Exemples :
- comparer des groupes similaires (matching)
- exploiter une variation naturelle (Diff-in-Diff)
- utiliser une variable instrumentale
- s’appuyer sur une discontinuité (RDD)
👉 L’idée centrale : on cherche une situation qui approxime une expérience randomisée.
⚠️ Hypothèses clés#
Une identification strategy repose toujours sur des hypothèses fortes.
Ignorability (ou unconfoundedness)#
À variables observées égales, le traitement est “comme aléatoire”
Autrement dit :
il n’y a pas de variable cachée qui influence à la fois :
- le traitement
- le résultat
👉 En pratique : rarement totalement vrai.
Common support (overlap)#
On doit pouvoir comparer des observations similaires entre groupes
Exemple :
- si tous les clients riches reçoivent une promo et aucun client pauvre → impossible de comparer
SUTVA (simplifié)#
Pas d’interférence entre individus
Exemple :
- une promo envoyée à un client n’influence pas les autres
👉 Message important : ces hypothèses ne sont jamais testables directement. On doit les argumenter, pas les prouver.
🧪 Robustesse#
Comme on ne peut pas garantir les hypothèses, on doit tester la solidité des résultats.
Quelques réflexes :
- varier les spécifications (features, modèles)
- tester différents sous-groupes
- utiliser des placebo tests (effet là où il ne devrait pas exister)
- vérifier la stabilité dans le temps
- comparer avec des méthodes alternatives
👉 Si ton résultat disparaît dès qu’on change un détail, il n’était pas solide.
🧠 Intuition globale#
Travailler avec des données observationnelles, c’est :
- moins “propre” que l’expérimental
- plus dépendant du raisonnement que du modèle
- plus fragile
Mais aussi :
- beaucoup plus fréquent en pratique
- souvent la seule option en business
👉 Le vrai travail n’est pas technique, il est conceptuel : comprendre comment les données ont été générées, et quelles hypothèses on accepte.
