Données observationnelles

TimeSeries - Cet article fait partie d'une série.

Partie 16: Cet article

Dans beaucoup de cas, on ne peut pas faire d’expérimentation contrôlée (A/B test). On doit alors travailler avec des données observationnelles : on observe ce qui s’est passé, sans contrôle sur qui reçoit le “traitement”.

👉 Problème : le monde réel n’est pas randomisé.

🧭 Identification strategy
#

Avant même de parler de modèle, on doit répondre à une question clé :

Comment est-ce qu’on va isoler un effet causal crédible ?

C’est ce qu’on appelle une identification strategy.

On ne “laisse pas parler les données”. On fait des hypothèses sur le processus qui a généré les données.

Exemples :

comparer des groupes similaires (matching)
exploiter une variation naturelle (Diff-in-Diff)
utiliser une variable instrumentale
s’appuyer sur une discontinuité (RDD)

👉 L’idée centrale : on cherche une situation qui approxime une expérience randomisée.

⚠️ Hypothèses clés
#

Une identification strategy repose toujours sur des hypothèses fortes.

Ignorability (ou unconfoundedness)
#

À variables observées égales, le traitement est “comme aléatoire”

Autrement dit :

il n’y a pas de variable cachée qui influence à la fois :
- le traitement
- le résultat

👉 En pratique : rarement totalement vrai.

Common support (overlap)
#

On doit pouvoir comparer des observations similaires entre groupes

Exemple :

si tous les clients riches reçoivent une promo et aucun client pauvre → impossible de comparer

SUTVA (simplifié)
#

Pas d’interférence entre individus

Exemple :

une promo envoyée à un client n’influence pas les autres

👉 Message important : ces hypothèses ne sont jamais testables directement. On doit les argumenter, pas les prouver.

🧪 Robustesse
#

Comme on ne peut pas garantir les hypothèses, on doit tester la solidité des résultats.

Quelques réflexes :

varier les spécifications (features, modèles)
tester différents sous-groupes
utiliser des placebo tests (effet là où il ne devrait pas exister)
vérifier la stabilité dans le temps
comparer avec des méthodes alternatives

👉 Si ton résultat disparaît dès qu’on change un détail, il n’était pas solide.

🧠 Intuition globale
#

Travailler avec des données observationnelles, c’est :

moins “propre” que l’expérimental
plus dépendant du raisonnement que du modèle
plus fragile

Mais aussi :

beaucoup plus fréquent en pratique
souvent la seule option en business

👉 Le vrai travail n’est pas technique, il est conceptuel : comprendre comment les données ont été générées, et quelles hypothèses on accepte.

Auteur

Thibault CLEMENT - Intechnia

Data scientist

TimeSeries - Cet article fait partie d'une série.

Partie 1: Forecasting business

Partie 2: Impact et décisions

Partie 3: Allocation

Partie 4: Statistiques et probabilités

Partie 5: Modélisation

Partie 6: Modélisation DGP

Partie 7: Fondamentaux (stationnarité, autocorrélation, décomposition)

Partie 8: Modèles classiques (AR / MA / ARMA / ARIMA)

Partie 9: Feature engineering temporel (lags, rolling stats)

Partie 10: Validation et pièges (time-based CV, data leakage)

Partie 11: Avancé / Moderne (multivariate time series, hierarchical forecasting)

Partie 12: Probabilistic forecasting (quantiles, prédiction de distribution)

Partie 13: Modélisation DGP

Partie 14: Méthodes fondamentales - Causalité

Partie 15: Méthodes avancées - Causalité

Partie 16: Cet article

Partie 17: Interprétation business

Partie 19: Causalité longitudinale

🧭 Identification strategy #

⚠️ Hypothèses clés #

Ignorability (ou unconfoundedness) #

Common support (overlap) #

SUTVA (simplifié) #

🧪 Robustesse #

🧠 Intuition globale #