Aller au contenu

Données observationnelles

·2 mins·
TimeSeries - Cet article fait partie d'une série.
Partie 16: Cet article

Dans beaucoup de cas, on ne peut pas faire d’expérimentation contrôlée (A/B test). On doit alors travailler avec des données observationnelles : on observe ce qui s’est passé, sans contrôle sur qui reçoit le “traitement”.

👉 Problème : le monde réel n’est pas randomisé.


🧭 Identification strategy
#

Avant même de parler de modèle, on doit répondre à une question clé :

Comment est-ce qu’on va isoler un effet causal crédible ?

C’est ce qu’on appelle une identification strategy.

On ne “laisse pas parler les données”. On fait des hypothèses sur le processus qui a généré les données.

Exemples :

  • comparer des groupes similaires (matching)
  • exploiter une variation naturelle (Diff-in-Diff)
  • utiliser une variable instrumentale
  • s’appuyer sur une discontinuité (RDD)

👉 L’idée centrale : on cherche une situation qui approxime une expérience randomisée.


⚠️ Hypothèses clés
#

Une identification strategy repose toujours sur des hypothèses fortes.

Ignorability (ou unconfoundedness)
#

À variables observées égales, le traitement est “comme aléatoire”

Autrement dit :

  • il n’y a pas de variable cachée qui influence à la fois :

    • le traitement
    • le résultat

👉 En pratique : rarement totalement vrai.


Common support (overlap)
#

On doit pouvoir comparer des observations similaires entre groupes

Exemple :

  • si tous les clients riches reçoivent une promo et aucun client pauvre → impossible de comparer

SUTVA (simplifié)
#

Pas d’interférence entre individus

Exemple :

  • une promo envoyée à un client n’influence pas les autres

👉 Message important : ces hypothèses ne sont jamais testables directement. On doit les argumenter, pas les prouver.


🧪 Robustesse
#

Comme on ne peut pas garantir les hypothèses, on doit tester la solidité des résultats.

Quelques réflexes :

  • varier les spécifications (features, modèles)
  • tester différents sous-groupes
  • utiliser des placebo tests (effet là où il ne devrait pas exister)
  • vérifier la stabilité dans le temps
  • comparer avec des méthodes alternatives

👉 Si ton résultat disparaît dès qu’on change un détail, il n’était pas solide.


🧠 Intuition globale
#

Travailler avec des données observationnelles, c’est :

  • moins “propre” que l’expérimental
  • plus dépendant du raisonnement que du modèle
  • plus fragile

Mais aussi :

  • beaucoup plus fréquent en pratique
  • souvent la seule option en business

👉 Le vrai travail n’est pas technique, il est conceptuel : comprendre comment les données ont été générées, et quelles hypothèses on accepte.

Thibault CLEMENT - Intechnia
Auteur
Thibault CLEMENT - Intechnia
Data scientist
TimeSeries - Cet article fait partie d'une série.
Partie 16: Cet article