Aller au contenu

Modélisation DGP

·2 mins·
Time Series Causalité
TimeSeries - Cet article fait partie d'une série.
Partie 13: Cet article

Corrélation ≠ causalité
#

On observe souvent que deux variables évoluent ensemble. Mais ça ne veut pas dire que l’une cause l’autre.

  • corrélation = relation statistique
  • causalité = relation de cause à effet

Exemples classiques :

  • les ventes de glace et les noyades augmentent ensemble → variable cachée : la température
  • une hausse du trafic est associée à une hausse des ventes → mais est-ce vraiment le trafic qui cause les ventes ?

👉 Le point clé : on cherche à comprendre ce qui se serait passé “si on n’avait rien fait” (contre-factuel).


DAGs (graphes causaux)
#

Un DAG (Directed Acyclic Graph) est une représentation des relations causales entre variables.

  • les nœuds = variables
  • les flèches = relations causales (X → Y)

Exemple simple :

  • Marketing → Ventes
  • Saison → Marketing
  • Saison → Ventes

👉 Les DAGs servent à :

  • expliciter nos hypothèses (souvent implicites sinon)
  • identifier les biais
  • savoir quelles variables contrôler

Sans DAG, on raisonne souvent “à l’intuition” → et on se trompe facilement.


Variables confondantes
#

Une variable confondante influence à la fois :

  • la variable explicative (X)
  • la variable cible (Y)

Exemple :

  • Marketing → Ventes
  • Saison → Marketing
  • Saison → Ventes

Ici, la saison est une confondante.

👉 Problème : on peut attribuer à tort à X un effet qui vient en réalité de la confondante.

👉 Solution (en simplifiant) : contrôler ces variables (modélisation, stratification, matching…)


Biais de sélection
#

Le biais de sélection apparaît quand les données observées ne sont pas représentatives.

Exemples :

  • on analyse uniquement les clients exposés à une campagne
  • on compare des groupes qui ne sont pas comparables dès le départ

👉 Résultat : on introduit des différences structurelles qui faussent les conclusions.

Cas typique :

  • les “meilleurs clients” reçoivent plus souvent certaines offres
  • on observe ensuite qu’ils achètent plus → mais ce n’est pas forcément l’effet de l’offre

Intuition globale
#

On peut résumer l’objectif de la causalité comme :

isoler l’effet propre d’une variable en éliminant les explications alternatives

Et concrètement, ça revient toujours à se poser ces questions :

  • qu’est-ce qui influence à la fois X et Y ?
  • est-ce que mes groupes sont comparables ?
  • qu’est-ce que je ne vois pas dans mes données ?
Thibault CLEMENT - Intechnia
Auteur
Thibault CLEMENT - Intechnia
Data scientist
TimeSeries - Cet article fait partie d'une série.
Partie 13: Cet article