Corrélation ≠ causalité#
On observe souvent que deux variables évoluent ensemble. Mais ça ne veut pas dire que l’une cause l’autre.
- corrélation = relation statistique
- causalité = relation de cause à effet
Exemples classiques :
- les ventes de glace et les noyades augmentent ensemble → variable cachée : la température
- une hausse du trafic est associée à une hausse des ventes → mais est-ce vraiment le trafic qui cause les ventes ?
👉 Le point clé : on cherche à comprendre ce qui se serait passé “si on n’avait rien fait” (contre-factuel).
DAGs (graphes causaux)#
Un DAG (Directed Acyclic Graph) est une représentation des relations causales entre variables.
- les nœuds = variables
- les flèches = relations causales (X → Y)
Exemple simple :
- Marketing → Ventes
- Saison → Marketing
- Saison → Ventes
👉 Les DAGs servent à :
- expliciter nos hypothèses (souvent implicites sinon)
- identifier les biais
- savoir quelles variables contrôler
Sans DAG, on raisonne souvent “à l’intuition” → et on se trompe facilement.
Variables confondantes#
Une variable confondante influence à la fois :
- la variable explicative (X)
- la variable cible (Y)
Exemple :
- Marketing → Ventes
- Saison → Marketing
- Saison → Ventes
Ici, la saison est une confondante.
👉 Problème : on peut attribuer à tort à X un effet qui vient en réalité de la confondante.
👉 Solution (en simplifiant) : contrôler ces variables (modélisation, stratification, matching…)
Biais de sélection#
Le biais de sélection apparaît quand les données observées ne sont pas représentatives.
Exemples :
- on analyse uniquement les clients exposés à une campagne
- on compare des groupes qui ne sont pas comparables dès le départ
👉 Résultat : on introduit des différences structurelles qui faussent les conclusions.
Cas typique :
- les “meilleurs clients” reçoivent plus souvent certaines offres
- on observe ensuite qu’ils achètent plus → mais ce n’est pas forcément l’effet de l’offre
Intuition globale#
On peut résumer l’objectif de la causalité comme :
isoler l’effet propre d’une variable en éliminant les explications alternatives
Et concrètement, ça revient toujours à se poser ces questions :
- qu’est-ce qui influence à la fois X et Y ?
- est-ce que mes groupes sont comparables ?
- qu’est-ce que je ne vois pas dans mes données ?