On manipule des données incertaines. La statistique sert à résumer, estimer et prendre des décisions à partir de cette incertitude.
📊 Distribution, espérance, variance#
Une variable aléatoire (Y) ne prend pas une seule valeur, mais suit une distribution.
La distribution décrit quelles valeurs sont possibles et avec quelle probabilité
L’espérance est la moyenne théorique :
→ ce qu’on attend “en moyenne” si on répète l’expérience
La variance mesure la dispersion :
→ à quel point les valeurs s’éloignent de la moyenne
👉 Intuition utile :
- même espérance ≠ même risque
- la variance est souvent plus importante que la moyenne en pratique
🎯 Estimation (MLE, MAP)#
On n’observe jamais la “vraie” distribution → on l’estime à partir des données.
Maximum Likelihood (MLE)#
On choisit les paramètres qui rendent les données observées les plus probables.
👉 Idée :
“Quels paramètres rendent ce que j’ai observé le moins surprenant possible ?”
Maximum A Posteriori (MAP)#
Même logique, mais on ajoute une connaissance a priori.
👉 Différence clé :
- MLE = uniquement les données
- MAP = données + croyances initiales
👉 En pratique :
- MLE = standard
- MAP = utile quand peu de données ou besoin de régularisation
📏 Intervalles de confiance#
Une estimation ponctuelle (ex : moyenne = 100) est trompeuse seule.
On préfère raisonner en intervalle de confiance :
“la vraie valeur a X% de chances d’être dans cet intervalle”
Exemple :
- moyenne estimée = 100
- IC 95% = [90 ; 110]
👉 Lecture correcte :
- plus l’intervalle est large → plus l’incertitude est forte
- dépend fortement de la taille d’échantillon
🧪 Tests statistiques (et leurs limites)#
Un test statistique sert à prendre une décision sous incertitude.
On part d’une hypothèse nulle \(H_0\) :
“il n’y a pas d’effet”
On calcule une p-value :
- probabilité d’observer les données si \(H_0\) est vraie
Si elle est faible → on rejette \(H_0\)
⚠️ Limites importantes#
C’est là que beaucoup se trompent.
- Une p-value ≠ probabilité que \(H_0\) soit vraie
- “significatif” ≠ “important business”
- dépend fortement de la taille d’échantillon
- sensible aux hypothèses (normalité, indépendance…)
👉 En pratique :
- toujours regarder les ordres de grandeur
- compléter avec des intervalles de confiance
- ne jamais prendre une décision uniquement sur une p-value
🧠 À retenir pour la suite#
- On ne connaît jamais la vérité → on approxime
- Toute estimation a une incertitude
- Les décisions reposent sur des hypothèses fortes
- Mauvaise compréhension ici → erreurs massives en forecasting et causalité