Aller au contenu

Statistiques et probabilités

·2 mins·
Time Series Statistiques Probabilités
TimeSeries - Cet article fait partie d'une série.
Partie 4: Cet article

On manipule des données incertaines. La statistique sert à résumer, estimer et prendre des décisions à partir de cette incertitude.


📊 Distribution, espérance, variance
#

Une variable aléatoire (Y) ne prend pas une seule valeur, mais suit une distribution.

  • La distribution décrit quelles valeurs sont possibles et avec quelle probabilité

  • L’espérance est la moyenne théorique :

    → ce qu’on attend “en moyenne” si on répète l’expérience

  • La variance mesure la dispersion :

    → à quel point les valeurs s’éloignent de la moyenne

👉 Intuition utile :

  • même espérance ≠ même risque
  • la variance est souvent plus importante que la moyenne en pratique

🎯 Estimation (MLE, MAP)
#

On n’observe jamais la “vraie” distribution → on l’estime à partir des données.

Maximum Likelihood (MLE)
#

On choisit les paramètres qui rendent les données observées les plus probables.

👉 Idée :

“Quels paramètres rendent ce que j’ai observé le moins surprenant possible ?”

Maximum A Posteriori (MAP)
#

Même logique, mais on ajoute une connaissance a priori.

👉 Différence clé :

  • MLE = uniquement les données
  • MAP = données + croyances initiales

👉 En pratique :

  • MLE = standard
  • MAP = utile quand peu de données ou besoin de régularisation

📏 Intervalles de confiance
#

Une estimation ponctuelle (ex : moyenne = 100) est trompeuse seule.

On préfère raisonner en intervalle de confiance :

“la vraie valeur a X% de chances d’être dans cet intervalle”

Exemple :

  • moyenne estimée = 100
  • IC 95% = [90 ; 110]

👉 Lecture correcte :

  • plus l’intervalle est large → plus l’incertitude est forte
  • dépend fortement de la taille d’échantillon

🧪 Tests statistiques (et leurs limites)
#

Un test statistique sert à prendre une décision sous incertitude.

On part d’une hypothèse nulle \(H_0\) :

“il n’y a pas d’effet”

On calcule une p-value :

  • probabilité d’observer les données si \(H_0\) est vraie

Si elle est faible → on rejette \(H_0\)


⚠️ Limites importantes
#

C’est là que beaucoup se trompent.

  • Une p-value ≠ probabilité que \(H_0\) soit vraie
  • “significatif” ≠ “important business”
  • dépend fortement de la taille d’échantillon
  • sensible aux hypothèses (normalité, indépendance…)

👉 En pratique :

  • toujours regarder les ordres de grandeur
  • compléter avec des intervalles de confiance
  • ne jamais prendre une décision uniquement sur une p-value

🧠 À retenir pour la suite
#

  • On ne connaît jamais la vérité → on approxime
  • Toute estimation a une incertitude
  • Les décisions reposent sur des hypothèses fortes
  • Mauvaise compréhension ici → erreurs massives en forecasting et causalité
Thibault CLEMENT - Intechnia
Auteur
Thibault CLEMENT - Intechnia
Data scientist
TimeSeries - Cet article fait partie d'une série.
Partie 4: Cet article