↓Aller au contenu

Statistiques et probabilités

5 avril 2026·2 mins·

Time Series Statistiques Probabilités

TimeSeries - Cet article fait partie d'une série.

Partie 1: Forecasting business

Partie 2: Impact et décisions

Partie 3: Allocation

Partie 4: Cet article

Partie 5: Modélisation

Partie 6: Modélisation DGP

Partie 7: Fondamentaux (stationnarité, autocorrélation, décomposition)

Partie 8: Modèles classiques (AR / MA / ARMA / ARIMA)

Partie 9: Feature engineering temporel (lags, rolling stats)

Partie 10: Validation et pièges (time-based CV, data leakage)

Partie 11: Avancé / Moderne (multivariate time series, hierarchical forecasting)

Partie 12: Probabilistic forecasting (quantiles, prédiction de distribution)

Partie 13: Modélisation DGP

Partie 14: Méthodes fondamentales - Causalité

Partie 15: Méthodes avancées - Causalité

On manipule des données incertaines. La statistique sert à résumer, estimer et prendre des décisions à partir de cette incertitude.

📊 Distribution, espérance, variance
#

Une variable aléatoire (Y) ne prend pas une seule valeur, mais suit une distribution.

La distribution décrit quelles valeurs sont possibles et avec quelle probabilité
L’espérance est la moyenne théorique :
→ ce qu’on attend “en moyenne” si on répète l’expérience
La variance mesure la dispersion :
→ à quel point les valeurs s’éloignent de la moyenne

👉 Intuition utile :

même espérance ≠ même risque
la variance est souvent plus importante que la moyenne en pratique

🎯 Estimation (MLE, MAP)
#

On n’observe jamais la “vraie” distribution → on l’estime à partir des données.

Maximum Likelihood (MLE)
#

On choisit les paramètres qui rendent les données observées les plus probables.

👉 Idée :

“Quels paramètres rendent ce que j’ai observé le moins surprenant possible ?”

Maximum A Posteriori (MAP)
#

Même logique, mais on ajoute une connaissance a priori.

👉 Différence clé :

MLE = uniquement les données
MAP = données + croyances initiales

👉 En pratique :

MLE = standard
MAP = utile quand peu de données ou besoin de régularisation

📏 Intervalles de confiance
#

Une estimation ponctuelle (ex : moyenne = 100) est trompeuse seule.

On préfère raisonner en intervalle de confiance :

“la vraie valeur a X% de chances d’être dans cet intervalle”

Exemple :

moyenne estimée = 100
IC 95% = [90 ; 110]

👉 Lecture correcte :

plus l’intervalle est large → plus l’incertitude est forte
dépend fortement de la taille d’échantillon

🧪 Tests statistiques (et leurs limites)
#

Un test statistique sert à prendre une décision sous incertitude.

On part d’une hypothèse nulle \(H_0\) :

“il n’y a pas d’effet”

On calcule une p-value :

probabilité d’observer les données si \(H_0\) est vraie

Si elle est faible → on rejette \(H_0\)

⚠️ Limites importantes
#

C’est là que beaucoup se trompent.

Une p-value ≠ probabilité que \(H_0\) soit vraie
“significatif” ≠ “important business”
dépend fortement de la taille d’échantillon
sensible aux hypothèses (normalité, indépendance…)

👉 En pratique :

toujours regarder les ordres de grandeur
compléter avec des intervalles de confiance
ne jamais prendre une décision uniquement sur une p-value

🧠 À retenir pour la suite
#

On ne connaît jamais la vérité → on approxime
Toute estimation a une incertitude
Les décisions reposent sur des hypothèses fortes
Mauvaise compréhension ici → erreurs massives en forecasting et causalité

Auteur

Thibault CLEMENT - Intechnia

Data scientist

TimeSeries - Cet article fait partie d'une série.

Partie 1: Forecasting business

Partie 2: Impact et décisions

Partie 3: Allocation

Partie 4: Cet article

Partie 5: Modélisation

Partie 6: Modélisation DGP

Partie 7: Fondamentaux (stationnarité, autocorrélation, décomposition)

Partie 8: Modèles classiques (AR / MA / ARMA / ARIMA)

Partie 9: Feature engineering temporel (lags, rolling stats)

Partie 10: Validation et pièges (time-based CV, data leakage)

Partie 11: Avancé / Moderne (multivariate time series, hierarchical forecasting)

Partie 12: Probabilistic forecasting (quantiles, prédiction de distribution)

Partie 13: Modélisation DGP

Partie 14: Méthodes fondamentales - Causalité

Partie 15: Méthodes avancées - Causalité