Modélisation

TimeSeries - Cet article fait partie d'une série.

Partie 5: Cet article

Partie 6: Modélisation DGP

Partie 7: Fondamentaux (stationnarité, autocorrélation, décomposition)

Partie 8: Modèles classiques (AR / MA / ARMA / ARIMA)

Partie 9: Feature engineering temporel (lags, rolling stats)

Partie 10: Validation et pièges (time-based CV, data leakage)

Partie 11: Avancé / Moderne (multivariate time series, hierarchical forecasting)

Partie 12: Probabilistic forecasting (quantiles, prédiction de distribution)

Partie 13: Modélisation DGP

Partie 14: Méthodes fondamentales - Causalité

Partie 15: Méthodes avancées - Causalité

Quand on construit un modèle, on cherche un équilibre : bien apprendre sur le passé, tout en restant performant sur le futur.

Trois notions clés structurent ça.

⚖️ Biais / Variance
#

On peut voir un modèle comme une approximation de la réalité.

Biais élevé → modèle trop simple → il ne capture pas bien les patterns → underfitting
Variance élevée → modèle trop complexe → il s’adapte trop aux données d’entraînement → overfitting

👉 Le bon modèle est un compromis entre les deux.

Intuition rapide :

Trop simple → on rate de l’information
Trop complexe → on apprend du bruit

🧷 Régularisation
#

Pour éviter que le modèle devienne trop complexe, on ajoute une contrainte.

👉 On force le modèle à rester “raisonnable”.

Exemples :

pénaliser les coefficients trop grands (L1 / L2)
limiter la profondeur d’un arbre
réduire le nombre de variables

Effet :

↓ variance
↑ biais (légèrement)

Mais globalement : 👉 meilleure généralisation

🧪 Validation correcte
#

Un modèle ne se juge pas sur les données d’entraînement.

👉 Ce qui compte, c’est sa performance sur des données non vues.

En time series, c’est encore plus critique :

❌ On ne mélange pas les données (pas de shuffle)
❌ On ne regarde pas le futur
✅ On respecte l’ordre temporel

Méthodes classiques :

split train / test dans le temps
backtesting (rolling / expanding window)

Objectif : 👉 simuler les conditions réelles d’utilisation

🎯 À retenir
#

On cherche toujours un compromis biais / variance
La régularisation aide à éviter les modèles trop instables
La validation doit refléter la réalité (surtout en temporel)

Auteur

Thibault CLEMENT - Intechnia

Data scientist

TimeSeries - Cet article fait partie d'une série.

Partie 1: Forecasting business

Partie 2: Impact et décisions

Partie 3: Allocation

Partie 4: Statistiques et probabilités