Aller au contenu

Modélisation

·2 mins·
Time Series Modélisation
TimeSeries - Cet article fait partie d'une série.
Partie 5: Cet article

Quand on construit un modèle, on cherche un équilibre : bien apprendre sur le passé, tout en restant performant sur le futur.

Trois notions clés structurent ça.


⚖️ Biais / Variance
#

On peut voir un modèle comme une approximation de la réalité.

  • Biais élevé → modèle trop simple → il ne capture pas bien les patterns → underfitting

  • Variance élevée → modèle trop complexe → il s’adapte trop aux données d’entraînement → overfitting

👉 Le bon modèle est un compromis entre les deux.

Intuition rapide :

  • Trop simple → on rate de l’information
  • Trop complexe → on apprend du bruit

🧷 Régularisation
#

Pour éviter que le modèle devienne trop complexe, on ajoute une contrainte.

👉 On force le modèle à rester “raisonnable”.

Exemples :

  • pénaliser les coefficients trop grands (L1 / L2)
  • limiter la profondeur d’un arbre
  • réduire le nombre de variables

Effet :

  • ↓ variance
  • ↑ biais (légèrement)

Mais globalement : 👉 meilleure généralisation


🧪 Validation correcte
#

Un modèle ne se juge pas sur les données d’entraînement.

👉 Ce qui compte, c’est sa performance sur des données non vues.

En time series, c’est encore plus critique :

  • ❌ On ne mélange pas les données (pas de shuffle)
  • ❌ On ne regarde pas le futur
  • ✅ On respecte l’ordre temporel

Méthodes classiques :

  • split train / test dans le temps
  • backtesting (rolling / expanding window)

Objectif : 👉 simuler les conditions réelles d’utilisation


🎯 À retenir
#

  • On cherche toujours un compromis biais / variance
  • La régularisation aide à éviter les modèles trop instables
  • La validation doit refléter la réalité (surtout en temporel)
Thibault CLEMENT - Intechnia
Auteur
Thibault CLEMENT - Intechnia
Data scientist
TimeSeries - Cet article fait partie d'une série.
Partie 5: Cet article