Quand on construit un modèle, on cherche un équilibre : bien apprendre sur le passé, tout en restant performant sur le futur.
Trois notions clés structurent ça.
⚖️ Biais / Variance#
On peut voir un modèle comme une approximation de la réalité.
Biais élevé → modèle trop simple → il ne capture pas bien les patterns → underfitting
Variance élevée → modèle trop complexe → il s’adapte trop aux données d’entraînement → overfitting
👉 Le bon modèle est un compromis entre les deux.
Intuition rapide :
- Trop simple → on rate de l’information
- Trop complexe → on apprend du bruit
🧷 Régularisation#
Pour éviter que le modèle devienne trop complexe, on ajoute une contrainte.
👉 On force le modèle à rester “raisonnable”.
Exemples :
- pénaliser les coefficients trop grands (L1 / L2)
- limiter la profondeur d’un arbre
- réduire le nombre de variables
Effet :
- ↓ variance
- ↑ biais (légèrement)
Mais globalement : 👉 meilleure généralisation
🧪 Validation correcte#
Un modèle ne se juge pas sur les données d’entraînement.
👉 Ce qui compte, c’est sa performance sur des données non vues.
En time series, c’est encore plus critique :
- ❌ On ne mélange pas les données (pas de shuffle)
- ❌ On ne regarde pas le futur
- ✅ On respecte l’ordre temporel
Méthodes classiques :
- split train / test dans le temps
- backtesting (rolling / expanding window)
Objectif : 👉 simuler les conditions réelles d’utilisation
🎯 À retenir#
- On cherche toujours un compromis biais / variance
- La régularisation aide à éviter les modèles trop instables
- La validation doit refléter la réalité (surtout en temporel)