En séries temporelles, la performance d’un modèle repose souvent moins sur le modèle lui-même que sur la façon dont on représente le temps.
Contrairement aux données tabulaires classiques, l’information utile est dans la structure temporelle. On va donc la transformer en variables exploitables.
1. Lags (retards)#
On utilise les valeurs passées pour prédire le futur.
\[ ( y_{t-1}, y_{t-2}, y_{t-7}, \dots ) \]
👉 Intuition : le passé contient de l’information sur le futur (inertie, dépendance temporelle).
👉 Exemples :
- ventes hier → ventes aujourd’hui
- ventes semaine dernière → effet hebdomadaire
👉 Points d’attention :
- choisir des lags pertinents (journaliers, hebdo, saisonniers)
- trop de lags = bruit + surapprentissage
2. Rolling statistics (fenĂŞtres glissantes)#
On résume le passé récent avec des agrégations.
- moyenne mobile
- écart-type
- min / max
- somme
👉 Exemple :
- moyenne des 7 derniers jours
- volatilité des 30 derniers jours
👉 Intuition : on capture la tendance locale et la variabilité.
👉 Attention :
- bien décaler la fenêtre (pas de fuite de données)
- choisir la bonne taille de fenĂŞtre
3. Variables calendaires#
On encode la position dans le temps.
- jour de la semaine
- mois
- trimestre
- week-end vs semaine
- jours fériés
👉 Intuition : le temps a une structure cyclique.
👉 Exemples :
- plus de ventes le samedi
- effet de Noël
- saisonnalité estivale
👉 Bonnes pratiques :
- encoder en variables catégorielles ou cycliques (sin/cos)
- attention aux effets culturels / pays
4. Variables exogènes (événements externes)#
On ajoute des variables qui influencent la série mais ne sont pas issues d’elle.
- promotions
- prix
- météo
- campagnes marketing
- événements exceptionnels
👉 Intuition : tout ne vient pas du passé de la série.
👉 Exemples :
- promo → pic de ventes
- météo → impact sur la demande
👉 Point clé : c’est souvent là que se trouve la vraie valeur business.
🧠À retenir#
Les modèles de time series “apprennent” surtout à partir des features qu’on leur donne
Le feature engineering revient Ă reconstruire explicitement la structure temporelle
Trois sources principales d’information :
- le passé (lags)
- le contexte récent (rolling stats)
- le calendrier et l’extérieur (calendaires + exogènes)