Avancé / Moderne (multivariate time series, hierarchical forecasting)

TimeSeries - Cet article fait partie d'une série.

Partie 11: Cet article

Partie 12: Probabilistic forecasting (quantiles, prédiction de distribution)

Quand on sort des modèles classiques (ARIMA, etc.), on cherche surtout à gérer plus de complexité réelle : plusieurs séries, des structures hiérarchiques, ou des relations non linéaires.

Multivariate time series
#

Jusqu’ici, on a souvent une seule série (ex : ventes).

En pratique, les séries sont rarement isolées :

ventes + prix
ventes + marketing
trafic + météo

👉 On parle alors de séries temporelles multivariées.

L’idée :

modéliser plusieurs variables ensemble
capturer les relations entre elles dans le temps

Exemples :

VAR (Vector AutoRegression)
modèles ML avec variables exogènes

💡 Intuition : une variable seule est rarement suffisante pour expliquer le futur.

Hierarchical forecasting
#

Dans beaucoup de cas, les données sont structurées en hiérarchie :

total entreprise
- pays
  - région
    - magasin

Problème :

si on forecast chaque niveau séparément → incohérences
- ex : somme des régions ≠ total national

👉 Le hierarchical forecasting consiste à :

faire des prévisions cohérentes entre les niveaux
réconcilier les prédictions (top-down, bottom-up, middle-out)

💡 Très utilisé en retail, supply chain, finance.

Modèles Machine Learning (XGBoost, Random Forest…)
#

On peut reformuler le forecasting comme un problème de régression supervisée.

On crée des features :

lags (t-1, t-7…)
rolling mean
variables externes

Puis on applique :

XGBoost
LightGBM
Random Forest

Avantages :

capture des relations non linéaires
flexible
souvent très performant en pratique

Limites :

dépend fortement du feature engineering
ne “comprend” pas naturellement la structure temporelle

💡 En pratique, c’est souvent un excellent baseline (voire mieux que du deep learning).

Deep Learning (LSTM, TFT, N-BEATS…)
#

Ici, on laisse le modèle apprendre directement les patterns temporels.

Quelques approches :

LSTM / GRU → séquences temporelles
Temporal Fusion Transformer (TFT) → multi-séries + variables externes
N-BEATS → très performant sur forecasting pur

Avantages :

capture automatiquement :
- dépendances longues
- interactions complexes
moins de feature engineering manuel

Limites :

besoin de beaucoup de données
plus difficile à interpréter
plus coûteux à entraîner

💡 À utiliser quand :

beaucoup de données
problème complexe (multi-séries, signaux riches)

À retenir
#

On passe de modèles simples → à des modèles qui gèrent la complexité du réel
Le choix dépend surtout de :
- la quantité de données
- la structure du problème
- le besoin business (performance vs interprétabilité)

👉 En pratique :