Avant de choisir un modèle, on se pose une question simple :
👉 comment ces données sont-elles générées ?
On ne modélise pas juste une série, on essaie d’approcher le processus qui la produit (Data Generating Process).
🧠 Comment les données sont générées dans le temps#
Une série temporelle n’est pas une suite de points indépendants.
👉 Chaque observation dépend du passé.
Exemples :
- ventes aujourd’hui → influencées par hier, la semaine dernière…
- trafic web → dépend des habitudes utilisateurs
- consommation → dépend de la météo, du calendrier
On cherche donc à comprendre :
- ce qui évolue dans le temps
- ce qui est stable
- ce qui est aléatoire
🔗 Dépendances temporelles#
Le cœur des time series, c’est la dépendance.
Types classiques :
- autocorrélation → le passé influence le futur
- saisonnalité → patterns qui se répètent
- tendance → évolution de long terme
👉 Ignorer ces dépendances = mauvais modèle (même avec du ML sophistiqué)
⚙️ Mécanismes sous-jacents#
Derrière les données, il y a toujours un système réel :
- business → prix, promos, stock, marketing
- physique → météo, énergie, capteurs
- humain → comportements, cycles, décisions
👉 Le modèle doit être cohérent avec ces mécanismes.
Exemple :
- pic de ventes → promo ? saison ? bug data ?
- chute brutale → rupture de stock ou changement de tracking ?
🔍 Signal vs bruit#
Toutes les variations ne sont pas informatives.
- signal → structure utile à prédire
- bruit → fluctuations aléatoires
Problème classique : 👉 confondre le bruit avec du signal → overfitting
Objectif : 👉 capturer le signal, ignorer le bruit
🧱 Structure vs artefacts#
Certaines patterns ne viennent pas du “monde réel”, mais des données elles-mêmes.
Exemples :
- changement de tracking
- données manquantes
- effet de bord (fin de mois, batch)
- corrections manuelles
👉 Ce sont des artefacts, pas du signal.
Danger : 👉 le modèle les apprend… et se plante ensuite
🎯 À retenir#
On ne modélise pas juste une série, mais un processus
Les dépendances temporelles sont centrales
Toujours relier les données à un mécanisme réel
Faire la différence entre :
- signal vs bruit
- structure réelle vs artefacts data