Aller au contenu

Modélisation DGP

·2 mins·
Time Series Modélisation DGP
TimeSeries - Cet article fait partie d'une série.
Partie 6: Cet article

Avant de choisir un modèle, on se pose une question simple :

👉 comment ces données sont-elles générées ?

On ne modélise pas juste une série, on essaie d’approcher le processus qui la produit (Data Generating Process).


🧠 Comment les données sont générées dans le temps
#

Une série temporelle n’est pas une suite de points indépendants.

👉 Chaque observation dépend du passé.

Exemples :

  • ventes aujourd’hui → influencées par hier, la semaine dernière…
  • trafic web → dépend des habitudes utilisateurs
  • consommation → dépend de la météo, du calendrier

On cherche donc à comprendre :

  • ce qui évolue dans le temps
  • ce qui est stable
  • ce qui est aléatoire

🔗 Dépendances temporelles
#

Le cœur des time series, c’est la dépendance.

Types classiques :

  • autocorrélation → le passé influence le futur
  • saisonnalité → patterns qui se répètent
  • tendance → évolution de long terme

👉 Ignorer ces dépendances = mauvais modèle (même avec du ML sophistiqué)


⚙️ Mécanismes sous-jacents
#

Derrière les données, il y a toujours un système réel :

  • business → prix, promos, stock, marketing
  • physique → météo, énergie, capteurs
  • humain → comportements, cycles, décisions

👉 Le modèle doit être cohérent avec ces mécanismes.

Exemple :

  • pic de ventes → promo ? saison ? bug data ?
  • chute brutale → rupture de stock ou changement de tracking ?

🔍 Signal vs bruit
#

Toutes les variations ne sont pas informatives.

  • signal → structure utile à prédire
  • bruit → fluctuations aléatoires

Problème classique : 👉 confondre le bruit avec du signal → overfitting

Objectif : 👉 capturer le signal, ignorer le bruit


🧱 Structure vs artefacts
#

Certaines patterns ne viennent pas du “monde réel”, mais des données elles-mêmes.

Exemples :

  • changement de tracking
  • données manquantes
  • effet de bord (fin de mois, batch)
  • corrections manuelles

👉 Ce sont des artefacts, pas du signal.

Danger : 👉 le modèle les apprend… et se plante ensuite


🎯 À retenir
#

  • On ne modélise pas juste une série, mais un processus

  • Les dépendances temporelles sont centrales

  • Toujours relier les données à un mécanisme réel

  • Faire la différence entre :

    • signal vs bruit
    • structure réelle vs artefacts data
Thibault CLEMENT - Intechnia
Auteur
Thibault CLEMENT - Intechnia
Data scientist
TimeSeries - Cet article fait partie d'une série.
Partie 6: Cet article