Aller au contenu

Données & reproductibilité

·1 min·
Git
Git - Cet article fait partie d'une série.
Partie 8: Cet article

Git sert à versionner le code, pas les données. Les fichiers lourds (bruts ou intermédiaires) changent souvent et font rapidement exploser la taille du dépôt. Ils doivent donc rester en dehors du versionnement.

Pour garantir la reproductibilité, il suffit de documenter comment régénérer ces données à partir du code :

make extract.freework   # génère le bronze
make dbt.build          # produit les tables silver

Ainsi, on peut reconstruire les mêmes jeux de données à partir du même code et des mêmes dépendances, sans stocker les fichiers eux-mêmes.

Si un suivi plus fin des datasets devient nécessaire, des outils comme DVC ou Git LFS peuvent ensuite être ajoutés.

Thibault CLEMENT - Intechnia
Auteur
Thibault CLEMENT - Intechnia
Data scientist
Git - Cet article fait partie d'une série.
Partie 8: Cet article