Git sert à versionner le code, pas les données. Les fichiers lourds (bruts ou intermédiaires) changent souvent et font rapidement exploser la taille du dépôt. Ils doivent donc rester en dehors du versionnement.
Pour garantir la reproductibilité, il suffit de documenter comment régénérer ces données à partir du code :
make extract.freework # génère le bronze
make dbt.build # produit les tables silver
Ainsi, on peut reconstruire les mêmes jeux de données à partir du même code et des mêmes dépendances, sans stocker les fichiers eux-mêmes.
Si un suivi plus fin des datasets devient nécessaire, des outils comme DVC ou Git LFS peuvent ensuite être ajoutés.