Données & reproductibilité

Git - Cet article fait partie d'une série.

Partie 8: Cet article

Git sert à versionner le code, pas les données. Les fichiers lourds (bruts ou intermédiaires) changent souvent et font rapidement exploser la taille du dépôt. Ils doivent donc rester en dehors du versionnement.

Pour garantir la reproductibilité, il suffit de documenter comment régénérer ces données à partir du code :

make extract.freework   # génère le bronze
make dbt.build          # produit les tables silver

Ainsi, on peut reconstruire les mêmes jeux de données à partir du même code et des mêmes dépendances, sans stocker les fichiers eux-mêmes.

Si un suivi plus fin des datasets devient nécessaire, des outils comme DVC ou Git LFS peuvent ensuite être ajoutés.

Auteur

Thibault CLEMENT - Intechnia

Data scientist

Git - Cet article fait partie d'une série.

Partie : Divers

Partie 1: Initialiser proprement un dépôt Git

Partie 2: Versionner / ignorer

Partie 3: Branches

Partie 4: Pull Requests

Partie 5: Commits

Partie 6: Hooks & qualité

Partie 7: Tags & changelog

Partie 8: Cet article

Partie 9: Récap

Partie 10: Astuces utiles