Il est important de bien documenter la provenance des données (l’origine et l’historique d’un jeu de données). Chaque utilisateur qui a modifié un jeu de données doit pouvoir être identifié. Il est responsable des traitements et des nettoyages des données qu’il a effectués. Pour un fichier Excel, il faut indiquer toutes les étapes de transformation des données. Les outils avancés de traitement des données (comme Open Refine, anciennement Google Refine) permettent, eux, d’exporter directement cet historique de traitement, avec le jeu de données lui-même. Tous les programmes informatiques, écrits spécifiquement pour traiter les données, devraient être fournis en même temps que les résultats qu’ils produisent. Le code source de ces programmes devrait être ouvert et partagé, par exemple sur Github.
Les outils pour documenter votre travail sur les données
Il y a de nombreux moyens de documenter les traitements que vous effectuez sur les données. Parfois, il suffit de rédiger une explication détaillée et de fournir une feuille de calcul pour chaque étape intermédiaire du traitement. Pour les projets plus élaborés, vous pouvez utiliser des outils dédiés – la plateforme Socrata permet par exemple de suivre et de partager facilement les traitements effectués sur des feuilles de calcul. Vous pouvez aussi utiliser Data Hub (image ci-dessous), une solution libre qui permet de diffuser plusieurs versions d’une même feuille de calcul en un seul jeu de données. (L’outil permet aussi de générer automatiquement une interface de programmation (API) sur laquelle vous pouvez connecter votre application.)
Si vous voulez être perfectionniste, vous pouvez aussi utiliser des solutions de contrôle de version. Elles permettent de noter chaque modification effectuée sur les jeux de données, mais aussi de revenir en arrière (restaurer la version précédente) en cas de besoin ou d’erreur. Pour en savoir plus sur les solutions de contrôle de version, vous pouvez consulter cette introduction proposée par Software Carpentry :
Quelques astuces pour documenter votre travail
- Créez un lien vers le jeu de données initial et mentionnez toujours la source des données que vous avez utilisées
- Indiquez clairement tous les traitements que vous avez effectués sur les données. Cela permettra de vérifier que vous n’avez pas fait d’erreurs ou de fausses manipulations. C’est aussi important pour vous que pour les autres utilisateurs !
Aidez-nous à améliorer la traduction de cet article sur GitHub !
Laisser un commentaire