Introduction
Maintenant que vous savez ce que sont les données et que vous avez défini les questions auxquelles vous voulez répondre, vous êtes prêt pour une chasse aux données en ligne. Dans ce tutoriel, vous allez apprendre à vous lancer dans une recherche des données en ligne et découvrir différents façons de récupérer ces données !
Les sources des données
Il existe principalement trois moyens de se procurer des données :
- Trouver des données déjà disponibles, celles qui sont en ligne,
- Réclamer des données auprès des sources officielles, par exemple en application des lois sur le droit d’accès et de réutilisation des données publiques (loi CADA de 1978 en France). Parfois une donnée est publiée en ligne mais n’est pas directement téléchargeable, ne vous découragez pas pour autant. Cette donnée peut être récupérée par les méthodes dites de « scraping ».
- Collecter vous même les données et les intégrer dans une base de données ou des feuilles de calcul, vous pouvez mener ce genre de projet tout seul ou à plusieurs, de manière collaborative.
Dans ce tutoriel, nous nous concentrons sur les données qui sont déjà disponibles en ligne. D’autres modules de l’École des Données abordent les autres moyens évoqués ici (réclamer des données, faire sa propre collecte).
Etape 1 : Identifier les sources de données
De nombreuses sources publient régulièrement des données que vous pourrez réutiliser. Quelques exemples:
- L’État et les collectivités. Depuis quelques années, les acteurs publics ont commencé à ouvrir une partie de leur données. Ils ont parfois créé des portails dédiés pour mettre à disposition les données publiques ouvertes. Par exemple, le gouvernement français publie des données sur le portail data.gouv.fr. Des portails de ce type existent au Royaume-Uni, aux Etats-Unis mais aussi au Kenya ou au Brésil. Votre pays possède peut-être son propre portail Open Data ? (le site Datacatalogs.org peut-être un bonne ressource pour le découvrir).
- Les organisations internationales. Elles constituent souvent des sources de données intéressantes. La Banque mondiale ou l’Organisation mondiale de la santé (OMS) publient régulièrement des rapports d’études et des jeux de données.
- Les sources scientifiques. Les institutions de recherche publient des données à destination de leurs communautés scientifiques et du grand public. La NASA, l’agence spatiale américaine, publie de nombreuses données ouvertes ; il existe aussi, pour de nombreuses disciplines scientifiques, des répertoires spécialisés de données, parfois librement réutilisables.
De plus en plus de projets (par exemple Dryad) ont pour objectif de faciliter l’accès aux données déjà publiées. L’annuaire des répertoires de données scientifiques Open Access Directory, le site datahub.io (Open Knowledge Foundation) ou, en France, le site Nosdonnees.fr (maintenu par Regards Citoyens et l’Open Knowledge Foundation France) ont, eux aussi, été conçus pour vous aider à trouver les données. Ils recensent les sources de données, ou parfois les jeux de données eux-mêmes. L’École des Données liste aussi les sources de données pertinentes, vous pouvez y contribuer !
Etape 2: Récupérer des données dans le format dont vous avez besoin
Dans le premier module « Qu’est-ce qu’une donnée ? » nous avons déjà dit quelques mots sur l’importance d’avoir des données que l’on puisse lire avec des ordinateurs (machine-readable data). Vous vous éviterez beaucoup de problèmes et de temps perdu en récupérant des données qui sont déjà dans le bon format.
Utiliser des données pour répondre à votre question
Maintenant que vous avez une première vue d’ensemble de la donnée, il est temps de commencer à en chercher vous-même ! Dans les différents modules de cette série sur les Fondamentaux de la Donnée, nous allons repartir de la question initiale : est-ce que le montant des dépenses de santé a un lien avec l’espérance de vie dans un pays ? Pour récupérer les données nécessaires, vous pouvez consulter la recette « Utiliser les données de la Banque Mondiale » (en anglais sur le site School of Data).
Tâche: Vous avez trouvé d’autres jeux de données pour répondre à cette question ? Bravo ! Prenez un moment pour le référencer sur le site DataHub ou sur NosDonnées. Vous pouvez aussi consulter les découvertes des autres participants à l’Ecole des Données.
Résumé
Dans ce tutoriel, nous avons vu comment trouver des données pour répondre à notre question. Nous avons exploré les différents moyens pour récupérer des données, et avons listé un ensemble de ressources pointant vers des portails de données et des moteurs de recherche.
Au début de la section « Les Fondamentaux de la donnée », nous nous sommes posés une question: « Est-ce que le montant des dépenses de santé influe sur l’espérance de vie ? ». En suivant notre recette, nous avons identifié un jeu de données de la Banque Mondiale pour nous aider à répondre à la question.
Lectures complémentaires
- Lectures complémentaires Recette: « Comment récupérer des données sur le portail de la Banque Mondiale » recette » (en anglais sur le site School of Data).
- La vidéo (en anglais) « Comment partager des données sur le site datahub.io » : http://vimeo.com/45913395
- Le guide du datajournalisme, dans sa section « Guide de référence rapide« , recense un ensemble de trucs et astuces très utiles pour trouver des données
Article d’origine : https://schoolofdata.org/handbook/courses/finding-data/
Aidez-nous à améliorer la traduction de cet article sur GitHub !
Laisser un commentaire