Ecole des Données http://ecoledesdonnees.org Tue, 21 Mar 2017 21:31:06 +0000 fr-FR hourly 1 https://wordpress.org/?v=5.3.2 114974250 Le Fellowship 2017 de School of Data recrute: Haïti, Sénégal, Côte d’Ivoire http://ecoledesdonnees.org/2017/03/21/le-fellowship-2017-de-school-of-data-recrute-haiti-senegal-cote-divoire/ http://ecoledesdonnees.org/2017/03/21/le-fellowship-2017-de-school-of-data-recrute-haiti-senegal-cote-divoire/#respond Tue, 21 Mar 2017 21:31:06 +0000 http://ecoledesdonnees.org/?p=6466

School of Data invite journalistes, associations de la société civiles – et quiconque intéressé par la promotion de la littératie de données – à candidater à son programme de Fellowship. Les candidatures pour ce programmes, qui durent d’avril à mai 2017, fermeront Dimanche 2 avril 2017. Pour le Fellowship francophones, School of Data recherche des candidats dans trois pays:

  • Sénégal

  • Côte d’Ivoire

  • Haïti

Candidater pour Fellowship

Note: si vous venez d’un autre pays, veuillez vous référer à l’annonce principale, en anglais

Le Fellowship

Les Fellowships sont des placements de 9 mois au sein du réseau School of Data pour des individus pratiquant ou passionnés par la littératie de données. Au cours de cette période, les Fellows travaillent aux côtés de l’équipe de coordination et du réseau de School of Data : vous apprendrez beaucoup de nous, et inversement ! Nous travaillerons ensemble pour construire un programme individuel pour votre Fellowship. Avec pour but d’acquérir les compétences vous permettant de progresser sur votre travail de littératie de donnée: pour former les autres, développer un réseau, organiser des événements.

A l’image des années précédentes, l’objectif du programme de Fellowship est de faire la promotion de la littératie de données et de construire des communautés qui, ensemble, pourront utiliser leurs compétences liées aux données pour créer le changement qu’elles veulent voir dans le monde.

Le Fellowship 2017 poursuit l’approche thématique entamée par notre processus de recrutement de 2016. Ainsi, nous prioriserons les candidats qui:

  • font preuve d’une expérience et d’un enthousiasme envers une thématique spécifique de la littératie de données.

  • peuvent justifier de liens avec une organisation ou une communauté d’individus qui travaillent sur cette thématique

Nous recherchons des candidats qui ont une connaissance approfondie des domaines qui nous intéressent et qui ont entamé une réflexion sur les enjeux de littératie de données de ces domaines. Le but étant de pouvoir rentrer dans le vif du sujet le plus vite possible: 9 mois passent vite !

Pour en lire plus sur le programme de Fellowship (en anglais)

Le thèmes prioritaires de 2017

Nous collaborons cette année avec des organisations intéressés par les thèmes suivants:

  • données des industries extractives

  • fondamentaux de la littératie de données

Programme Thématique Pays
Fellowship Données de l’industri extractive Sénégal, Côte d’Ivoire
Fellowship Fondamentaux de la littératie de données Haïti

9 mois pour laisser un impact

Le programme se déroule d’avril à décembre 2017, et requiert 10 jours par mois de disponibilité. Les Fellows reçoivent un défraiement de 1,000 US$ par mois pour leur permettre de travailler dans des conditions optimales.

En mai, les Fellows rejoindront le reste de la communauté dans le cadre du Camp d’Ete de School of Data (pays à confirmer). Ce sera l’occasion de rencontrer les autres Fellows et membres du réseau, de planifier votre Fellowship et d’apprendre des autres participants sur les bonnes pratiques utilisées au sein du réseau School of Data.

Qu’attendez-vous ?

En savoir plus sur le programme de Fellowship (en anglais) or Candidater

Informations clé: le Fellowship

  • Date limite de candidature : 2 avril 2017, minuit GMT+0

  • Durée : d’avril 15 2017 au 31 décembre 2017

  • Disponibilité requise : 10 jours par mois

  • Défraiement : 1000 US$ par mois

Diversité et inclusivité

Nous nous engageons à être inclusifs dans notre processus de recrutement. Être inclusif signifie de n’exclure personne pour des questions d’origine ethnique, de religion, d’apparence, d’orientation sexuelle, ou de genre. Nous cherchons activement à recruiter des individus qui diffèrent les uns des autres sur ces caractéristiques, car nous sommes convaincus que la diversité est une richesse pour notre travail.

Flattr this!

]]>
http://ecoledesdonnees.org/2017/03/21/le-fellowship-2017-de-school-of-data-recrute-haiti-senegal-cote-divoire/feed/ 0 6466
Dissection d’une expédition de donnée : les magazines de jeu vidéo http://ecoledesdonnees.org/2015/05/18/dissection-dune-expedition-de-donnee-les-magazines-de-jeu-video/ http://ecoledesdonnees.org/2015/05/18/dissection-dune-expedition-de-donnee-les-magazines-de-jeu-video/#respond Mon, 18 May 2015 10:58:29 +0000 https://france-schoolofdata.scoda.okfn.org/?p=6342 Introduction

Cet article est à la fois un tutoriel et une démonstration du processus que je suis pour réaliser une « expédition de donnée » seul, où en tant que participant durant un événement de l’École des données. Chaque étape va être détaillée : Trouver, Récupérer, Vérifier, Nettoyer, Explorer, Analyser, Visualiser, Publier.

En fonction de vos données, de votre source ou de vos outils, l’ordre dans lequel vous passerez ces étapes sera différent. Mais le processus est globalement le même.

TROUVER

Une expédition de données peut partir d’une question (i.e. quel est le niveau de pollution de l’air des capitales européennes ?) ou d’un jeu de données que vous voulez explorer. Dans le cas qui nous intéresse, j’avais une question : les marché des magazines de jeux vidéos a-t-il décliné ces dernières années ? Cela fait plusieurs semaine que j’étudie l’industrie du jeu vidéo et c’est une des nombreuses questions auxquelles j’ai cherché des réponses.

Evidemment, il y a d’autres questions intéressantes à explorer, mais il vaut mieux commencer avec une seule question et étendre le champ de recherche par la suite.

Après quelques recherches, la page Wikipedia anglophone s’est avérée être la source la plus complète sur les magazines de jeux vidéos. On y trouve même des informations contextuelles qui seront utiles plus tard (le contexte est essentiel dans l’analyse de données).

image alt text

https://en.wikipedia.org/wiki/List_of_video_game_magazines

RECUPERER

Les données Wikipedia sont sous forme de tableau. Parfait ! Les scraper est aussi simple que d’utiliser la fonction importHTML dans Google Spreadsheet. Je pourrais copier/coller le tableau, mais ça devient peu pratique lorsque le tableau est très long et le résultat serait mal formatté. LibreOffice et Excel ont des fonctionnalités d’import similaires, bien que moins intuitives.

importHTML requière 3 variables : le lien vers la page, le format des données (tableau ou liste) et le range du tableau (ou de la liste) dans la page. Si aucun rang n’est indiqué, la fonction récupérera le premier tableau qu’elle trouve.

image alt text

Une fois que j’ai récupéré le tableau, je fais deux choses pour travailler plus rapidement :

  • je change la police et la taille des cellules au minimum, pour voir plus d’éléments à la fois,

  • je copie l’ensemble et je fais : Edition->Collage spécial->Coller uniquement les valeurs. De cette façon, le tableau n’est plus lié à importHTML, et je peux le modifier à souhait.

VERIFIER

Ces données vont-elles répondre complèyement à ma question ? J’ai bien les données de base (nom, date de création, date de dépôt de bilan), mais est-ce que tous les magazines y sont ? Une vérification du côté de la page wikipedia francophone sur les magazines de jeux vidéos montre que beaucoup de magazines français manquent à l’appel. La plupart des magazines présents sont des Etats-Unis ou de Grande Bretagne, et sans aucun doute uniquement les plus connus. Je devrai donc prendre cela en compte pour la suite.

NETTOYER

Travailler directement sur vos données brutes n’est jamais une bonne idée. Une bonne habitude est de travailler sur une copie ou de façon non-destructive – ainsi, si vous faites une erreur et que vous n’êtes pas certain de vous, vous pourrez retourner en arrière et comparer votre fichier à l’original.

Puisque je ne veux garder que les magazines de Grande Bretagne et des Etats Unis, je vais :

  • Renommer la feuille de calcul originale « Raw Data » (c’est à dire « Données brutes »)

  • Faire une copie de cette feuille et l’appeler « Clean Data » (c’est à dire « Données nettoyées »)

  • Trier par ordre alphabétique la feuille « Clean Data » selon la colonne « Country»

  • Supprimer toutes les lignes correspondant aux pays autres que la Grande Bretagne et les Etats-Unis.

image alt text image alt text

Astuce : pour éviter de faire bouger les en-têtes de colonnes quand vous triez vos données, aller à Affichage->Figer une ligne.

D’autres ajustements mineurs doivent être réalisés, mais ils sont assez légers pour que j’ai pas recours à une outil spécialisé comme Open Refine :

  • Scinder les lignes où deux pays sont listés (i.e. PC Gamer devient PC Gamer UK et PC Gamer US)

  • Supprimer la colonne « ref », qui n’ajoute aucune information

  • Supprimer une ligne où la date de création est manquante.

EXPLORER

J’appelle « exploration » l’étape à laquelle je pense aux différentes réponses que mon jeu de données nettoyé peut donner à ma question initiale. Votre narration sera beaucoup plus riche si vous attaquez la question de plusieurs angles.

Il y a plusieurs choses que je pourrais chercher dans les données :

  • des particularités intéressantes

  • des changements au cours du temps

  • des expériences personnelles

  • des interactions surprenantes

  • des comparaisons qui permettent de contextualiser

Que puis-je donc faire ? Je peux :

  • afficher le nombre de magazines en existence chaque année, ce qui me permettra de savoir si il y a eu un déclin ou non (changements au cours du temps)

  • regarder le nombre de magazines créés par année, pour savoir si le marché est toujours dynamique (changements au cours du temps)

Dans le cadre de ce tutoriel, je vais me concentrer sur la seconde question, c’est à dire le nombre de magazines créés par année. Un autre tutoriel sera dédié à la première, car elle demande une approche plus complexe en raison du format des données.

A ce stade, j’ai plein d’autres idées en tête : Est-ce que je peux déteminer l’année ayant produit le plus de magazines (particularités intéressantes) ? Est-ce que la comparaison avec les données sur les sites de jeu vidéo serait intéressante (comparaisons qui permettent de contextualiser) ? Quels magazines ont la plus grand longévité (particularité intéressante) ? Toutes ces questions valent le coup d’être explorées, mais elle ne le seront pas dans le cadre de ce tutoriel. Il vaut mieux à ce stade les noter afin de les revisiter plus tard : traiter les questions une à une permet d’éviter les erreurs.

ANALYSE

Il s’agit ici d’appliquer les techniques d’analyse de données à mon jeu de données et d’explorer les visualisations possibles.

La façon la plus rapide de répondre à la question « combien de magazines ont été créés chaque année ? » est d’utiliser un tableau croisé dynamique.

  1. Sélectionnez la portion des données qui répondent à la question (les colonnes « name » et « founded »)

  2. Aller à Données -> Tableau croisé dynamique

  3. Dans la feuille de calcul créée, sélectionnez le champ « Founded » dans le menu déroulant de Lignes. Les années de création (founded) sont ordonnées et groupées, ce qui nous permet de compter le nombre de magazines pour chaque année, en commençant par la plus éloignée.

  4. Je sélectionne ensuite le champ « Name » dans le menu déroulant de Valeurs. Le tableau croisé dynamique s’attend à des nombres par défaut (il essaye de réaliser une addition), donc rien ne s’affiche. Il faut sélectionner COUNTA, qui est la formule qui va compter le nombre d’éléments.

image alt text

Ces données peuvent être visualisées avec un graphique de en barres.

image alt text

source: https://en.wikipedia.org/wiki/List_of_video_game_magazines

La ligne de tendance semble indiquer une déclin dans la dynamique du marché, mais il est difficile de déceler la tendance avec les barres seules. Si on groupe les années par demi-décades, la tendance est plus claire :

image alt text

Notre nouveau graphique en barre ressemble donc à ça :

image alt text

https://en.wikipedia.org/wiki/List_of_video_game_magazines

Le nombre de magazines créée chaque 5 ans décroit beaucoup dans le années aux alentour de 2000. La baisse dramatique des années 1986-1990 est certainement une conséquence du krash du jeu vidéo de 1983.

Contrairement à ce que l’on aurait pu supposer, le marché est toujours dynamique, avec un magazine créé chaque année les 5 dernières années. L’histoire que l’on va pouvoir raconter n’en sera que plus nuancée et intéressante.

VISUALISER

Dans le cadre de ce tutoriel, les graphiques créées durant l’étape d’analyse suffisent à ma narration. Mais dans l’hypothèse où mes résultats auraient requis une visualisation plus complexe, voire interactive, pour être communiqués, ce travail aurait été traité au sein de l’étape « visualiser ».

PUBLIER

Où et comment publier est une question essentielle que vous devrez vous poser au moins une fois. Peut-être que vous faites partie d’une organisation qui a son site web et la question ne se pose pas. Mais si ce n’est pas le cas, et que vous n’avez pas encore de site web, la réponse peut-être plus longue à trouver. WordPress est un mastodonte qui en fait peut-être trop pour vos besoins. Tumblr est une possibilité, si vous êtes prêt à modifier le code à la main. Pour ceux qui baignent dans le milieu de la programmation, une combinaison de Github Pages et de Jekyll peut-être une bonne idée. Si vous avez besoin d’une base de données légère, jetez un oeil à tabletop.js, qui permet d’utiliser une Google spreadsheet comme une base de donnée basique.

Conclusion

Toute expédition de donnée, quelque soit sa taille ou sa complexité, peut être gérée avec ce processus. En suivant les étapes listées ci-dessus, vous vous évitez de nombreux maux de tête et problèmes potentiels. Bien souvent vous aurez à récupérer et analyser des données supplémentaire pour contextualiser les données initiales, mais il s’agit alors simplement de répéter les différentes étapes autant de fois que nécessaire.

Pour en savoir plus sur l’Ecole des données, vous pouvez consulter la page wiki dédiée
Pour participer au projet, demander l’organisation d’un atelier ou devenir partenaire du projet, contactez nous : [email protected]

Flattr this!

]]>
http://ecoledesdonnees.org/2015/05/18/dissection-dune-expedition-de-donnee-les-magazines-de-jeu-video/feed/ 0 6342
Astuce: copier tous les éléments d’une liste de plusieurs pages http://ecoledesdonnees.org/2015/05/08/astuce-copier-tous-les-elements-dune-liste-de-plusieurs-pages/ http://ecoledesdonnees.org/2015/05/08/astuce-copier-tous-les-elements-dune-liste-de-plusieurs-pages/#respond Fri, 08 May 2015 07:25:56 +0000 https://france-schoolofdata.scoda.okfn.org/?p=6330 Une technique très simple, mais qui peut toujours dépanner !

Ces listes de plusieurs pages

Sur le web, on tombe souvent sur des sites avec des listes comprenant plusieurs pages. Plus agréables pour naviguer, elles facilitent également le chargement. Mais quand il s’agit de “scraper” leur contenu, c’est plus embêtant.

Prenons le site d’Allflicks US. Par défaut, il affiche la liste des 7 365 métrages sur 295 pages (au 7 mai 2015) à raison de 25 métrages par page. Bon courage pour le copier/coller.

Allflicks.net

Allflicks.net

Attention

Cette astuce ne fonctionne que pour les listes qui proposent un menu pour choisir le nombre d’éléments à afficher et des boutons pour naviguer.

À l’inverse, cette méthode est très efficace pour des listes de taille moyenne qui affichent peu d’éléments par page sur un grand nombre de pages. Sur mes deux ordinateurs (Mac et Linux), j’ai réussi à afficher au maximum 20 000 éléments sur une seule page. Lors de ma tentative d’en afficher 40 000, ils ont planté.

Je vous propose toutefois une parade à la fin du tutoriel.

“Inspecter l’élément”

Je vous le dis tout de suite, cette méthode n’est pas très propre.

L’idée est donc d’avoir les 7 365 métrages affichés sur une seule page. Pour cela, à l’aide du clic droit, on va inspecter l’élément (sur Chrome. Sur Firefox, c’est Examiner par exemple) “100” qui sert initialement à afficher 100 éléments par page.

Inspecter l'élément

Inspecter l’élément

Une fois que vous avez cliqué sur la flèche déroulante (située à gauche), vous devriez voir ceci :

Code source initial

Code source initial

Une seule chose nous intéresse : value=”100” qu’il faut remplacer par value=”7365” en double-cliquant dessus. Si ça vous amuse, vous pouvez aussi changer le texte du bouton en modifiant le deuxième 100 écrit en noir juste à côté.

Ce que l’on voit ensuite :

Code source modifié

Code source modifié

Il ne reste plus qu’à cliquer sur ce nouveau bouton !

/!\ Il ne faut pas être placé sur ce bouton avant la manipulation.

/!\ Cela va prendre un peu de temps.

Copier/coller

Lorsque vous avez toute la liste, il ne vous reste plus qu’à la copier/coller dans votre tableur préféré (là encore, cela va prendre un peu de temps).

Tous les résultats sont affichés

Tous les résultats sont affichés

Note

Pour des très grandes listes, on peut réduire le nombre d’éléments affichés d’un coup car les boutons suivant/précédent fonctionnent même après la manipulation. Il vous suffit (en général, ça marche) de modifier, ici : value= »1000″ par exemple, pour avoir huit pages.

Flattr this!

]]>
http://ecoledesdonnees.org/2015/05/08/astuce-copier-tous-les-elements-dune-liste-de-plusieurs-pages/feed/ 0 6330
Nettoyer, explorer, cartographier : l’atelier cinéma de l’Ecole des données http://ecoledesdonnees.org/2015/04/06/nettoyer-explorer-cartographier-latelier-cinema-de-lecole-des-donnees/ http://ecoledesdonnees.org/2015/04/06/nettoyer-explorer-cartographier-latelier-cinema-de-lecole-des-donnees/#respond Mon, 06 Apr 2015 18:47:16 +0000 https://france-schoolofdata.scoda.okfn.org/?p=6317 Atelier cinema à Silicon Banlieue

Le samedi 7 mars l’Ecole des données, en partenariat avec Silicon Banlieue, a organisé un nouvel atelier gratuit, cette fois-ci autour des données du cinéma. Après une introduction décrivant les grandes étapes du traitement des données, trois situations ont été abordées : le nettoyage des données textuelles, l’exploration et l’analyse des données, et enfin la visualisation géographique avec des outils gratuits en ligne.

Les grandes étapes d’une expédition de donnée (cliquez pour voir en grand)

Les grandes étapes d’une expédition de donnée (cliquez pour voir en grand)

1. Les données

Les données utilisées ont été gracieusement fournies par la mission Images et Cinéma du Conseil général du Val d’Oise. Elles consistaient en un fichier de 1174 lignes représentant tous les tournages filmés sur le territoire du Val d’Oise depuis 1901. Elles ont été nettoyées avant l’atelier afin de les rendre plus facilement utilisables.

2. Le nettoyage des données textuelles

Le fichier étant essentiellement composés de texte (titres, noms, commentaires…), c’était l’occasion d’utiliser OpenRefine, un outil gratuit de nettoyage de jeux de données, particulièrement adapté aux données textuelles.

Le logiciel a fait grande impression sur les participants : bien que très puissant, il reste facile à utiliser pour les tâches les plus simples.

A ne pas oublier :

  • Sur Mac, le système d’exploitation risque de considérer le fichier d’installation de OpenRefine comme corrompu. Il suffit d’aller de changer temporairement le réglage suivant : Préférences Système -> Sécurité et confidentialité -> Général -> autoriser les applications téléchargées de n’importe où.
  • Comme lors de l’ouverture d’un fichier .csv sur Excel/Libre Office, il faut choisir le format UTF-8 sur la page d’accueil d’OpenRefine, à côté de « Character Encoding ».
  • Si OpenRefine est ouvert mais qu’aucune fenêtre ne s’ouvre, il suffit d’ouvrir un nouvel onglet du navigateur à l’adresse http://127.0.0.1:3333/

3. L’exploration et l’analyse de données

L’exploration consiste à poser des questions précises et pertinentes auxquelles le jeu de donnée pourrait répondre. Cette étape permet de cadrer la phase d’analyse, qui consiste à utiliser des outils mathématique et statistiques pour extraire des réponses des données. Elle permet aussi de poser la question des données supplémentaires qu’il faudrait récupérer pour mieux contextualiser le jeu de données.

Quelques exemples de questions posées par les participants :

  • Combien de différentes nationalités parmi les réalisateurs ?
  • Quelle répartition des films dans le temps ?
  • Quel genre de film est le plus représenté ?
  • Quels sont les lieux les plus attractifs pour les équipes de tournages ?
  • Certains des films tournés ont-ils été nominés ou primés aux Oscar ?

Certaines questions ont permis de voir la limite des données : la précision géographique est limitée au niveau ville, et le genre des films n’est pas présent dans le jeu de données.

Cependant les questions comme celles du genre et des Oscar, qui nécessitent la récupération de données additionnelles, sont possibles avec l’utilisation de l’outil RechercheV (Vlookup en anglais) dans Excel ou LibreOffice. Pour détailler l’usage de cette fonction, un tutoriel sera publié sur le site de l’Ecole des données

4. La visualisation

Quelques outils gratuits de visualisation ont été présentés, et en particulier CartoDB, un outil en ligne permettant de faire très rapidement des cartes personnalisables. CartoDB a la possibilité de géocoder les nom de ville ou adresses présentes dans votre fichier, ce qui évite d’avoir à chercher les coordonnées soi-même. D’autres outils comme Umap our Mapbox permettent d’arriver à des résultats similaires.

 Carte du nombre de film présents tournés dans le Val d’Oise, par ville. https://clombion.cartodb.com/viz/e1885d00-d3a6-11e4-b5a2-0e018d66dc29/public_map


Carte du nombre de film présents tournés dans le Val d’Oise, par ville. https://clombion.cartodb.com/viz/e1885d00-d3a6-11e4-b5a2-0e018d66dc29/public_map

Pour en savoir plus sur l’Ecole des données, vous pouvez consulter la page wiki dédiée

Pour participer au projet, demander l’organisation d’un atelier ou devenir partenaire du projet, contactez nous : [email protected]

Flattr this!

]]>
http://ecoledesdonnees.org/2015/04/06/nettoyer-explorer-cartographier-latelier-cinema-de-lecole-des-donnees/feed/ 0 6317
A la conquête des données sur la pollution de l’air http://ecoledesdonnees.org/2014/07/09/a-la-conquete-des-donnees-sur-la-pollution-de-lair/ http://ecoledesdonnees.org/2014/07/09/a-la-conquete-des-donnees-sur-la-pollution-de-lair/#respond Wed, 09 Jul 2014 15:46:59 +0000 https://france-schoolofdata.scoda.okfn.org/?p=6308

Le 15 juin 2014, durant le festival Futur en Seine, l’Open Knowledge Foundation France a organisé une “expédition de données” sur la pollution de l’air en Île-de-France, dans le cadre de l’Infolab organisé par la Fondation Internet Nouvelle Génération (FING). Les expéditions de données sont un des formats d’événement organisés dans le cadre du projet École des données.  Comme leur nom l’indique, il s’agit d’un travail d’exploration : à partir d’une OKF - logo EDpollutionproblématique initiale, un groupe de participants accompagné d’un guide, choisit une ou plusieurs approches à analyser. Ils explorent ensuite la problématique en fonction de l’approche choisie avec pour objectif final de communiquer un résultat.

Le thème de la pollution de l’air en Île-de-France a été choisi pour son actualité et le fait que certaines sources de données évidentes semblaient exister : AirParif bien sûr, celles de l’association Citoyens Capteurs, mais aussi sur les transports comme la plateforme Open Data du service Vélib, ou encore des jeux de données de la RATP. L’expérience a été globalement positive avec une méthodologie appréciée des participants et la production de pistes pour aller plus loin. Et cela, malgré un sujet complexe et peu de données disponibles en open data. Retours en chiffres et graphiques sur l’expédition.

14   Le nombre de participants à l’expédition

Les participants ont eu à noter de 0 à 3 leurs compétences en tant que Narrateur, Explorateur, Technicien de données, Analyste et Designer. Il en est ressorti que certaines compétences étaient inégalement réparties (analyste, technicien de donnée, designer), voire divisaient le groupe en deux (exploration). La compétence narration était la seule à être également partagée.

expedonnees_image_profils

3   Le nombre d’angles choisis

Après une phase de réflexion collective sur les questions intéressantes autour du thème de la pollution de l’air en île-de-France (phase “approche”), cinq grandes questions ont émergé. Trois de ces questions ont été explorées par les participants, répartis en autant de groupes :

  • Groupe 1 : Quel est l’impact des grèves sur la qualité de l’air ?

  • Groupe 2 : Est-ce que la pratique du vélo fait diminuer la pollution ?

  • Groupe 3 : Tous les territoires sont-ils égaux face à la pollution ? (comparaison internationale entre capitales)

Fait notable, la question sur les grèves venait de Twitter, posée par @fcharles.

10   Le nombre de sources de données qui ont été exploitées

Airparif, data.gouv.fr, l’Agence européenne pour l’environnement… des sources très variées ont été étudiées (phase “données”) afin de récupérer les données utiles à l’expédition. Parmi les 14 jeux de données récupérés, les plus utilisés ont été ceux de Airparif, qui décrivent l’évolution des quatre principaux polluants (SO2, NO2, O3, PM10*), depuis 1999. Le groupe travaillant sur l’impact du Vélib a fait appel à la twittosphère pour trouver des données d’usage du Vélib, avec succès : 2 jeux de données ont été rendus publics, par Matthieu Arnold (@Mat_A) et Etienne Côme (@comeetie).

0   Le nombre de corrélations significatives observées

Eh oui ! Mais pas de résultats concluants ne veut pas dire pas de résultats du tout. Le sujet était ambitieux, et les données souvent incomplètes, voire non disponibles (phase « analyse »).

Voir les fiches détaillées

Groupe 1 : ce groupe s’est intéressé à la grève de la SNCF datée du 11 juin 2014.
Hypothèse : en mesurant les niveaux de pollution pendant et après la grève, on peut faire apparaître l’impact sur la pollution de l’air.
Résultat : la comparaison des niveaux de pollution pendant et après la grève n’a pas donné de résultats significatifs.

Groupe 2 : ce groupe a voulu comparer l’évolution de l’usage du vélo et l’évolution des concentrations en polluants dans l’air.
Hypothèse : les vélos-taffeurs, en lâchant leur véhicule, contribuent à une baisse mesurable de la pollution de l’air.
Difficulté rencontrée : les données brutes d’Air Parif sont complexes à manipuler, ce qui n’a pas laissé le temps d’aller jusqu’au bout.

Groupe 3 : ce groupe a entrepris de créer un jeu de données sur différentes capitales mondiales pour comparer leurs données géographiques, démographiques, de transport et de pollution.
Hypothèse : En comparant assez de variables, on peut observer quels caractéristiques sont le plus liées à la pollution de l’air.
Résultat : Même visualisé dans un graphique en bulles, aucune tendance n’est ressortie du jeu de donnée.

3   Le nombre de jeux de données créés ou enrichis

L’expédition sert aussi à créer de la valeur ajoutée, à travers des jeux de données enrichis voir créés :

Groupe Jeux de données Sources
2 Évolution mensuelle du trafic de vélo à Paris depuis 2008 Observatoire des déplacements à Paris
2 Données géolocalisées des capteurs de pollution de Airparif concernant les 4 principaux polluants (données non diffusables) Airparif
3 Données de démographiques, géographiques, de transport et de pollution aux particules fines pour Paris, Londres, Berlin, Madrid, Bruxelles, Copenhague, Amsterdam Earth Policy Institute
Agence européenne de l’environnement
Commission européenne
Air Quality Index
Eurostat

A noter que les données modifiées d’Airparif ne peuvent pas être diffusées, pour respecter les termes de l’association. Ce qui est étonnant pour une association effectuant une mission d’intérêt général par délégation de l’Etat.

Quelques autres chiffres :

0 Le nombre de données vraiment en Open Data utilisées. Les données récoltées étaient soit issues de rapports au format PDF, soient n’avaient une licence compatible open data.
15 Le nombre approximatif d’heures nécessaires de préparation du sujet de l’expédition. Et c’est sans compter l’organisation elle-même.
5 Le nombre d’outils différents utilisés : LibreOffice, Google Spreadsheets, R, Google Charts, Open Data Soft
270 Le nombre de minutes qu’a duré l’événement. De 11h30 à 16h00

[pdfjs-viewer url=http://ecoledesdonnees.org/files/2014/06/OKF-EDpollution-Guide-ressources-.pdf viewer_width=600px viewer_height=400px fullscreen=true download=true print=true openfile=false]

Flattr this!

]]>
http://ecoledesdonnees.org/2014/07/09/a-la-conquete-des-donnees-sur-la-pollution-de-lair/feed/ 0 6308