Qu’est-ce qu’une donnée ?

Introduction

Bienvenue sur le cours d’introduction de L’École des données. Nous allons vous expliquer les rudiments de la manipulation et de la visualisation de données.

Dans ce module, vous allez apprendre à appréhender la recherche de données. Nous commencerons par une introduction aux fondamentaux – les termes clés tels que des données qualitatives, quantitatives, lisibles par machine, discrètes et continues, auxquels nous sommes confrontés régulièrement durant les processus de manipulation de données.

Cela commence souvent par une question

La plupart des gens ne manipulent pas des données pour leur simple plaisir. Elles sont utilisées à dessein ou pour rendre visible des phénomènes.

Vous commencerez la plupart du temps à partir d’une problématique de type : «Combien de fois le soleil brille dans ma ville natale?» ou «Comment mon gouvernement dépense-t-il son argent? Et d’où proviennent les fonds? ». Une question est un bon point de départ pour explorer des données, cela permettra de préciser votre recherche et vous aidera à détecter des tendances intéressantes. Comprendre qui seront les personnes intéressées par votre problématique vous aidera également à définir le public auquel vous vous adressez, et vous aidera à modéliser votre projet.

Quelle que soit votre problématique, vous devez toujours rester attentif aux observations inattendues, aux résultats inhabituels, ou à tout ce qui pourra vous surprendra. Souvent, les phénomènes les plus intéressants ne sont pas ceux que vous recherchez.

Dans ce cours, nous allons commencer avec une question et explorer un ensemble de données dans le but d’y répondre. Nous allons aussi tenter de voir si des phénomènes intéressants, mais caché au premier regard, ne se trouve pas dans cet ensemble.

Notre problématique pour ce module est la suivante : en quoi l’attention portée à l’hygiène de vie influe-t-elle sur notre longévité ?

Tâche : Pensez à une question à laquelle vous aimeriez répondre en utilisant des données.

Qu’est-ce qu’une donnée ?

Les données sont omniprésentes autour de nous. Mais qu’est-ce exactement qu’une donnée ? Prenons l’exemple de ces balles de golf.

Golf balls

Balles de golf Balles de golf sur un marché (CC) by Kaptain Kobold sur Flickr.

Que pouvons nous en dire ? Ce sont des balles de golf. L’une des premières choses que l’on sait est donc qu’elles sont utilisées pour jouer… au golf. Par ailleurs, le golf est un sport, ce qui nous permet de placer la balle de golf dans une taxonomie.

Même les objets d’apparence banale recèlent en réalité une quantité de données importantes qui leurs sont attachées. Vous aussi, vous avez un nom de famille, une date de naissance, un poids, une taille, une nationalité, etc. Toutes ces choses sont des données.

Dans l’exemple ci-dessus, nous pouvons déjà constater qu’il y a différents types de données. Il y a principalement des données qualitatives et des données quantitatives.

  • Les données qualitatives se réfèrent à la qualité : La description d’une couleur, de textures et l’aspect d’un objet, la description d’une expérience sont toutes des données qualitatives.
  • Les données quantitatives sont des données qui se réfèrent aux chiffres. Ex : Le nombre de balles de golf, la taille, le prix, le résultat d’un test, etc.

Cependant, vous allez rencontrer d’autres types de données :

  • Les données catégorielles permettent de classer les objets que vous traitez par catégories. Dans notre exemple, l’aspect « usagé » serait une catégorie au sein de la typologie suivante : « nouveau », « usagé », « cassé », etc.
  • Les données discrètes sont des données dénombrables. Ex: le nombre de balles de golf. Il ne peut y avoir qu’un nombre entier de balles de golf (il ne peut pas y avoir 0,3 balles de golf). Le résultat d’un test ou une pointure de chaussure constituent d’autres exemples.
  • Les données continues sont des données numériques non entières. Ex: le diamètre des balles de golf (ex: 10,53mm, 10,56mm, 10.536mm), ou la taille précise de votre pied (en opposition à la pointure, qui elle est discrète). Toutes les valeurs sont admises.

Tâche : Prenez l’exemple des balles de golf: pouvez-vous identifier des données pour les différentes catégories ?

De la donnée, à l’information, à la connaissance

Les données, quand elles sont collectées et structurées deviennent soudain très utiles. Structurons les dans le tableau ci-dessous :

Couleur Blanche
Catégories Sport, Golf
État Usagé
Diamètre 43 mm
Prix (par balle) 0,36 €

Mais ces données n’ont pas de sens exploitées individuellement. Pour faire émerger l’information, nous devons les interpréter.

Prenons la taille : Un diamètre de 43 mm ne signifie rien. Il devient intéressant quand il est comparé à une autre donnée, un autre diamètre. Dans certains sports, il y a une réglementation pour les équipements. La taille minimale d’une balle de golf en compétition est de 42,67 mm. Nous pouvons donc utiliser cette balle en compétition. C’est une information. En revanche, ce n’est toujours pas de la connaissance. La connaissance est créée lorsque l’information est apprise, appliquée et comprise.

Données non structurées contre données structurées

Les données interprétables

« Il y a 5 balles de golf usagées avec un diamètre de 43 mm à 0,5 € chacune » est une phrase facilement compréhensible pour un humain, mais compliquée à comprendre par un ordinateur. La phrase ci-dessus est considérée comme de la donnée non structurée. Elle n’a pas de structure sous-jacente. La tournure de la phrase pourrait être changée et il n’est pas évident de déterminer quel mot correspond à quelle donnée. De la même manière, les PDFs et les images peuvent contenir des informations interprétables par l’oeil humain, mais ne pas être compréhensibles par un ordinateur.

Les données interprétables par l’ordinateur

Les ordinateurs sont fondamentalement très différents des humains. Il peut être extrêmement difficile pour une machine d’extraire des données provenant de certaines sources. Certaines tâches facilement réalisables par un individu sont encore difficilement exécutables par les machines. Par exemple, l’interprétation d’un texte encapsulé dans une image est toujours un défi pour l’ordinateur. Si l’on veut que l’ordinateur analyse la donnée, il faut qu’il soit capable de la lire et de la traiter. Ce qui signifie qu’elle doit être structurée dans un format lisible par la machine.

L’un des formats les plus couramment utilisé pour l’échange de données est le format CSV. Le CSV sépare les données par des virgules. De la donnée transcrite en CSV pourrait ressembler à cela :

“quantité”, “couleur”, “condition”, “objet”, “catégorie”, “diamètre(mm)”, “prix unitaire (€)” 5,”blanc”,”usagé”,”balle”,”golf”,43,0.36

C’est un format simplifié pour l’ordinateur et lisible par des tableurs. Vous noterez que les mots sont entourés de guillemets, ce qui les distingues en tant que texte (chaîne de caractères dans le langage informatique), alors que les nombres n’ont pas de guillemets. À noter qu’il existe beaucoup d’autres formats structurés et lisibles par une machine.

Tâche : Pensez au dernier livre que vous avez lu. Quelles données lui sont associées et comment les structurer ?

Résumé

En résumé, dans ce tutoriel nous avons exploré quelques concepts essentiels qui apparaissent constamment dans les discussions autour de la donnée. Dans le prochain tutoriel nous étudierons les sources des données et comment les trouver.

Lectures complémentaires (en anglais)

  1. Quand vous obtenez un nouveau jeu de données, devez-vous vous y consacrer immédiatemment / devez-vous avoir une hypothèse au préalable ? Caelainn Barr, une journaliste, explique son approche des nouvelles sources de données. http://datajournalismhandbook.org/1.0/en/understanding_data_4.html
  2. Tour d’horizon des formats de données les plus utilisés.

Article d’origine : https://schoolofdata.org/handbook/courses/what-is-data/

téléchargement

Aidez-nous à améliorer la traduction de cet article sur GitHub !

Répondre

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *