La donnée et sa place dans les cycles de l'information

De Metabolisme territorial
Révision datée du 10 août 2019 à 00:07 par MTAdmin (discussion | contributions) (Analyse de données)
(diff) ← Version précédente | Voir la version actuelle (diff) | Version suivante → (diff)
Aller à : navigation, rechercher

Définition d'une donnée

Il n'existe pas de définition consensuelle de ce qu'est exactement une donnée (Thessen & Patterson 2011). Le dictionnaire Larousse [1] nous en donne six et celle trouvée sur Wikipédia ne colle parfaitement à aucune d'entre elles. Ces différentes définitions permettent toutefois de mettre en avant certaines caractéristiques afin de faire de la donnée un élément plus concret et opérationnel de nos réflexions.

Au premier abord sémantique, on peut interpréter une donnée par le fait qu'elle soit ... donnée ! D'une part, l'utilisateur de données mobilise souvent des jeux produits et "donnés" (plus exactement distribués) par des organismes extérieurs (entreprises, laboratoires, institutions ...). D'autres part, la production de données elle-même repose également sur la capitalisation d'informations fournies ("données") par des capteurs ou des personnes (à travers notamment un questionnaire). Cela véhicule une l'idée d'une description intangible qu'il ne s'agit pas, a priori, de remettre en question. Cette idée est confortée par le rôle fréquemment joué par les données comme point de départ pour fonder un raisonnement. La confiance dans leur fiabilité est donc indispensable et est étroitement liée à la crédibilité des acteurs qui les ont produites (Brackstone 1999), ce qui, nous le verrons par la suite, pose des enjeux sociétaux particuliers.

D'une manière plus descriptive, une donnée peut être considérée comme une information élémentaire (discrète) sur une partie de la réalité (continue). Elle est l'association d'un identifiant (renvoyant au concept décrit par la donnée) avec une valeur explicite (numérique ou littérale). Cette valeur s'inscrit dans un domaine de définition nécessaire à l'interprétation de la valeur pour le concept identifié (Boydens 2012) qui concerne en autres le typage des données (nombre, date, texte, association avec d'autres concepts, ...) (Noy & Mcguinness 2001). Les données vont ainsi permettre de caractériser des éléments (la population d'un territoire, le prix ou le nom d'un objet, la couleur d'une voiture ...) ou bien de lier des concepts entre eux (les départements d'une région, les modèles de véhicules d'un fabricant, l'auteur d'un article ...).

Pour être exploitables, les données doivent s'inscrire dans une structure qui va permettre de les organiser et les manipuler en grand nombre (un tableau, une base de données, ... voir §X). Elles doivent être également contextualisées (qui les a produites, comment, quand ... ?), notamment à travers l'usage de méta-données : des données supplémentaires apportant des informations sur les données elles-même.

Chaine et cycles de l'information

Les données viennent s'inscrire dans une chaine de l'information. Selon le modèle linéaire de Bedard (1986), adapté par Dao (2005), cette chaine distingue données, informations et connaissances. Elle comporte différentes étapes : (1) la mesure qui produit des données brutes à travers des capteurs, des sondages ou des plans d'expérience (Saporta 2011), (2) le regroupement et la structuration de ces données brutes pour obtenir des données structurées, (3) leur analyse pour en extraire une information synthétique et (4) la communication qui permet de diffuser l'information et d'en faire une connaissance.

Il semble pertinent de fermer cette chaîne et d'en faire un cycle : finalement la connaissance influence l'action sur la réalité (Polanco 2008). Nous proposons également de croiser les cycles car l'information circule finalement très peu en circuit fermé et différents cycles s'alimentent mutuellement (Voir figure ...). Les analyses se basent souvent sur différents jeux de données structurées, la connaissance résulte d'une compilation d'informations diverses et il n'est pas rare que des données servent à des applications et des analyses pour lesquelles elles n'étaient pas initialement destinées (Davis 2012), éloignant au passage l'utilisateur final de la source productrice de l’information (Boydens 2012). Nous interprétons cette complexité du cycle de l'information comme une incitation à bien dissocier les étapes du traitement de l'information. Il s'agit de faire en sorte que l'information produite puisse aussi contribuer à construire des connaissances pour d'autres acteurs ayant d'autres objectifs.


Men-at-work-44px.pngTask : Figure cycle information


Dans nos travaux, nous nous focalisons sur la question du traitement de données existantes et structurées qui a lieu dans la phase d'analyse. Nous n'examinerons ainsi pas en détail la manière dont les données ont été produites : nous les assumons comme existantes et intangibles et nous allons plutôt chercher les moyens d'en extraire l'information qu'elles contiennent.

Si elle ne rentre pas dans la focale de nos travaux, la qualité des données sources est évidemment un point fondamental des démarches d'analyse (Brackstone 1999). En fait, les jeux de données peuvent contenir des erreurs, et de nombreux biais existent. En particulier, la mesure ne peut constituer qu'une approximation de la réalité en raison de son caractère réductionniste et des aléas inévitables. L'interprétation des concepts administratifs, légaux ou scientifiques qui évoluent par nature joue un rôle prépondérant dans la définition de conventions permettant de récolter, manipuler et structurer l'information. Cela entraine des ruptures de séries ou contraint les données à rentrer dans des cases prédéfinies, limitant ainsi la possibilité d'une compréhension plus subtile de la réalité (Desrosières 2008 ; Boydens 2012). Tout en ayant conscience de ces limites, notre position est similaire à celle de Polanco (2008) : nous distinguons l’objectif et la forme de l’analyse pour nous concentrer sur la seconde.

De même, nous n'aborderons que peu la question de la production de connaissances qui résulte de la communication et du partage d'informations (écrites ou non) entre plusieurs personnes. C'est pourtant bien cette connaissance qui permet d'agir adéquatement sur la réalité, mais la compréhension des mécanismes de son développement relèves d'autres champs disciplinaires que le notre, notamment la psychologie et la sociologie (Popper 1972 ; Polanco 2008). Ce type d'approche est ainsi tout à fait complémentaires à nos travaux pour transformer l'information produite en connaissance, puis en action.

Ainsi, pour améliorer notre action sur la réalité, il nous semble pertinent d'agir sur les différentes étapes du cycle de l'information. En ce sens, les dynamiques d'ouvertures de l'information (comme l'open access pour les publications scientifiques ou l'open data des administrations) nous semblent être des tendances de fond qui viennent transformer la façon dont l'information circule actuellement, non sans poser de nouvelles questions ni générer de friction avec certains modèles économiques, par exemple avec les éditeurs de revues scientifiques (Chartron 2016). Pour notre part, nous nous focalisons sur une seule étape du cycle : celle de l'analyse.

L'analyse et le traitement des données

L'analyse demande une attention particulière dans la manipulation des données. Il s'agit d'être capable d'exploiter des données sources structurées pour produire de l'information sous forme de modèle, de description synthétique ou encore de mise en exergue de phénomènes ... Il n'existe pas une méthode unique d'analyse, tout dépend des objectifs de l'étude, du contexte ou des données disponibles. Toutefois, malgré la diversité des analyses, nous identifions différentes étapes systématiques dans leur déroulement (Bertrand 1986 ; Polanco 2008) :

  1. La définition de la problématique, du cadre théorique, des hypothèses et du périmètre de l'analyse,
  2. L'identification et la collecte des données sources pertinentes,
  3. Leur préparation pour l'application des méthodes d'analyse de données,
  4. L'analyse des données qui peut produire différentes formes de résultats,
  5. Le stockage des données entre ces différentes étapes,
  6. L'interprétation visant à contextualiser les résultats pour y apporter un regard critique et répondre à la problématique en précisant les apports et les limites.

Afin d'éviter une confusion que nous pouvons trouver dans la littérature, nous distinguons bien l'"analyse" au sens général du terme qui vise à produire de l'information autour d'une problématique à partir de données sources, de l'"analyse des données" qui est l'une des étapes de ce processus d'analyse, et qui vise à l'application d'une méthode sur des données préparées et produisant des résultats non interprétés, par exemple des coefficients de corrélations, des constructions graphiques ou des valeurs numériques. Une analyse peut ainsi s'appuyer sur l'application d'une ou de plusieurs méthodes d'analyse des données.

Les étapes 2 à 5 impliquent de manipuler concrètement des données, à l'aide quasi-systématique (dans nos travaux ce sera systématique) d'un outil informatique. Elles constituent ainsi le processus de traitement des données de la phase d'analyse, et c'est sur celui-ci que nous porterons notre attention dans la suite de nos travaux. Nous approfondissons chacune d'elles afin d'identifier les différents éléments sur lesquels il est possible d'agir pour faciliter de manière générale le traitement de données. Dans le chapitre III, nous reprenons ce processus mais cette fois en identifiant les éléments spécifiques à notre thème d'étude.

Identification et obtention des données sources : Notion d'utilisabilité

Le premier temps du processus de traitement des données d'une analyse consiste à identifier et rassembler les données pertinentes pour répondre aux objectifs visés. Loin d'être triviale, cette étape nécessite d'explorer l'univers des données disponibles et de sélectionner les plus adaptées, selon différents critères plus ou moins conscientisés (Bellino 2013). Dans leurs travaux, Zuiderwijk et al. (2012) dressent un long panorama des difficultés qui peuvent survenir dans l'utilisation de données. Nos recherches ont en effet été confrontées à certain nombre des problèmes mentionnés : l'absence de métadonnées, la difficulté à utiliser certains moteurs de recherche, la fragmentation des données, la diversité des formats de fichiers dont certains non adaptés à la lecture par une machine, la structure, l'encodage ou le typage des données défaillant ou non conventionnel, le coût, les restrictions d'accès, l'absence d'indexation (URL) des pages de données, ...

Pour mieux appréhender ces difficultés, nous réutilisons la notion d'"utilisabilité". Selon Bellino (2013), cette notion recoupe la facilité à trouver les données (ou repérabilité) et leur qualité, c'est-à-dire leur fiabilité, validité, exhaustivité, intelligibilité, concision, pertinence, richesse et cohérence. Batini et al. (2009) identifient une liste encore plus longue de dimensions recouverte par la notion de qualité. Présumer de la qualité des données est toutefois un exercice difficile, et reviendrait finalement d'une certaine manière à connaître la réalité que sont censées décrire les données (Boydens 2012). En plus de la repérabilité et de la qualité, les questions d'accessibilité (physique, technique, droits d'utilisation) et d'interopérabilité des données par différents programmes sont aussi en lien avec leur utilisabilité Berners-Lee (2006). Enfin, la spatio-temporalité des données, surtout dans les études territoriales, semble être aussi un critère à distinguer, même s'il pourrait être inclut dans la notion de qualité (pertinence).

Nous synthétisons les différents critères de la notion d'utilisabilité dans le tableau X. Il ne s'agit pas seulement d'une approche descriptive, mais surtout prescriptive : rendre les données utilisables est essentiel pour favoriser l'émergence de nouvelles découvertes et appuyer l'innovation (Thessen & Patterson 2011). Pour renforcer leur utilisabilité, de nombreux chercheurs appellent ainsi à respecter les principes "FAIR" dans la gestion de jeux de données (Findability, Accessibility, Interoperability, Reusability) (Wilkinson et al. 2016).

Critère d'utilisabilité Description Pratiques associées
Repérabilité Facilité à trouver les données. Mise en ligne, sur des plateformes dédiées disposant de bons moteurs de recherches ; Présence de mots-clefs, d'une description riche et persistante (via les métadonnées), de liens vers d'autres données, d'un identifiant unique global et persistent (URL/URI/DOI/...) pour un accès direct.
Qualité Fiabilité, validité, exhaustivité, intelligibilité, concision, pertinence, richesse et cohérence. Tests statistiques ; Provenance et méthodologie de création des données explicite.
Accessibilité Accessibilité physique (papier < ordinateur < web), technique (requête ou téléchargement), droits d'accès, droits de diffusion. Mise en ligne ; Usage des standards de l'Open Data (plateformes, protocoles, licences, ...) ; Absence d'identification ou de droit d'accès pour accéder aux données ; Gratuité ; Accès aux données par téléchargement de fichier ET par requête via une interface de programmation (API).
Interopérabilité Formats et structures des données exploitables par différents programmes Données disponibles sous différents formats (dont des non propriétaires et/ou lisibles par des machines). Lien avec d'autres données.
Spatio-temporalité Correspondance spatiale et temporelle entre les données disponibles et le sujet d'étude Portails de données rassemblant et archivant les mêmes données sur différents territoires, ou des données différentes d'un même territoire. Niveau de détail spatial et temporel fin.

Préparation des données : restructuration, nettoyage, formatage, jointure et sélection

Les données collectées pendant la phase précédente sont rarement utilisables en l'état. En effet, elles peuvent contenir des erreurs, être mal structurées, segmentées ou non compatibles entre elles. Les données doivent ainsi être préparées pour être compatibles avec l'application d'une méthode d'analyse de données et être cohérentes avec la problématique étudiée. Pour cela, différentes opérations peuvent devoir être menées :

  • La restructuration visant à corriger les défauts sur la structure des données : des commentaires intégrés entre les lignes de données d'un tableur, du texte au milieu de nombres ... L'utilisation d'un type de fichier de données non structuré (comme un fichier PDF ou de traitement de texte) peut également obliger à devoir retravailler manuellement les données pour les structurer (Berners-Lee 2006).
  • Le nettoyage visant à détecter et à corriger les erreurs et les inconsistances dans les données (Rahm & Do 2000). Le nettoyage n'est pas toujours trivial. Même si une partie des erreurs peuvent être détectables (adresses postales erronées, dates aberrantes, codes incorrects, données redondantes ...), ce n'est pas toujours le cas, notamment si elles portent sur la qualité intrinsèque des données, (Boydens 2012). Par ailleurs, quand bien même une erreur est détectée, sa correction n'est pas forcément simple ni même possible. Cela exige souvent un travail manuel, ou l'exclusion de la donnée erronée, ce qui peut aussi altérer la qualité d'une étude.
  • La standardisation (ou normalisation) visant à s'assurer de la compatibilité des données (Batini et al. 2009). Il peut s'agir du choix du séparateur décimal (point ou virgule), de l'encodage des caractères spéciaux et accentués, de l'usage des majuscules, du format des dates, ...[2], ainsi que de l'usage des mêmes conventions entre les différentes données (codes, noms, nomenclatures, unités, pas de temps ...).
  • La jointure visant à rassembler différents jeux de données pour n'en faire qu'un seul, généralement à l'aide d'une clef de jointure, c'est-à-dire un code d'identification commun dans différents jeux de données.
  • La sélection visant à ne conserver qu'une partie des données : celles destinées à l'application de l'analyse de données. Ces données figurent à l'intérieur du périmètre défini (objet d'étude, limites, période, ...) et ne concernent qu'un nombre restreint de variables ou caractères. Généralement, les données sélectionnées sont facilement extraites des données initiales par les fonctions de filtrage des tableurs ou des requêtes sur bases de données. Les données initiales sont conservées pour l'application d'autres méthodes d'analyse de données.

Ces opérations sont plus ou moins lourdes à mettre en place selon les données collectées et les objectifs de l'analyse. Dans certains cas, il n'y a rien à faire car les données récupérées sont directement exploitables, dans d'autres, plusieurs de ces opérations doivent être menées, souvent manuellement car spécifique à chaque jeu de données, voir à chaque donnée problématique. L'automatisation de certaines procédures est parfois possible, mais cela nécessite quand même du temps pour implémenter les algorithmes dédiés, qui reposent souvent sur des fonctions de bas niveau (Thomsen & Bach Pedersen 2009). Malgré tout, le bon déroulement de la préparation des données est nécessaire pour une bonne exploitation. Des données mal préparées risquent au mieux empêcher l'application des méthodes d'analyses de données, au pire, d'engendrer de résultats incorrects pouvant donner lieu à de mauvaises décisions (Rahm & Do 2000 ; Boydens 2012).

Analyse de données

L'analyse de données est l'application d'une méthode mathématique ou algorithmique sur des données préparées afin d'en extraire une information synthétique, éventuellement visuelle. Ces données décrivent souvent une grande quantité d'éléments et un grand nombre de leur caractères (Bouroche & Saporta 2006). L'extraction d'information peut consister à identifier des corrélations (ou non) entre différents caractères étudiés, à classifier des concepts ou individus selon leur similarité, à identifier des liens, à vérifier des modèles, à décrire les données de manière résumée ... Parmi les méthodes plus courantes d'analyse de données, nous pouvons citer (Bertrand 1986 ; Bouroche & Saporta 2006) : la régression, les analyses statistiques et tests d'hypothèses, l'analyse en composantes principales, l'analyse canonique, l'analyse factorielle des correspondances, les méthodes de classification et de discrimination, l'expression visuelle ou géométrique ...

Ces méthodes vont permettre d'extraire de l'information pour différentes typologies de caractères, par exemple leur localisation (analyse spatiale) ou leur évolution (analyse temporelle). De manière générale, nous pouvons parler d'axe d'analyse ou de dimension (Pitarch et al. 2010) pour désigner la nature du caractère étudié ; les analyses multidimensionnelles vont ainsi en étudier plusieurs simultanément, et donc potentiellement mettre en exergue leurs relations.

Les résultats produits par les méthodes d'analyse de données peuvent prendre plusieurs formes :

  • des valeurs clefs ou des indicateurs,
  • des modèles permettant de décrire les données,
  • des données structurées : un tableau, un arbre de classification, ...
  • des représentations graphiques

Pour être correctement interprétés, ces résultats doivent ensuite être confrontés à l'ensemble des hypothèses ou limites qui auront pu être évoquées et sur lesquelles reposent les données, depuis la phase de problématisation jusqu'au choix des méthodes d'analyses utilisées. Cette interprétation est fondamentale, complexe, spécifique à la problématique, en partie subjective, et s'appuie plus souvent sur une argumentation littéraire que comptable. Autant de raisons qui font qu'elle n'entre pas directement dans la focale de nos travaux sur le traitement de données ; nous y ferons ainsi référence plutôt à la marge, ou sur des cas d'études particuliers.

Par ailleurs, un de nos objectifs est de permettre à un public large d'appréhender les enjeux matériels et énergétique de nos sociétés. Si l'interprétation des données par des experts peut apporter un éclairage sur une problématique donnée, nous voulons également permettre à des acteurs de construire leur propre interprétation des résultats. Parmi les types de résultats évoqués précédemment, les représentations graphiques semblent les plus à même d'être vecteurs d'une information complexe pour une grande variétés d'acteurs. Elles permettent de construire des interprétation intuitives, là où les autres types de résultats nécessitent un examen plus approfondi. Cela dit, un usage mal pensé des techniques graphiques peut aussi mener à véhiculer une information déformée voire erronée[3]. Ainsi, à l'instar de Chen et al. (2008), nous pensons que la construction de représentation graphiques mérite une véritable attention, à la fois pour diffuser efficacement une information mais aussi pour éviter d'éventuels écueils.

Stockage des données

La question du stockage des données intervient nécessairement et tout au long du processus de traitement : dès leur collecte (et même avant pour les rendre disponibles, d'autres personnes ont dû y répondre), pendant leur préparation (faut-il créer un nouveau jeu de données ou modifier l'initial ?) et également pour figer les résultats après l'analyse des données. Le stockage permet de disposer de manière pérenne les données, pour pouvoir les réutiliser ultérieurement ou les partager. Il est envisageable de manipuler les données en flux tendu dans la mémoire vive, sans stockage sur un disque dur, mais cela implique de devoir reproduire l'ensemble du processus de traitement de données à chaque fois, ce qui peut s'avérer vite chronophage.

Il existe deux grands paradigmes pour le stockage des données numériques : les fichiers et les bases de données (éventuellement distribuées sur le web). Les premiers sont associés à des hiérarchies et des programmes permettant de manipuler les données à travers une interface utilisateur. Les secondes sont associées à des interfaces de programmation permettant de formuler des requêtes pour ajouter, modifier ou sélectionner les données. Le choix du paradigme dépend de la complexité des données à manipuler, de l'adéquation des outils logiciels disponibles et des compétences de l'utilisateur. Nous noterons que l'échange de fichiers (téléchargement ou envoi par mail) constitue un facteur de risque pour l'intégrité des données : les données originales sont dupliquées et peuvent donner lieu à des versions différentes si elles sont modifiées. C'est aussi dans le rôle centralisateur des bases de données que réside une partie de leurs avantages (Inmon 2005).

Pour les études simples ou exploratoires, l'usage d'un fichier tableur est souvent privilégié. Il permet d'organiser facilement des données, et les programmes d'exploitation (comme LibreOffice Calc ou Microsoft Office Excel) permettent de réaliser de nombreuses opérations courantes (opérations, graphiques, tri ...). Toutefois le format en deux dimensions d'un tableur présente des limites, et pour certains niveaux de complexité, il faut envisager d'autres structures pour les données. Ces structures peuvent être implémentées à travers différents formats de fichiers ou nécessiter l'implémentation d'une base de données ou des technologies particulières (voir §XX).



Références

• Batini, C., Cappiello, C., Francalanci, C., Maurino, A., 2009, Methodologies for data quality assessment and improvement, ACM computing surveys (CSUR), 41, pp. 16. DOI : 10.1145/1541880.1541883
• Bedard, Y., 1986, A Study of the Nature of Data Using a Communication-Based Conceptual Framework of Land Information, The Canadian Surveyor, 40, pp. 449-460. [En ligne] URL : https://www.researchgate.net/profile/Yvan_Bedard/publication/255591392_A_study_of_data_using_a_communication_based_conceptual_framework_of_land_information_systems/links/00b4952d811ddbdd9f000000.pdf. Consulté le 19 avril 2018.
• Bellino, C., 2013, Contribution de l’architecture de l’information à l’utilisabilité informationnelle: le cas des intranets, Etudes de communication. langages, information, médiations, pp. 71-88. Groupe d’Etudes et de Recherche Interdisciplinaire en Information et Communication de l’Université Lille 3
• Berners-Lee, T., 2006, Linked Data (mis à jour en 2010). [En ligne] URL : https://www.w3.org/DesignIssues/LinkedData.html. Consulté le 19 avril 2018.
• Bertrand, R., 1986, Pratique de l'analyse statistique des données. Presses de l'Université du Québec, 380 p.. [En ligne] URL : https://books.google.fr/books?id=AoW-E3dX4lUC. Consulté le 19 avril 2018.
• Bouroche, J., Saporta, G., 2006, L'analyse des données. Presses Universitaires de France, « Que sais-je ? »,, 128 p.. [En ligne] URL : https://www.cairn.info/l-analyse-des-donnees--9782130554448.htm. Consulté le 19 avril 2018.
• Boydens, I., 2012, L'océan des données et le canal des normes, Responsabilité et environnement, 67, pp. 22-29. Annales des Mines. DOI : 10.3917/re.067.0022
• Brackstone, G., 1999, La gestion de la qualité des données dans un bureau de statistique, Techniques d’enquête, 25, pp. 159-171. [En ligne] URL : https://unstats.un.org/unsd/dnss/docViewer.aspx?docID=397#start. Consulté le 19 avril 2018.
• Chartron, G., 2016, Stratégie, politique et reformulation de l’open access, Revue française des sciences de l’information et de la communication, 8. DOI : 10.4000/rfsic.1836
• Chen, C., Härdle, W., Unwin, A., 2008, Handbook of Data Visualization. Springer-Verlag Berlin Heidelberg, 936 p.. DOI : 10.1007/978-3-540-33037-0
• Dao, Q., 2005, Le rôle des systèmes d'information géographique pour le développement urbain durable, Enjeux du développement urbain durable, pp. 123-156. Presses Polytechniques Universitaires Romandes. [En ligne] URL : https://archive-ouverte.unige.ch/unige:74870. Consulté le 19 avril 2018.
• Davis, C., 2012, Making Sense of Open Data: From Raw Data to Actionable Insight.. [En ligne] URL : https://repository.tudelft.nl/islandora/object/uuid:88c3c6f9-d6a2-4a82-9353-884a3b77b6ed. Consulté le 19 avril 2018.
• Desrosières, A., 2008, L’Argument statistique I : Pour une sociologie historique de la quantification. Presses des MINES
• Inmon, W., 2005, Building the Data Warehouse. Wiley, 576 p.. [En ligne] URL : http://homes.dcc.ufba.br/~mauricio052/Material_Artigo/Building_The_Data_Warehouse_(2005)_Fourth_Edition-Inmon-Wiley.pdf. Consulté le 19 avril 2018.
• Noy, N., Mcguinness, D., 2001, Ontology Development 101: A Guide to Creating Your First Ontology. [En ligne] URL : http://www-ksl.stanford.edu/people/dlm/papers/ontology-tutorial-noy-mcguinness.pdf. Consulté le 19 avril 2018.
• Pitarch, Y., Favre, C., Laurent, A., Poncelet, P., 2010, Analyse flexible dans les entrepôts de données : quand les contextes s'en mêlent, 10, pp. 191-205. [En ligne] URL : https://www.lirmm.fr/~poncelet/publications/papers/eda2010.pdf. Consulté le 19 avril 2018.
• Polanco, X., 2008, Transformer l’information en connaissance avec stanalyst. Cadre conceptuel et modèle, Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação, 13, pp. 76-91. DOI : 10.5007/1518-2924.2008v13nesp1p76
• Popper, K., 1972, Objective knowledge. An Evolutionary Approach, 360. Oxford University Press Oxford, 406 p.
• Rahm, E., Do, H., 2000, Data cleaning: Problems and current approaches, IEEE Data Engineering Bulletin, 23, pp. 3-13
• Saporta, G., 2011, Probabilités, analyse des données et statistique. Éd. Technip, Paris, 656 p.
• Thessen, A., Patterson, D., 2011, Data issues in the life sciences, ZooKeys, 150, pp. 15-51. DOI : 10.3897/zookeys.150.1766
• Thomsen, C., Bach Pedersen, T., 2009, Pygrametl: A Powerful Programming Framework for Extract-transform-load Programmers, DOLAP '09, pp. 49-56. ACM. DOI : 10.1145/1651291.1651301
• Wilkinson, M., Dumontier, M., Aalbersberg, I., Appleton, G., Axton, M., Baak, A., Blomberg, N., Boiten, J., da Silva Santos, L., Bourne, P., others, 2016, The FAIR Guiding Principles for scientific data management and stewardship, Scientific data, 3. Nature Publishing Group. [En ligne] URL : https://www.nature.com/articles/sdata201618. Consulté le 19 avril 2018.
• Zuiderwijk, A., Janssen, M., Choenni, S., Meijer, R., Alibaks, R., 2012, Socio-technical Impediments of Open Data, Electronic Journal of e-Government, 10. [En ligne] URL : http://www.ejeg.com/issue/download.html?idArticle=255. Consulté le 19 avril 2018.


Notes de bas de page

  1. http://www.larousse.fr/dictionnaires/francais/donn%C3%A9e/26436?q=donn%C3%A9e
  2. C'est un problème classique que l'on rencontre avec un numéro de téléphone inscrit dans un tableur : 0636353433 -> 636353433, mais c'est aussi le cas des codes de département INSEE sur deux chiffres, y compris pour les départements 01 à 09.
  3. A titre d'exemple simple, les cartes géographiques sont inadaptées pour la représentation de résultats électoraux : il existe un découplage entre les surfaces des circonscriptions et leur poids électoral. Il faudrait ainsi déformer les cartes pour que les surfaces des circonscriptions soient toutes identiques à travers par exemple une anamorphose.
KeyRefthessen2011 +, brackstone1999 +, boydens2012 +, noy2001 +, bedard1986 +, dao2005 +, saporta2011 +, polanco2008 +, davis2012 +, desrosieres2008a +, popper1972 +, chartron2016 +, bertrand1986 +, bellino2013 +, zuiderwijk2012 +, batini2009 +, bernerslee2006 +, wilkinson2016 +, rahm2000 +, thomsen2009 +, bouroche2006 +, pitarch2010 +, chen2008 + et inmon2005 +
PageLabelLa donnée et sa place dans les cycles de l'information +
TaskFigure cycle information +