Éléments spécifiques du traitement des données

De Metabolisme territorial
Aller à : navigation, rechercher

Le traitement des données comprend : la collecte des données, leur préparation, leur stockage et l'application d'une méthode d'analyse de données (§1). En plus des implications liées à la définition du périmètre, chacune de ces phases a ses propres spécificités au regard de l'exercice d'étude du métabolisme, spécificités que nous allons voir en détail. Nous n'avons pas d'éléments particuliers à ajouter pour la préparation : Les éléments généraux (§1.1) et les implications du périmètre (§3.2.1) font déjà état des contraintes qui pèsent sur ce travail préparatoire.

La collecte des données

Nous avons déjà présenté la collecte de données pour l'étude du métabolisme des territoires comme un exercice minutieux et d’enquête à la recherche des "meilleures données disponibles", et nous avons vu qu'elle posait de nombreuses difficultés (§2.2.3 & §2.4.X) : qualité variable, difficulté d'accès, temps de préparation, ... Le travail à mener décrit par le CGDD (2014) est long : il nécessite de rassembler près d'une cinquantaine de sources de données, chacune pouvant résulter en plusieurs jeux de données avec des besoins spécifiques en termes de préparation. De notre expérience, très peu de sources présentent un haut niveau d'utilisabilité (§1X). Le niveau de détail peut être insatisfaisant, les données peuvent être mal structurées, ou l'effort à fournir pour les trouver être important. Pour les données qui ne sont pas disponibles sur internet, il faut contacter les organismes qui disposent des données. Il est ainsi nécessaire que les personnes contactées prennent le temps de s'occuper de la demande et que l'organisme accepte de partager ses informations. Ce n'est généralement pas le cas des entreprises privées, ce qui est bien dommage car elles détiennent des données pertinentes et fines pour l'étude du métabolisme d'un territoire, en particulier dans une approche bottom-up (Shahrokni et al. 2015). Tant bien même que l'organisme accepte, il faut parfois passer en plus par une convention ou une facturation.

Afin de faciliter le déroulement des études, nous formulions plusieurs recommandations générales : (1) généraliser les normes de la comptabilité matière, (2) développer les infrastructures de données, et (3) former les acteurs à mieux collecter et partager les données sur la matière qu’ils manipulent. Nous soulignions également le rôle nécessairement moteur des institutions publiques dans ce processus, rôle qui n'est pas toutefois pas encore assez affirmé et opérationnalisé.

Pour compléter ces éléments déjà évoqués, nous nous attardons ici sur deux autres points particuliers de la collecte de données : le travail de recensement des sources et le rôle de la règlementation.

Le recensement des sources de données

Vu le nombre de source à considérer, le travail de recensement réalisé par le CGDD (2014) dans son guide est évidemment salutaire. Toutefois, nous pouvons tout de même relever quelques points encore problématique :

  • Les sources ne sont pas présentées de manière synthétique, ce qui masque l'ampleur de la tâche et ne permet pas un accès rapide : il faut en effet entrer dans le détail du texte pour retrouver ces sources. Les liens URL permettant un accès direct aux données ne sont pas non plus mentionnés pour la plupart.
  • Comme tout document finalisé, il n'est pas dynamique. Or, de nouvelles données peuvent apparaître, d'autres disparaître (notamment suite à de nouvelles lois, comme pour les données sur le transport ferroviaire), les organismes qui produisent ces données changer ainsi que les systèmes d'information, et avec eux l'organisation des données, les liens URL ... Ainsi certaines références du document sont déjà obsolètes, sans compter une série de micro-fautes que nous avons relevé et qu'il faudrait corriger.
  • Étant réalisé pour être pertinent à l'échelle nationale, ce recensement ne peut pas faire état toutes les particularités locales. Il existe notamment des organismes à plus petite échelle (régionale, voire communale) qui disposent également de données qui peuvent être mobilisées dans l'étude du métabolisme d'un territoire[1]. Les jeux de données à mobiliser son donc variables pour chaque territoire et ne peuvent donc pas tous être cités dans le guide national.

Afin de faciliter le travail d'identification des sources de données, nous proposons un tableau synthétique accessible en ligne (et en annexe) qui reprend les sources identifiées par Barles (2014) et le CGDD (2014) avec certaines caractéristiques (producteur, contenu, URL, condition d'utilisation ...) [2]. Nous proposons aux contributeurs volontaires de venir participer à ce travail afin de permettre son amélioration et sa mise à jour régulière. Il vise à (1) donner une meilleure vue d'ensemble des jeux de données à mobiliser et permettre d'y accéder rapidement par un lien URL direct le cas échéant, (2) être actualisable pour recenser de nouveaux jeux de données ou en modifier les caractéristiques, (3) permettre de référencer des sources plus locales (régionales, départementales, voire communales).

Nous pouvons également citer le travail du groupe "Metabolism of cities" qui a déployé une plateforme partcipative en ligne visant à regrouper les connaissances autour du sujet du métabolisme urbain. Cette plateforme comprend notamment un espace centralisé pour regrouper de manière standardisée les données émanant des différentes études de métabolisme à travers le monde[3]. Les données disponibles sont pour l'instant encore partielles, mais le projet a le mérite de contribuer à la dynamique de partage que nous mentionnions auparavant.

Adapter le cadre règlementaire

Nous avons déjà évoqué le rôle de cadrage que pouvait jouer la réglementation pour le développer les analyses de flux (§2X). Dans cette partie nous étudions son rôle dans l'accessibilité des données mobilisables dans le cadre d'une étude de métabolisme. Elle joue en effet un rôle significatif en codifiant un certain nombre d'obligations, de procédure et de restriction relatives à ces données.

Les données du métabolisme n'échappent pas au conflit opposant la volonté d'ouvrir les données pour favoriser la connaissance et l'innovation à celle de les garder confidentielles pour préserver les intérêts économiques et stratégiques (§ 1.3.3). En fait, nous sommes même en plein dedans : de la description des flux physiques mobilisés par un acteur, il est possible de déterminer la nature et l'importance de son activité. Dans un environnement concurrentiel, il est ainsi préférable de rester discret sur ces informations.

En plus des dispositions générales, notamment celles relatives à la protection du secret des affaires, d'autres textes viennent renforcer cette discrétion sur certains secteurs spécifiques. Ainsi, les statistiques relatives au trafic de marchandises par voie ferrée fait l'objet d'une réglementation spécifique. En raison de l’ouverture du marché du transport ferroviaire, la diffusion des données a connu des interruptions. Les dispositions des articles R1211-1 à R1211-15 du code des transports définissent ainsi l'accès aux informations relatives au trafic ferroviaire[4]. Il s'agit de permettre l'accès aux données par l'Etat et à d'autre autorités publiques, à conditions que ce soit dans le cadre d'une mission de service public en lien avec les infrastructures de transport, et de ne pas porter atteinte au secret des affaires. Dans le cas où les informations sont susceptibles de porter atteinte au secret des affaires, une procédure spécifique impliquant le ministre des transports peut être mise en place. La lourdeur de la démarche nous a ainsi dissuadé de l'envisager. En parallèle, la réglementation fait état de prérogatives particulières pour l'Autorité de régulation des activités ferroviaires et routières (ARAFER) en ce qui concerne la collecte des données auprès des entreprises ferroviaires (articles L1264-2 et L2132-7 du code des transports). Ces données permettent à l'ARAFER d'alimenter un Observatoire des Transports faisant état des activités qu'elle régule.

Si les statistiques sur le transport de marchandises par voie ferrée font l'objet d'une protection réglementaire spécifique, d'autres domaines font l'objet d'une plus grande ouverture grâce à la réglementation. Par exemple, les opérateurs d'énergie (électricité, gaz ...) doivent rendre public les données de consommation à un niveau de détail fin, celui de la maille IRIS[5].

  • + obligation collectivité gros batiment
  • + obligation rejets

Ainsi, la question de la confidentialité et de la propriété des données que nous évoquions précédemment (§1) est pleinement présente dans les études de métabolisme, surtout si l'on souhaite atteindre un grand niveau de finesse . Il y a un conflit assez difficile à trancher entre la volonté de garder l'information confidentielle pour protéger les intérêts individuels et économiques, et celle de partager l'information afin de mieux connaître la pression de notre société sur l'environnement et de nous coordonner pour sa préservation. Dans cette opposition, la seconde approche nous semble plus impérative aux regards des enjeux, et nous rejoignons la position (politique et donc polémique) de différents auteurs qui demandent une plus grande transparence des personnes morales, qu'elles soient publiques ou privées, quant aux ressources qu'elles mobilisent (Georgeault 2015).

Le stockage des données

Au regard de la méthodologie proposée par le CGDD (2014), le stockage des données se fait par l'intermédiaire de fichiers tableurs, stockés sur un ordinateur ou un réseau local (non accessible via le web). Pour ceux qui réalisent l'étude, cela offre une structure assez simple et souple pour un travail manuel. Toutefois, cette structuration des données (voir chapitre X) limite les possibilités :

  • La complexité de la réalité ne rentre pas facilement dans des tableaux en deux dimensions. Il faut ainsi opérer des choix de structure qui vont venir réduire la complexité et donc la subtilité des informations retenues.
  • La rétro-analyse de la synthèse des données (c'est-à-dire comprendre comment les données initiales ont permis de produire les données finales) est fastidieuse, malgré un véritable soucis constaté de rendre transparente la méthodologie dans l'étude menée par la Région Alsace & Ademe (2015).
  • La transmission des données vers l'extérieur implique de dupliquer ces données, pouvant engendrer d'éventuels conflits de version. De plus, il n'y a pas de base centralisée de référence, accessible en ligne. Cela implique de procéder à des échanges de personne à personne pour obtenir ces données, ce qui peut s'avérer consommateur de temps pour identifier et contacter la personne détenant les données.

Améliorer le stockage des données

Pour dépasser ces limites, il nous semble déjà utile de rendre accessible en ligne le détail des résultats (en plus des données sources dont nous avons déjà parlé dans un paragraphe précédent) afin de renforcer leur utilisabilité. Interrogées à ce sujet, les personnes qui ont réalisé l'étude du métabolisme de l'Alsace (Région Alsace & Ademe 2015) ont toutefois partagé leur crainte de voir les résultats chiffrés interprétés strictement, alors que l'étude contient bien trop de biais pour que ces chiffres puissent être considérés comme vraiment fiables. Même si nous comprenons les réticences, il nous semble tout de même nécessaire de rendre plus accessible ce type de littérature grise, au moins à la communauté scientifique.

Vient ensuite la question de la structure des données. Le tableur 2D étant trop limité, nous devons envisager d'autres structures plus à même de décrire la réalité des flux de matières et d'énergie. Une base de données basée sur un modèle entité/association peut permettre d'implémenter une grande complexité dans l'information. Davis (2012) propose même d'utiliser les technologies du web de données pour structurer cette information. Ces approches sont toutefois plus complexes à implémenter, rend les données plus difficiles à manipuler et nécessitent un modèle de données explicite et consensuel. Dans le chapitre 4, nous proposons un modèle de données pour l'étude du métabolisme des territoires. Ce modèle est implémenté dans la base de données d'une solution logicielle qui vise également à réduire la complexité dans la manipulation des données.

Autres notions

  • Le guide méthodologique du CGDD (2014), propose en annexe un tableur préformaté. Il contient un onglet pour chaque type de flux (importations, rejets dans l'environnement, recyclage, ...), chaque onglet détaillant les quantités relatées aux différents items de la nomenclature EWMFA. Un onglet contient en outre une synthèse de ces données sous la forme d'indicateurs (voir partie suivante).
  • Ces sources sont généralement récupérées sous la forme de tableurs 1D (ou enregistrements, voir chapitre X) représentant des listes de flux : importations, exportations, extraction, rejets dans l'environnement, recyclage, productions, consommations ...

La double-comptabilité

La double comptabilité est un risque important dans la manipulation des données sur le métabolisme. Ce risque peut se manifester de deux manières :

  • Lors de l'intégration de différentes sources de données ayant une partie de leur périmètre en commun et donc décrivant les mêmes flux, possiblement sous des intitulés et nomenclatures différents.
  • Lorsque des éléments sont hiérarchisés, il est parfois impossible de savoir si les valeurs présentés sont inclusives. Par exemple (fictif), des données de production agricoles pour un territoire annoncent : 1800 t de céréales, 600 t de riz. Sans recherche supplémentaire, il n'est pas possible de déterminer s'il s'agit de 1800 t ET 600 t, ou de 1800 t DONT 600 t.

Ces risques de double comptages sont toutefois assez faible pour les méthode de comptabilité matière telles que proposées par Eurostat / CGDD. Ils deviennent plus significatifs lorsqu'il s'agit de croiser différentes données par exemple pour mener à bien des analyses de cycle de vie https://savoirs.usherbrooke.ca/bitstream/handle/11143/9580/Forcier_Ugo_MEnv_2016.pdf?sequence=1

Méthodes d'analyses des données du métabolisme

Les méthodes d'analyses du métabolisme prennent différentes formes, apportant des regards différents sur la dynamique matérielle d'un territoire. Nous présentons §2 différentes typologies d'applications des AFME, l'objectif des méthodes d'analyse est de pouvoir concrétiser ces applications.

Dans son guide méthodologique, le CGDD (2014) intègre une partie dédiée à l'analyse des résultats pour aider à l'extraction des informations utiles de l'étude. Le groupe de travail (Metabolism of Cities 2016) a également rassemblé de nombreuses suggestions de visualisation de données pour représenter le métabolisme urbain.

Les indicateurs du bilan entrées / sorties

Le bilan entrées / sorties (BES) fait la synthèse des quantités de matière (/ d'énergie) entrantes dans l'économie d'un territoire (importées ou extraites) et sortantes (exportées ou rejetées dans l'environnement). La différence (entrées - sorties) permet de quantifier l'accumulation interne de matière, par exemple et notamment sous forme de bâtiments et d'infrastructure. Les quantités associées aux différentes catégories de flux vont permettre de créer une série d'indicateurs, dont il va être possible de combiner certains entre eux pour en créer une autre série.

Ce bilan peut se présenter sous une forme graphique, à l'image de la figure X2 (§2) qui reprend les données le bilan E/S réalisé par (Région Alsace & Ademe 2015), de manière plus sobre mais en intégrant une mise à l'échelle et une partie des indicateurs. Il est possible également de rendre ce graphique dynamique pour accéder un à niveau de détail supplémentaire sur les flux, à l'image des travaux du groupe Elioth (2014) sur le métabolisme de Paris et de l’Île-de-France.


Si le bilan E/S global d'un territoire est un indicateur intéressant, il manque d'exploitabilité. Il faudrait pouvoir


Cette structuration des données :

  • ne permet pas d'analyse historique (il s'agit de la synthèse d'un exercice mené sur un an)
  • peut permettre de dissocier, mais de façon peu exploitable, les différents types de flux selon leur origine et leur moyen de transport
  • Les indicateurs du métabolisme (DMI, DMC, ...).

Toutefois, il faut être prudent dans l'utilisation de ces indicateurs. Outre leur aspect très macro, + AUTRE PB (cf article), certains indicateurs (les importations, les exportations et les indicateurs qui en sont dérivés) peuvent être qualifiés de "sensibles à l'échelle". Ils vont varier de façon non linéaire avec l'échelle du territoire étudié (ville, région, pays ...) et posent un problème fondamental d'interprétation lorsqu'ils sont ramenés au nombre d'habitants. Nous invitons ainsi les praticiens des études de métabolisme à éviter d'exprimer les indicateurs sensibles à l'échelle sous forme de ratio par habitant. Nous détaillons cette problématique dans un article Chapitre X, et nous proposons des alternatives, notamment un indicateur d'importation individuelle.


D'autres indicateurs et critères

Les indicateurs de masse du BES ne sont pas les seuls qu'il est possible de produire. En fait, il y a flopées d'indicateurs qui peuvent dériver d'une étude de métabolisme territorial, notamment lorsqu'on change d'unité pour aborder une thématique spécifique : impact climatique en kg eq. CO2, la balance commerciale en euro, la qualité de l'air en kg eq. PM2,5, l'intensité matière de l'économie en kg par euro ...

L'utilisation d'indicateurs est un moyen synthétique pour suivre l'évolution du développement du territoire. En revanche, il faut y mettre toute les précautions lorsqu'il s'agit d'en faire des objectifs de développement, à l'instar des considération sur la loi de Goodhart (§1.3.). Ces indicateurs peuvent aider à faire des choix pour le développement territorial en comparant différents scénario, à l'instar de l'approche multi-critères implémentée dans un outil d'aide à la décision (DSS - Decision Support System) par Chrysoulakis et al. (2015). Cet outil, inspiré de la méthode de hiérarchie multicritère (AHP - Analytic Hierarchy Process) http://www.sciencedirect.com/science/article/pii/037722179090057I {Ref needed} permet de faire une synthèse de différents indicateurs environnementaux, économiques et sociaux, en donnant également la possibilité au décisionnaire de pondérer le poids des différents indicateurs et sous-indicateurs pour obtenir un résultat reflétant ses priorités subjectives. Cela offre une possibilité d'interaction entre les données et l'utilisateur-décisionnaire, et donc d'une meilleure appropriation par ce dernier.

Les diagrammes en toile sont souvent un moyen pratique de représenter une série d'indicateurs (environ 4 à 10). Nous attirons toutefois l'attention sur la nécessiter d'une représentation sectorisée des critères (Figure X.a) et non pas de les relier de manière continue ce qui ne traduirait pas la nature discrète et disjointe des indicateur (Figure X.b)

Tableaux entrées / sorties

  • Peuvent se combiner
  • Modélisation dynamique linéaire selon l'approche de MachinMatrices
  • Représentation graphique à travers un diagramme de Sankey

Les diagrammes de Sankey

http://graphicalmemes.com/gallery.html


Aires d'approvisionnement

Le questionnement sur les aires d'approvisionnement va chercher à interroger les importations et exportations par rapport à leur provenance ou leur éloignement.

Intégrer des considérations géopolitiques, étudier la résilience pour l'approvisionnement (§2.X)

  • L'étude des aires d'approvisionnement vise à étudier la distance parcourue par les produits arrivant sur un territoire donné. Elle distingue les produits issus du territoire, de ceux importés des limitrophes (1er et 2e cercle par exemple) ou plus lointain. Elle permet de mettre en évidence les liens et la dépendance d'un territoire vis-à-vis des autres territoires.

Cartographie des flux

  • Avantage des outils SIG / cartographiques (Chrysoulakis et al. 2015) :
    • Fournissent des moyens objectifs, précis pour évaluer et quantifier
    • Présente les données pertinentes dans un format géographique et visuel.
    • Les SIG fournissent une information de façon efficace et compréhensive.

Autre représentations graphiques

Diagrammes circulaires, histogramme, nuage de points

https://archive.metabolismofcities.org/datavisualization/examples

Voir également



Références

• Barles, S., 2014, L’écologie territoriale et les enjeux de la dématérialisation des sociétés : l’apport de l’analyse des flux de matières, Développement durable et territoires, 5. DOI : 10.4000/developpementdurable.10090
• CGDD, 2014, Comptabilité des flux de matières dans les régions et les départements - Guide méthodologique, Références du Service de l’observation et des statistiques (SOeS). Commissariat Général au Développement Durable. [En ligne] URL : https://www.statistiques.developpement-durable.gouv.fr/sites/default/files/2018-10/guide-methodologique-references-flux-de-matiere-juin2014.pdf. Consulté le 19 avril 2018.
• Chrysoulakis, N., Castro, E., Moors, E., 2015, Understanding urban metabolism: a tool for urban planning. Routledge
• Davis, C., 2012, Making Sense of Open Data: From Raw Data to Actionable Insight.. [En ligne] URL : https://repository.tudelft.nl/islandora/object/uuid:88c3c6f9-d6a2-4a82-9353-884a3b77b6ed. Consulté le 19 avril 2018.
• Elioth, 2014, Métabolisme Urbain de Paris. [En ligne] URL : http://metabolisme.paris.fr/. Consulté le 19 avril 2018.
• Georgeault, L., 2015, Le potentiel d'écologie industrielle en France : approche territoriale et éléments de réalisation.. [En ligne] URL : http://www.theses.fr/s91113. Consulté le 19 avril 2018.
• Lemoisson, P., Tonneau, J., Maurel, P., 2015, L’intelligence territoriale dans le bassin de Thau : un observatoire pour penser et piloter l’action, pp. 59-74. DOI : 10.3917/quae.torre.2015.01.0059
• Metabolism of Cities, 2016, Data Visualizations in Urban Metabolism Research. [En ligne] URL : https://metabolismofcities.org/datavisualization. Consulté le 19 avril 2018.
• Région Alsace, Ademe, 2015, Consommations, besoins et richesses du territoire alsacien. [En ligne] URL : https://alsace.ademe.fr/sites/default/files/files/Domaines-intervention/Economie-circulaire/synthese_etude_de_flux_juillet2015.pdf. Consulté le 19 avril 2018.
• Shahrokni, H., Lazarevic, D., Brandt, N., 2015, Smart Urban Metabolism: Towards a Real-Time Understanding of the Energy and Material Flows of a City and Its Citizens, Journal of Urban Technology, 22, pp. 65-86. Routledge. DOI : 10.1080/10630732.2014.954899


Notes de bas de pages

  1. C'est par exemple le cas des associations agréées de surveillance de la qualité de l'air (la plupart connue sous le nom ATMO) qui produisent des données à l'échelle régionale et en deçà.
  2. https://docs.google.com/spreadsheets/d/1QEFdXToeoLe_wVEyChV9B49KuM9o9iZy505Rqyl1mYs/edit?usp=sharing
  3. https://metabolismofcities.org/resources/data/datasets
  4. Anciennement référencé comme le décret n° 2012-555 du 23 avril 2012 relatif à l'accès de l'Etat, des collectivités territoriales et de leurs établissements publics à certaines informations et données sur le transport ferroviaire. Ce décret a été transposé dans les dispositions communes et abrogé en tant que tel en mai 2014. Afin d'assurer la confusion, ce décret est encore cité dans différents documents récents émanent des services ministériels : https://www.statistiques.developpement-durable.gouv.fr/sites/default/files/2018-11/datalab-essentiel-136-transport-ferroviaire-2016-fevrier2018.pdf.
  5. Voir notamment l'article 179 de la loi de transition énergétique pour une croissance verte et sa déclinaison sous la forme de l'arrêté du 18 juillet 2016 fixant les modalités de transmission des données de transport, distribution et production d'électricité, de gaz naturel et de biométhane, de produits pétroliers et de chaleur et de froid.
CiteRefCallRef needed +
KeyRefcgdd2014 +, barles2014 +, georgeault2015 +, shahrokni2015 +, metabolismofcities2016 +, regionalsace2015 +, elioth2014 +, chrysoulakis2015 +, lemoisson2015 + et davis2012 +
PageLabelÉléments spécifiques du traitement des données +