Le traitement des données pour l'évaluation du métabolisme territorial

De Metabolisme territorial
Aller à : navigation, rechercher

Si nous voulons automatiser l'évaluation du métabolisme d'un territoire, nous devons expliciter le processus de traitement des données. Pour ce faire, nous examinerons la méthodologie "officielle" proposée par le CGDD (2014) ainsi que d'autres approches empiriques ou théoriques. L'objectif de notre analyse est de mettre en exergue tous les processus déployés qui permettent d'aboutir à l'évaluation de tout ou partie du métabolisme d'un territoire.


Autres éléments

  • La méthodologie présentée par le CGDD n'est pas la seule possible
  • D'autres approches s'intéresse à tout ou partie du métabolisme d'un ou plusieurs territoires
  • Les données sources se confondent


Préparation des données

La préparation des données pour l'étude du métabolisme d'un territoire comporte certaines spécificités. Ainsi la manipulation de différentes nomenclatures ou unités est incontournable, le choix de la période d'étude et du pas de temps peut restreindre l'analyse, et plusieurs difficultés peuvent survenir comme la double comptabilité ou l'évolution des territoires et leur désignation.

Choix d'une nomenclature de référence

Les nomenclatures sont incontournables pour la classification de l'information statistique (§ 1). La méthodologie proposée par Eurostat (2001) définit une nomenclature spécifique pour l'exercice de comptabilité des flux de matière, nous l'appellerons Nomenclature EW-MFA[1]. Cette nomenclature classe hiérarchiquement les flux selon leur composition matérielle en quatre grandes catégories : la biomasse, les métaux, les minerais non métalliques et les énergies fossiles.

Toutefois, les données mobilisées dans les études de métabolisme sont rarement exprimées dans cette nomenclature. Par exemple, les statistiques de transport de marchandises sont exprimées dans la "Nomenclature uniforme des marchandises pour les statistiques de transport 2007" (NST2007) qui classifie les produits en lien avec l'activité économique productive (produit de l'agriculture, produits chimiques, meubles, ...)[2]. Les statistiques agricoles française, que l'on peut retrouver sur le site Agreste[3] utilisent quand à elle une autre nomenclature : la Classification des produits française (CPF).

Nous pourrions lister d'autres nomenclatures qui peuvent figurer dans les données sources mobilisées : la "Classification statistique des produits associée aux activités" (CPA), la "Nomenclature Combinée" (CN) dont une nouvelle version apparaît chaque année ou encore la "Classification des flux en Écologie Industrielle et Territoriale" (CFEIT)[4] proposée par le Réseau des Chambres de Commerces et d’Industries de France.

Dans certains cas, la désignation d'un produit dans des jeux de données ne repose pas sur une nomenclature définie. Si un nombre restreint d'intitulés est utilisé, il est finalement possible de les considérer comme constituant une nomenclature spécifique au jeu de données. A contrario, si un grand nombre d'intitulé est utilisé sans convention apparente, la création d'une nomenclature spécifique peut sembler fastidieux. L'avantage de cette approche réside dans son opérationnalité : elle permet de désigner aussi finement que nécessaire un produit et donc de l'identifier sans ambiguïté parmi d'autres (comme "Crème fraîche 5% MG" vs. "Crème fraîche 15% MG"), ce qui n'est pas le cas en utilisant une nomenclature prédéfinie (qui ne contiendrait par exemple que le champ "Crème fraîche"). L'inconvénient est que cette désignation peut être fonctionnelle dans un contexte (dans une entreprise) mais incompréhensible ou non exploitable dans un autre. Les intitulés libres ne permettent pas non plus de réaliser automatiquement des agrégats statistiques, sauf à user d'algorithmes plus évolués (Davis 2017).

Ainsi, dans l'exercice d'évaluation du métabolisme d'un territoire, il est nécessaire de convertir les produits classés selon différentes nomenclatures vers une unique nomenclature de référence. Il peut s'agir de la nomenclature EW-MFA, mais aussi d'une autre nomenclature selon les objectifs de l'étude : CFEIT par exemple pour les démarches d'écologie industrielle et territoriale, ou le tableau périodique des éléments pour les analyses de flux de substances, en se concentrant par exemple sur l'azote (N) ou le phosphore (P) dont la modification des cycles biogéochimiques par l'activité humaine pose des problèmes de durabilité. (Silvestre et al. 2012 ; Le Noé et al. 2016 ; {Ref needed}:REF PAUL BLOIS ICUBE).

Il est possible de trouver des tables de conversion entre différentes nomenclatures dans la littérature, le CGDD et Eurostat en proposant certaines dans leurs guides méthodologiques. Si certains intitulés se retrouvent dans plusieurs nomenclatures, le plus souvent la conversion d'une nomenclature à l'autre relève d'une approximation. Il est même parfois impossible de réaliser correctement la conversion, la classification d'origine utilisée ne correspondant pas aux objectifs de l'étude. Par exemple, l'item 11.44 de la NST2007 "Parties d’appareils d’éclairage" n'est pas suffisamment explicite pour permettre une conversion selon la composition matérielle dans l'esprit de la nomenclature EW-MFA. L'existence d'une catégorie "Autre/Divers/Indiscernable" est ainsi difficilement évitable. Parfois, un produit classé dans une nomenclature doit être converti en plusieurs produits d'une autre nomenclature, avec l'application de différents coefficient de passage. C'est entre autres le cas dans les études des cycles biogéochimiques, pour lesquels les masses de produits courants (ex : 1 kg de maïs) sont convertis par exemple en azote (~ 15 g d'azote ; Le Noé et al. 2016) ou en phosphore (~ 0,5 g).

Différentes unités

Le choix de l'unité est essentiel pour s'inscrire dans différents cadre théorique et aborder diverses problématiques qu'elles soient économiques, environnementales ou sociales (§ 2). En pratique la plupart des études de métabolisme visent à quantifier les flux en kilogramme (kg), ou en kilowatt.heure (kWh) pour la partie énergétique, même si ce choix peut être facilement critiqué (Van der Voet et al. 2004).

Les données sources ne sont toutefois pas toujours exprimées dans ces unités. Par exemple, les consommations de gaz et de pétrole sont souvent exprimées en tonnes équivalent pétrole (tep), en baril ou en mètre-cube. Afin de standardiser ces données, des coefficients de conversion sont souvent utilisés pour obtenir l'équivalent en kg ou kWh. Ces coefficients peuvent être soit des constantes (le passage de la tonne au kg), soit dépendre de caractéristiques physiques (m3 de gaz vers des kWh) ou sociétales (kWh de gaz en euros) de l'élément étudié qui peuvent ne pas être constantes. Le changement d'unité à travers des coefficients de passage implique ainsi souvent une approximation, et donc une perte de qualité de l'information difficilement évitable, si ce n'est en évaluant les incertitudes ou en utilisant des modèles prenant en compte les conditions variables mais qui sont plus complexes à mettre en œuvre.

En plus des approximations, l'usage de coefficients nécessite une démarche souvent manuelle et spécifique à chaque type de produit, à la fois pour repérer ces coefficients dans littérature, et aussi pour les appliquer sur les données initiales.

Ainsi, le travail sur les unités est incontournable dans les études de métabolisme, pour rassembler les données et pour explorer différents cadres théorique. Il peut prendre un certain temps, sans apporter de réelle valeur ajoutée en soi, surtout s'il ne s'agit que d'appliquer des coefficients. Il nous paraîtrait ainsi pertinent de pouvoir disposer de fonctionnalités permettant de gérer plus facilement les unités et leur conversion.

Choix de la période et du pas de temps

La plupart des études identifiées quantifient le métabolisme d'un territoire sur une année donnée. Dans l'étude menée par Région Alsace & Ademe (2015), la faible disponibilité des données a même contraint à rassembler des sources d'années différentes. Quelques travaux étudient l'évolution des flux sur plusieurs années comme ceux de Rosado et al. (2014) qui présente une démarche prospective du métabolisme de Lisbonne, ou ceux de Courtonne (2016) qui permettent de consolider les données relatives au transport de marchandises grâce à des statistiques pluriannuelles.

Le pas de temps utilisé est généralement d'un an, donc souvent confondu avec la période d'étude. De nombreuses sources mobilisées présentent en effet des données annuelles. Toutefois, il est souvent bénéfique de pouvoir utiliser des pas de temps plus petits pour mettre en évidence des phénomènes saisonniers, si tant est que les données sources le permettent. Ce fut le cas dans notre application {Ref needed}Chapitre5. En se projetant dans l'imaginaire technophile des villes connectées (ou "smart cities"), nous pourrions même vouloir disposer d'une connaissance en temps réel des flux. En fait, des informations en temps réel de certains secteurs sont déjà disponibles par exemple le trafic aérien ou maritime [5].

L'utilisation de différents pas de temps nous permet d'identifier un phénomène un peu déroutant que nous pouvons constater sur la figure X. Les données représentées sont les mêmes, et pourtant elle ne le semble pas. Le choix d'un pas de temps mensuel, rapporté soit au mois, soit au jour, met en exergue une incohérence pour le mois de février qui compte moins de jours de que les autres (~10 % de moins que janvier ou mars). Nous appelons cette incohérence Modifiable Temporal Unit Problem (MTUP), à l'image du Modifiable Areal Unit Problem (MAUP) que nous abordons plus en détail dans le chapitre X.

Ainsi, une étude sur une année, avec le même pas de temps est souvent un choix commode par rapport aux données disponibles et pour les standardiser. Pour être capable d'analyser les données selon une dimension temporelle, il faut être capable de considérer des données pluriannuelles ou avec un pas de temps plus fin. Cela implique plus de complexité et l'apparition de phénomènes problématiques comme le MTUP (dont les conséquences nous semblent toutefois assez marginales) mais permet de consolider des données et de mettre en avant d'autres dynamiques.

Double comptabilité

  • Double insertion d'un objet/d'un attribut


Désignation et évolution des territoires

En ce qui concerne les problèmes de géocodage (c'est-à-dire obtenir les coordonnées géographiques à partir d'une adresse postale), ils peuvent avoir plusieurs origines : (1) l'adresse à géocoder est tout simplement erronée ou ambigüe (lorsque l'adresse mentionne plusieurs numéros par exemple), (2) l'adresse n'existe plus car le nom des rues, voire les rues elles-même ont changé (notamment lors d'opération d'urbanisme), (3) la base de données du fournisseur de service de géocodage est incomplète ou erronée. Ce dernier point est particulièrement notable avec Nominatim, basé sur les données d'OpenStreetMap, démarche collaborative.

  • Le territoire évolue, son découpage administrative avec (Grande Région)


La sélection des données

La sélection des données vise à ne retenir que celles qui figurent à l'intérieur du périmètre de l'étude. Dans les études de métabolisme, ce périmètre défini généralement au minimum le territoire étudié, le type de matière (parfois toutes), la période et l'unité de quantification. Éventuellement il peut également préciser les acteurs concernés, les moyens de transports étudié et les usages qui en sont fait.

L'opération de sélection des données peut avoir différent niveau de difficultés selon les données disponibles. Dans les cas les plus simples, les données disponibles correspondent au niveau de détail désiré dans l'étude, en utilisant les bonnes convention : échelle, période, pas de temps, unité, nomenclatures ... Ainsi, il n'y a qu'à utiliser les fonctions de filtrage des tableurs ou des requêtes pour récupérer les données du périmètre d'étude. En général, l'opération de préparation des données vise justement à ce que ce soit le cas.

Toutefois, si l'opération de préparation facilite la sélection des données, l'inverse est également parfois nécessaire : il faut sélectionner les données à préparer, par exemple pour agréger plusieurs données mensuelles en une donnée annuelle.

La complexité apparaît lorsque les données disponibles n'ont pas le même niveau de détail

Choix du territoire de l'étude

Nous le mentionnions précédemment (§ 2.5.1), les études de métabolisme territoriale peuvent être menées à différentes échelles territoriales selon les objectifs fixés et les acteurs impliqués : une ville, une région ou un pays, ... Toutefois, les données statistiques disponibles ne correspondent pas toujours au territoire étudié : les données peuvent concerner d'autres territoires ou être disponibles à une échelle différente. Dans le premier cas, et peuvent faire l'objet d'une automatisation. Dans le second cas, qui n'est pas exclusif avec le premier, les échelles des données disponibles et du territoire étudié ne correspondent pas et cela va nécessiter un traitement spécifique. Si les données décrivent des territoires plus petits, comme des données départementales pour une étude régionale, il faut les agréger. L'opération n'est pas complexe, mais requiert tout de même de conceptualiser un modèle hiérarchique entre les territoires décrits et celui étudié, modèle qui doit être explicité formellement en cas d'automatisation du processus. De l'autre coté, si les données décrivent des territoires plus grands, comme des données départementales pour une étude urbaine, le processus de réduction d'échelle (down-scaling) est plus complexe, mais il est possible d'obtenir des estimations en s'appuyant sur des données complémentaires disponibles à la bonne échelle (Courtonne 2016).

Le stockage des données

Au regard de la méthodologie proposée par le CGDD (2014), le stockage des données se fait par l'intermédiaire de fichiers tableurs, stockés sur un ordinateur ou un réseau local (non accessible via le web). Pour ceux qui réalisent l'étude, cela offre une structure assez simple et souple pour un travail manuel. Toutefois, cette structuration des données (voir chapitre X) limite les possibilités :

  • La complexité de la réalité ne rentre pas facilement dans des tableaux en deux dimensions. Il faut ainsi opérer des choix de structure qui vont venir réduire la complexité et donc la subtilité des informations retenues.
  • La rétro-analyse de la synthèse des données (c'est-à-dire comprendre comment les données initiales ont permis de produire les données finales) est fastidieuse, malgré un véritable soucis constaté de rendre transparente la méthodologie dans l'étude menée par la Région Alsace & Ademe (2015).
  • La transmission des données vers l'extérieur implique de dupliquer ces données, pouvant engendrer d'éventuels conflits de version. De plus, il n'y a pas de base centralisée de référence, accessible en ligne. Cela implique de procéder à des échanges de personne à personne pour obtenir ces données, ce qui peut s'avérer consommateur de temps pour identifier et contacter la personne détenant les données.

Améliorer le stockage des données

Pour dépasser ces limites, il nous semble déjà utile de rendre accessible en ligne le détail des résultats (en plus des données sources dont nous avons déjà parlé dans un paragraphe précédent) afin de renforcer leur utilisabilité. Interrogées à ce sujet, les personnes qui ont réalisé l'étude du métabolisme de l'Alsace (Région Alsace & Ademe 2015) ont toutefois partagé leur crainte de voir les résultats chiffrés interprétés strictement, alors que l'étude contient bien trop de biais pour que ces chiffres puissent être considérés comme vraiment fiables. Même si nous comprenons les réticences, il nous semble tout de même nécessaire de rendre plus accessible ce type de littérature grise, au moins à la communauté scientifique.

Vient ensuite la question de la structure des données. Le tableur 2D étant trop limité, nous devons envisager d'autres structures plus à même de décrire la réalité des flux de matières et d'énergie. Une base de données basée sur un modèle entité/association peut permettre d'implémenter une grande complexité dans l'information. Davis (2012) propose même d'utiliser les technologies du web de données pour structurer cette information. Ces approches sont toutefois plus complexes à implémenter, rend les données plus difficiles à manipuler et nécessitent un modèle de données explicite et consensuel. Dans le chapitre 4, nous proposons un modèle de données pour l'étude du métabolisme des territoires. Ce modèle est implémenté dans la base de données d'une solution logicielle qui vise également à réduire la complexité dans la manipulation des données.




Références

• CGDD, 2014, Comptabilité des flux de matières dans les régions et les départements - Guide méthodologique, Références du Service de l’observation et des statistiques (SOeS). Commissariat Général au Développement Durable. [En ligne] URL : https://www.ecologique-solidaire.gouv.fr/sites/default/files/EIT_-_comptabilite_des_flux_de_matieres.pdf. Consulté le 19 avril 2018.
• Courtonne, J., 2016, Evaluation environnementale de territoires à travers l'analyse de filières : la comptabilité biophysique pour l'aide à la décision délibérative. Thèse de doctorat en Sciences de gestion. Université Grenoble Alpes. [En ligne] URL : https://tel.archives-ouvertes.fr/tel-01421664. Consulté le 19 avril 2018.
• Davis, C., 2012, Making Sense of Open Data: From Raw Data to Actionable Insight.. [En ligne] URL : https://repository.tudelft.nl/islandora/object/uuid:88c3c6f9-d6a2-4a82-9353-884a3b77b6ed. Consulté le 19 avril 2018.
• Davis, C., 2017, Using Linked Data to facilitate translations between product and industry classifications. ISIE-ISSST 2017 Conference: Science in Support of Sustainable and Resilient Communities. [En ligne] URL : http://programme.exordo.com/isie2017/delegates/presentation/716/. Consulté le 19 avril 2018.
• Eurostat, 2001, Economy-wide material flow accounts and derived indicators: a methodological guide, Eurostat Theme 2, Economy and finance. Office for Official Publ. of the Europ. Communities. [En ligne] URL : http://ec.europa.eu/eurostat/documents/1798247/6191533/3-Economy-wide-material-flow-accounts...-A-methodological-guide-2001-edition.pdf/. Consulté le 19 avril 2018.
• Le Noé, J., Billen, G., Lassaletta, L., Silvestre, M., Garnier, J., 2016, La place du transport de denrées agricoles dans le cycle biogéochimique de l'azote en France : un aspect de la spécialisation des territoires, Cahiers Agricultures, 25, pp. 15004. DOI : 10.1051/cagri/2016002
• Région Alsace, Ademe, 2015, Consommations, besoins et richesses du territoire alsacien. [En ligne] URL : https://alsace.ademe.fr/sites/default/files/files/Domaines-intervention/Economie-circulaire/synthese_etude_de_flux_juillet2015.pdf. Consulté le 19 avril 2018.
• Rosado, L., Niza, S., Ferrão, P., 2014, A Material Flow Accounting Case Study of the Lisbon Metropolitan Area using the Urban Metabolism Analyst Model, Journal of Industrial Ecology, 18, pp. 84-101. DOI : 10.1111/jiec.12083
• Silvestre, M., Billen, G., Garnier, J., 2012, Évaluation de la provenance des marchandises consommées par un territoire : AmstraM, une application de webmapping basée sur les statistiques de transport et de production, Écologie industrielle et territoriale: COLEIT, pp. 361-370
• Van der Voet, E., van Oers, L., Nikolic, I., 2004, Dematerialization: Not Just a Matter of Weight, Journal of Industrial Ecology, 8, pp. 121-137. MIT Press. DOI : 10.1162/1088198043630432


Notes de bas de page

  1. Cette nomenclature est mise à disposition sous forme de tableur par le CGDD : http://www.statistiques.developpement-durable.gouv.fr/publications/p/2101/1161/comptabilite-flux-matieres-regions-departements-guide.html ou est disponible en version originale https://ec.europa.eu/eurostat/web/environment/methodology (Economy-wide material flow accounts (EW-MFA) 2018 questionnaire)
  2. Conformément à la réglementation européenne (Règlement (CE) No 1304/2007 de la Commission du 7 novembre 2007), qui établit la NST 2007 comme "nomenclature unique des marchandises transportées dans tous les modes de transport concernés" (mer, voie navigable, rail, route). Il s'agit d'une mise à jour de la précédente version appelée NST-R (Nomenclature pour les statistiques de transport Révisée), que l'on a pu également retrouver dans d'anciennes statistiques.
  3. Agreste, la statistique agricole est le site du Service de la statistique et de la prospective (SSP) du Ministère de l’agriculture et de l’alimentation
  4. http://www.actif.cci.fr/sites/default/files/Documents/CCI_Nomenclature_EIT_public_v1.pdf
  5. Trafic aérien : https://flight-radar.eu/fr/suivi-des-vols-en-temps-reel/, trafic maritime : http://www.pilotage-maritime.nc/ais.php
CiteRefCallRef needed +
KeyRefcgdd2014 +, eurostat2001 +, davis2017 +, silvestre2012 +, lenoe2016 +, vandervoet2004 +, regionalsace2015 +, rosado2014 +, courtonne2016 + et davis2012 +
PageLabelLe traitement des données pour l'évaluation du métabolisme territorial +