Le traitement des données pour l'évaluation du métabolisme territorial

De Metabolisme territorial
Aller à : navigation, rechercher

Si nous voulons automatiser l'évaluation du métabolisme d'un territoire, nous devons expliciter le processus de traitement des données. Pour ce faire, nous examinerons la méthodologie "officielle" proposée par le CGDD (2014) ainsi que d'autres approches empiriques ou théoriques. L'objectif de notre analyse est de mettre en exergue tous les processus déployés qui permettent d'aboutir à l'évaluation de tout ou partie du métabolisme d'un territoire.


Autres éléments

  • La méthodologie présentée par le CGDD n'est pas la seule possible
  • D'autres approches s'intéresse à tout ou partie du métabolisme d'un ou plusieurs territoires
  • Les données sources se confondent


Préparation des données

La préparation des données pour l'étude du métabolisme d'un territoire comporte certaines spécificités. Ainsi la manipulation de différentes nomenclatures ou unités est incontournable, le choix de la période d'étude et du pas de temps peut restreindre l'analyse, et plusieurs difficultés peuvent survenir comme la double comptabilité ou l'évolution des territoires et leur désignation.

Différentes nomenclatures

Les nomenclatures sont incontournables pour la classification de l'information statistique (§ 1). Les études de métabolisme territorial ne font pas exception, avec la particularité que les statistiques mobilisées s'inscrivent dans différentes nomenclatures.

La méthode Eurostat (2001) définit une nomenclature spécifique pour l'exercice de comptabilité des flux de matière, nous l'appellerons Nomenclature EWMFA[1]. Cette nomenclature permet de classer les flux selon leur composition matérielle en quatre grandes catégories : la biomasse, les métaux, les minerais non métalliques et les énergies fossiles Men-at-work-44px.pngTask : Vérifier . Toutefois, les données sources ne sont pas toujours exprimée dans cette nomenclature. Il existe notamment la "Nomenclature uniforme des marchandises pour les statistiques de transport 2007" (NST2007) qui classe les produits en lien avec l'activité économique productive (produit de l'agriculture, produits chimiques, meubles, ...)[2].

Afin de convertir les items de la nomenclature NST2007 vers ceux de la EWMFA, le CGDD (2014) propose une table de conversion. Si quelques items sont communs aux deux nomenclatures Men-at-work-44px.pngTask : Citer exemple , le plus souvent la conversion d'une nomenclature à l'autre relève d'une approximation,. Certains items de la NST2007 sont même trop généraux pour pouvoir identifier leur composition matérielle et doivent être classés dans une catégorie "Autre/Divers/Indiscernable".

La NST n'est pas la seule nomenclature que l'on peut retrouver dans les données sources liées au métabolisme de territoires. Nous pouvons également trouver la "Classification statistique des produits associée aux activités" (CPA), la "Nomenclature Combinée" (CN) dont une nouvelle version apparaît chaque année ou encore la "Classification des flux en Écologie Industrielle et Territoriale" (CFEIT)[3] proposée par le Réseau des Chambres de Commerces et d’Industries de France et intégré dans le logiciel Actif. Certaines données ne reposent pas sur une nomenclature explicitée comme telle, mais à partir du moment où les noms des produits utilisés sont normalisés, il est possible parler de nomenclature. C'est par exemple le cas des statistiques agricoles (Agreste), le guide du CGDD (2014) inclut d'ailleurs également une table de conversion Agreste -> EWMFA. Enfin, dans certains cas, les noms pour désigner les produits ne sont pas normalisés et sont choisit arbitrairement par les personnes produisant les données. L'avantage de cette démarche est de pouvoir être aussi précis et libre que souhaité pour désigner sans ambiguïté des produits. L'inconvénient est que cette désignation peut être fonctionnelle dans un contexte (dans une entreprise) mais incompréhensible ou non exploitable dans un autre. Elle pose également des problèmes pour être exploitée automatiquement par des machines : cela demande une certaine intelligence pour pouvoir interpréter une dénomination libre {Ref needed}:Davis .

En termes de nomenclature de destination, la EWMFA proposée par Eurostat (2001) n'est toutefois pas non plus la seule à pouvoir être utilisée pour agréger et exploiter les données. La CFEIT, mentionnée précédemment, est très utilisée dans les démarches d'EIT, notamment celles accompagnées par l'ADEME. Dans différentes études menées sur les flux de biomasse (Silvestre et al. 2012 ; Le Noé et al. 2016 ; {Ref needed}:REF PAUL BLOIS ICUBE), ces derniers sont exprimés en kg d'azote -kg(N)- ou de phosphore -kg(P)-, éléments dont la modification des cycles biogéochimique par l'activité humaine pose des problèmes de durabilité. La classification des flux peut ainsi également s'inscrire dans le tableau périodique des éléments. Cela requiert de savoir transcrire non seulement le nom des items (par exemple Maïs -> Azote), mais aussi d'appliquer un coefficient de passage Men-at-work-44px.pngTask : Coefficient .

Ces différentes exemples nous permettent de montrer que l'utilisation de différentes nomenclatures est incontournable dans les études de métabolisme. Le passage de l'une à l'autre est parfois très approximatif mais nécessaire, et peux nécessiter non seulement de convertir le nom des items, mais aussi d'appliquer un coefficient de passage.

Différentes unités

Le choix de l'unité est essentiel pour s'inscrire dans différents cadre théorique et aborder diverses problématiques qu'elles soient économiques, environnementales ou sociales (§ 2). En pratique la plupart des études de métabolisme visent à quantifier les flux en kilogramme (kg), ou en kilowatt.heure (kWh) pour la partie énergétique, même si ce choix peut être facilement critiqué (Van der Voet et al. 2004).

Les données sources ne sont toutefois pas toujours exprimées dans ces unités. Par exemple, les consommations de gaz et de pétrole sont souvent exprimées en tonnes équivalent pétrole (tep), en baril ou en mètre-cube. Afin de standardiser ces données, des coefficients de conversion sont souvent utilisés pour obtenir l'équivalent en kg ou kWh. Ces coefficients peuvent être soit des constantes (le passage de la tonne au kg), soit dépendre de caractéristiques physiques (m3 de gaz vers des kWh) ou sociétales (kWh de gaz en euros) de l'élément étudié qui peuvent ne pas être constantes. Le changement d'unité à travers des coefficients de passage implique ainsi souvent une approximation, et donc une perte de qualité de l'information difficilement évitable, si ce n'est en évaluant les incertitudes ou en utilisant des modèles prenant en compte les conditions variables mais qui sont plus complexes à mettre en œuvre.

En plus des approximations, l'usage de coefficients nécessite une démarche souvent manuelle et spécifique à chaque type de produit, à la fois pour repérer ces coefficients dans littérature, et aussi pour les appliquer sur les données initiales.

Ainsi, le travail sur les unités est incontournable dans les études de métabolisme, pour rassembler les données et pour explorer différents cadres théorique. Il peut prendre un certain temps, sans apporter de réelle valeur ajoutée en soi, surtout s'il ne s'agit que d'appliquer des coefficients. Il nous paraîtrait ainsi pertinent de pouvoir disposer de fonctionnalités permettant de gérer plus facilement les unités et leur conversion.

Choix de la période et du pas de temps

La plupart des études identifiées quantifient le métabolisme d'un territoire sur une année donnée. Dans l'étude menée par Région Alsace & Ademe (2015), la faible disponibilité des données a même contraint à rassembler des sources d'années différentes. Quelques travaux étudient l'évolution des flux sur plusieurs années comme ceux de Rosado et al. (2014) qui présente une démarche prospective du métabolisme de Lisbonne, ou ceux de Courtonne (2016) qui permettent de consolider les données relatives au transport de marchandises grâce à des statistiques pluriannuelles.

Le pas de temps utilisé est généralement d'un an, donc souvent confondu avec la période d'étude. De nombreuses sources mobilisées présentent en effet des données annuelles. Toutefois, il est souvent bénéfique de pouvoir utiliser des pas de temps plus petits pour mettre en évidence des phénomènes saisonniers, si tant est que les données sources le permettent. Ce fut le cas dans notre application {Ref needed}Chapitre5. Si l'on prend à la lettre les ambitions des villes connectées (ou "smart cities"){Ref needed}, on pourrait même rêver d'une connaissance en temps réel des flux.

L'utilisation de différents pas de temps nous permet d'identifier un phénomène un peu déroutant que nous pouvons constater sur la figure X. Les données représentées sont les mêmes, et pourtant elle ne le semble pas. Le choix d'un pas de temps mensuel, rapporté soit au mois, soit au jour, met en exergue une incohérence pour le mois de février qui compte moins de jours de que les autres (~10 % de moins que janvier ou mars). Nous appelons cette incohérence Modifiable Temporal Unit Problem (MTUP), à l'image du Modifiable Areal Unit Problem (MAUP) que nous abordons plus en détail dans le chapitre X.

Ainsi, une étude sur une année, avec le même pas de temps est souvent un choix commode par rapport aux données disponibles et pour les standardiser. Pour être capable d'analyser les données selon une dimension temporelle, il faut être capable de considérer des données pluriannuelles ou avec un pas de temps plus fin. Cela implique plus de complexité et l'apparition de phénomènes problématiques comme le MTUP (dont les conséquences nous semblent toutefois assez marginales) mais permet de consolider des données et de mettre en avant d'autres dynamiques.

Double comptabilité

  • Double insertion d'un objet/d'un attribut


Désignation et évolution des territoires

En ce qui concerne les problèmes de géocodage (c'est-à-dire obtenir les coordonnées géographiques à partir d'une adresse postale), ils peuvent avoir plusieurs origines : (1) l'adresse à géocoder est tout simplement erronée ou ambigüe (lorsque l'adresse mentionne plusieurs numéros par exemple), (2) l'adresse n'existe plus car le nom des rues, voire les rues elles-même ont changé (notamment lors d'opération d'urbanisme), (3) la base de données du fournisseur de service de géocodage est incomplète ou erronée. Ce dernier point est particulièrement notable avec Nominatim, basé sur les données d'OpenStreetMap, démarche collaborative.

  • Le territoire évolue, son découpage administrative avec (Grande Région)


La sélection des données

La sélection des données vise à ne retenir que celles qui figurent à l'intérieur du périmètre de l'étude. Dans les études de métabolisme, ce périmètre défini généralement au minimum le territoire étudié, le type de matière (parfois toutes), la période et l'unité de quantification. Éventuellement il peut également préciser les acteurs concernés, les moyens de transports étudié et les usages qui en sont fait.

L'opération de sélection des données peut avoir différent niveau de difficultés selon les données disponibles. Dans les cas les plus simples, les données disponibles correspondent au niveau de détail désiré dans l'étude, en utilisant les bonnes convention : échelle, période, pas de temps, unité, nomenclatures ... Ainsi, il n'y a qu'à utiliser les fonctions de filtrage des tableurs ou des requêtes pour récupérer les données du périmètre d'étude. En général, l'opération de préparation des données vise justement à ce que ce soit le cas.

Toutefois, si l'opération de préparation facilite la sélection des données, l'inverse est également parfois nécessaire : il faut sélectionner les données à préparer, par exemple pour agréger plusieurs données mensuelles en une donnée annuelle.

La complexité apparaît lorsque les données disponibles n'ont pas le même niveau de détail

Choix du territoire de l'étude

Nous le mentionnions précédemment (§ 2.5.1), les études de métabolisme territoriale peuvent être menées à différentes échelles territoriales selon les objectifs fixés et les acteurs impliqués : une ville, une région ou un pays, ... Toutefois, les données statistiques disponibles ne correspondent pas toujours au territoire étudié : les données peuvent concerner d'autres territoires ou être disponibles à une échelle différente. Dans le premier cas, et peuvent faire l'objet d'une automatisation. Dans le second cas, qui n'est pas exclusif avec le premier, les échelles des données disponibles et du territoire étudié ne correspondent pas et cela va nécessiter un traitement spécifique. Si les données décrivent des territoires plus petits, comme des données départementales pour une étude régionale, il faut les agréger. L'opération n'est pas complexe, mais requiert tout de même de conceptualiser un modèle hiérarchique entre les territoires décrits et celui étudié, modèle qui doit être explicité formellement en cas d'automatisation du processus. De l'autre coté, si les données décrivent des territoires plus grands, comme des données départementales pour une étude urbaine, le processus de réduction d'échelle (down-scaling) est plus complexe, mais il est possible d'obtenir des estimations en s'appuyant sur des données complémentaires disponibles à la bonne échelle (Courtonne 2016).

Le stockage des données

Au regard de la méthodologie proposée par le CGDD (2014), le stockage des données se fait par l'intermédiaire de fichiers tableurs, stockés sur un ordinateur ou un réseau local (non accessible via le web). Pour ceux qui réalisent l'étude, cela offre une structure assez simple et souple pour un travail manuel. Toutefois, cette structuration des données (voir chapitre X) limite les possibilités :

  • La complexité de la réalité ne rentre pas facilement dans des tableaux en deux dimensions. Il faut ainsi opérer des choix de structure qui vont venir réduire la complexité et donc la subtilité des informations retenues.
  • La rétro-analyse de la synthèse des données (c'est-à-dire comprendre comment les données initiales ont permis de produire les données finales) est fastidieuse, malgré un véritable soucis constaté de rendre transparente la méthodologie dans l'étude menée par la Région Alsace & Ademe (2015).
  • La transmission des données vers l'extérieur implique de dupliquer ces données, pouvant engendrer d'éventuels conflits de version. De plus, il n'y a pas de base centralisée de référence, accessible en ligne. Cela implique de procéder à des échanges de personne à personne pour obtenir ces données, ce qui peut s'avérer consommateur de temps pour identifier et contacter la personne détenant les données.

Améliorer le stockage des données

Pour dépasser ces limites, il nous semble déjà utile de rendre accessible en ligne le détail des résultats (en plus des données sources dont nous avons déjà parlé dans un paragraphe précédent) afin de renforcer leur utilisabilité. Interrogées à ce sujet, les personnes qui ont réalisé l'étude du métabolisme de l'Alsace (Région Alsace & Ademe 2015) ont toutefois partagé leur crainte de voir les résultats chiffrés interprétés strictement, alors que l'étude contient bien trop de biais pour que ces chiffres puissent être considérés comme vraiment fiables. Même si nous comprenons les réticences, il nous semble tout de même nécessaire de rendre plus accessible ce type de littérature grise, au moins à la communauté scientifique.

Vient ensuite la question de la structure des données. Le tableur 2D étant trop limité, nous devons envisager d'autres structures plus à même de décrire la réalité des flux de matières et d'énergie. Une base de données basée sur un modèle entité/association peut permettre d'implémenter une grande complexité dans l'information. Davis (2012) propose même d'utiliser les technologies du web de données pour structurer cette information. Ces approches sont toutefois plus complexes à implémenter, rend les données plus difficiles à manipuler et nécessitent un modèle de données explicite et consensuel. Dans le chapitre 4, nous proposons un modèle de données pour l'étude du métabolisme des territoires. Ce modèle est implémenté dans la base de données d'une solution logicielle qui vise également à réduire la complexité dans la manipulation des données.




Références

• CGDD, 2014, Comptabilité des flux de matières dans les régions et les départements - Guide méthodologique, Références du Service de l’observation et des statistiques (SOeS). Commissariat Général au Développement Durable. [En ligne] URL : https://www.ecologique-solidaire.gouv.fr/sites/default/files/EIT_-_comptabilite_des_flux_de_matieres.pdf. Consulté le 19 avril 2018.
• Courtonne, J., 2016, Evaluation environnementale de territoires à travers l'analyse de filières : la comptabilité biophysique pour l'aide à la décision délibérative. Thèse de doctorat en Sciences de gestion. Université Grenoble Alpes. [En ligne] URL : https://tel.archives-ouvertes.fr/tel-01421664. Consulté le 19 avril 2018.
• Davis, C., 2012, Making Sense of Open Data: From Raw Data to Actionable Insight.. [En ligne] URL : https://repository.tudelft.nl/islandora/object/uuid:88c3c6f9-d6a2-4a82-9353-884a3b77b6ed. Consulté le 19 avril 2018.
• Eurostat, 2001, Economy-wide material flow accounts and derived indicators: a methodological guide, Eurostat Theme 2, Economy and finance. Office for Official Publ. of the Europ. Communities. [En ligne] URL : http://ec.europa.eu/eurostat/documents/1798247/6191533/3-Economy-wide-material-flow-accounts...-A-methodological-guide-2001-edition.pdf/. Consulté le 19 avril 2018.
• Le Noé, J., Billen, G., Lassaletta, L., Silvestre, M., Garnier, J., 2016, La place du transport de denrées agricoles dans le cycle biogéochimique de l'azote en France : un aspect de la spécialisation des territoires, Cahiers Agricultures, 25, pp. 15004. DOI : 10.1051/cagri/2016002
• Région Alsace, Ademe, 2015, Consommations, besoins et richesses du territoire alsacien. [En ligne] URL : https://alsace.ademe.fr/sites/default/files/files/Domaines-intervention/Economie-circulaire/synthese_etude_de_flux_juillet2015.pdf. Consulté le 19 avril 2018.
• Rosado, L., Niza, S., Ferrão, P., 2014, A Material Flow Accounting Case Study of the Lisbon Metropolitan Area using the Urban Metabolism Analyst Model, Journal of Industrial Ecology, 18, pp. 84-101. DOI : 10.1111/jiec.12083
• Silvestre, M., Billen, G., Garnier, J., 2012, Évaluation de la provenance des marchandises consommées par un territoire : AmstraM, une application de webmapping basée sur les statistiques de transport et de production, Écologie industrielle et territoriale: COLEIT, pp. 361-370
• Van der Voet, E., van Oers, L., Nikolic, I., 2004, Dematerialization: Not Just a Matter of Weight, Journal of Industrial Ecology, 8, pp. 121-137. MIT Press. DOI : 10.1162/1088198043630432


Notes de bas de page

  1. Cette nomenclature est mise à disposition sous forme de tableur par le CGDD : http://www.statistiques.developpement-durable.gouv.fr/publications/p/2101/1161/comptabilite-flux-matieres-regions-departements-guide.html
  2. Conformément à la réglementation européenne (Règlement (CE) No 1304/2007 de la Commission du 7 novembre 2007), la NST 2007 est établit comme nomenclature unique pour les biens transportés par différents modes (rail, route, voie navigable Men-at-work-44px.pngTask : Vérifier ). Il s'agit d'une mise à jour de la précédente version appelée NST-R (Nomenclature pour les statistiques de transport Révisée), que l'on a pu également retrouver dans d'anciennes statistiques.
  3. http://www.actif.cci.fr/sites/default/files/Documents/CCI_Nomenclature_EIT_public_v1.pdf
CiteRefCallRef needed +
KeyRefcgdd2014 +, eurostat2001 +, silvestre2012 +, lenoe2016 +, vandervoet2004 +, regionalsace2015 +, rosado2014 +, courtonne2016 + et davis2012 +
PageLabelLe traitement des données pour l'évaluation du métabolisme territorial +
TaskVérifier +, Citer exemple + et Coefficient +