Les enjeux sociétaux de l'utilisation de données

De Metabolisme territorial
Aller à : navigation, rechercher

Les données sont omniprésentes dans nos sociétés modernes, et le volume de données produites et traitées continue de croitre à rythme important. Toutefois, les données ne restent qu'un outil de représentation de la réalité, et comme beaucoup d'outils, l'usage qu'il en est fait peuvent avoir des conséquences aussi bien positives que négatives.

Nous avons fait le choix de faire de la donnée notre objet de travail. Aussi, sans rentrer dans les détails, il nous semble nécessaire d'avoir un regard critique sur les implications de l'utilisation de données de manière générale. A travers cette partie, nous voulons ainsi souligner les bénéfices sociétaux tout autant que les risques que présentent cette utilisation croissante des données dans nos sociétés.

Si la donnée a toujours tenu une place importante pour structurer la société, l'explosion de leur usage liés au progrès des machines informatiques vient exacerber les enjeux qui y sont liés, en faisant même apparaître de nouveaux.

De nouvelles possibilités pour la recherche scientifique

Les données sont fondamentales dans la recherche scientifique : elles permettent de confronter à la réalité des hypothèses, des modèles et ainsi de construire des théories scientifiques (Kitchin & Tate, 2000). Les progrès techniques ont même permis à un "quatrième paradigme de la recherche" d'émerger : celui de l'exploration de données, à travers différents points de vue (Hey et al. 2009). Ce nouveau paradigme, qui permet l'émergence de nouvelles découvertes, vient s'ajouter aux autres paradigmes : (1) l'observation et la pratique empirique, (2) l'élaboration et l'usage de théories, (3) la simulation, notamment à travers des outils informatiques.

Ce quatrième paradigme ne remplace pas les précédents, il vient offrir de nouvelles possibilités scientifique tout en ayant ses propres limites. Il a en tout cas permis de réaliser d'importantes découvertes scientifiques dans tous les domaines (Kitchin & Tate, 2000 ; Hey et al. 2009). Le panel des techniques disponibles s'enrichit continuellement avec de nouvelles approches de plus en plus sophistiquées et permettant de traiter des données toujours plus nombreuses, diverses et précises, avec des résultats si impressionnant que certains algorithmes, comme l'apprentissage profond sont même qualifiés d'intelligence artificielle. Pour certains, ces algorithmes vont même changer la façon de faire de la science en permettant l’émergence de modèles construits sur les données et qui n'ont plus besoin d'une conceptualisation formelle humaine (Charron et al. 2018).

Toutefois, malgré ces perspectives prometteuses, nous devons être conscient des limites des approches basées sur les données. Ainsi les découvertes liées à l'exploration de données relèvent d'une part de hasard (Hey et al. 2009) : en observant différents jeux de données, avec différentes représentations, certains phénomènes peuvent apparaître spontanément sans qu'ils aient été spécifiquement recherchés. Il est possible de multiplier les analyses de données et de manière automatisée afin d'identifier de manière plus systématiques des liens entre les données. Mais cela conduit à une deuxième limite : corrélation n'étant pas pas causalité, il est tout à fait possible de trouver des variables corrélées mais qui n'ont aucuns liens réel entre elles (Ibekwe-Sanjuan 2014). Confier uniquement à des algorithmes la recherche de corrélation pour expliquer des phénomènes peut donc donner des résultats de qualité aléatoire. Enfin, une troisième limite plus philosophique, peut être formulée : l'importante quantité de données peut donner l'impression qu'il est possible d'atteindre une connaissance parfaite de la réalité, parfois simplement en allant plus loin dans la collecte de données et les techniques d'analyses. Or, la réalité est définitivement plus complexe, et même si la connaissance s'améliore, les données collectées ne représenteront toujours qu'une partie réduite, simplifiée et biaisée de la réalité (Charron et al. 2018 ; Audard et al. 2014). Certains auteurs mentionnent d'ailleurs parfois la faible qualité des données, qui ne peut pas être compensé par son volume : "big data is poor data" {Ref needed}. En fait la problématique vient surtout du fait que les données sont souvent produites à travers un service privé à but commercial et qui n'a rien à voir avec une meilleure compréhension scientifique des phénomènes, en particulier sociaux (Charron et al. 2018).

Aussi, la massification des données vient bousculer les habitudes de travail des chercheurs. Entre résultats avérés et perspectives qui semblent parfois utopiques, le curseur de l'enthousiasme est difficile à placer. Mais cela nous permet au moins de placer la donnée comme un véritable sujet d'étude. Le débat existe d'ailleurs pour savoir s'il n'existerait pas une "science des données" qui serait une discipline à part entière (Press 2013). En tout cas, si elle existe, son objectif est clair : développer les méthodes permettant de maximiser l'information utile pouvant être extraite de données complexes ou volumineuses (Cleveland 2001 ; Schutt & O'Neil, 2013). Cela mobilise des techniques à la croisée entre l'informatique et les statistiques, comporte des contraintes juridiques et posent de nouvelles questions d'ordre philosophique, politique, économique ou plus largement sociétal.

Une évolution du monde économique

Si le débat existe encore dans la communauté académique sur l'existence et la nature d'une science de données, il semble tranché dans le monde économique, dans lequel les entreprises sont de plus en plus demandeuses de "scientifiques des données" (data scientist) https://books.google.fr/books?hl=fr&lr=lang_fr&id=7CxpDwAAQBAJ&oi=fnd&pg=PP1&dq=data+scientist&ots=WoKZ_o5keZ&sig=yKEf5J1Zo7WIczozlYI4TPbt8WA#v=onepage&q=data%20scientist&f=false. En effet, les données ont joué un grand rôle dans le développement économique (voir Chapitre 2), mais la montée en puissance du numérique en a fait une véritable matière d’œuvre à partir de laquelle il est possible de créer de la valeur ajoutée ( http://publications-sfds.fr//index.php/stat_soc/article/view/575 ). Pour s'en rendre compte, il suffit de regarder le succès économique des géants du numériques (les "GAFAM" pour Google, Apple, Facebook, Amazon et Microsoft) dont le modèle économique repose en grande partie sur leur capacité à exploiter un nombre toujours plus important de données. Ces entreprises, et de nombreuses autres du secteur du numérique, parviennent à créer de nouveaux services diversifiés et personnalisés grâce à leur capacité à gérer les données ; pour certains, il s'agit du "nouvel or noir" du XXIe siècle {Ref needed}.

Cet essor économique n'est pas sans poser de problème sociétaux. Ainsi, ces nouveaux services reposent souvent sur l'analyse de données personnelles. Dans les faits, ces données sont souvent collectées à l'insu de la personne concernée, on parle parfois de données d'échappement - data exhaust (Charron et al. 2018). Par exemple le ciblage publicitaire lors de votre navigation sur internet ne repose pas sur des informations que vous avez explicitement transmis dans cette intention. Ensuite, les sociétés du numériques ont tendance à accumuler plus de données sur leurs utilisateurs qu'elles n'en ont réellement besoin pour le fonctionnement de leurs services. Potentiellement, elles peuvent donc connaître une grande partie de notre vie privée. Ces données personnelles peuvent aussi être détournées de leur usage initial, piratées, rendues publiques, ou communiquées à des tiers comme des organismes de surveillance, avec les risques de dérives que cela peut engendrer, et sans que la personne concernée ne puisse le contrôler. {Ref needed}:Facebook-Analytica

En plus des risques sur la vie privée des individus, la fuite des données d'une entreprise peut mettre en difficulté celle-ci. Son image peut être impactée par son manque de fiabilité, ses clients subir des préjudices, des irrégularités peuvent être constatées ou un avantage compétitif révélé et donc amoindri (Delzangles et al. 2018). Les fuites de données peuvent également mettre en péril des sites sensibles s'il venaient à être connus par le public. Cela peut tout aussi bien concerner des écosystèmes naturels particuliers que des sites stratégiques relevant de la défense nationale. Cette fuite de données peut être d'autant plus difficile à prévenir que le stockage et le traitement de données sont de plus en plus externalisés à travers le cloud computing ( https://ieeexplore.ieee.org/abstract/document/5189563 ). Face à ces risques, le domaine de la cybersécurité est stratégique pour protéger les intérêts des entreprises mais aussi ceux des Etats. https://www.cairn.info/revue-securite-globale-2013-2-page-49.htm?contenu=resume .

Toutefois, malgré ces problématiques qui émergent de part la massification des données, ces dernières continuent de jouer un rôle fondamental dans le développement économique. Cela est vrai pour les entreprises, mais aussi pour les acteurs publics en charge de mettre en œuvre les politiques territoriales.

L'appui des politiques publiques

Les possibilités offertes par les données pour la gestion des territoires et des politiques publiques font des Etats, et de manière générale les acteurs publics, d'important producteurs et utilisateurs de données (Fléty & De 2009 ; Mazaud et al. 2017). Celles-ci vont en effet permettre de définir des objectifs et de suivre leur bonne atteinte, de mieux connaitre le territoire, ses acteurs, ses dynamiques, ou encore de mettre en place des solutions innovantes qui améliore le fonctionnement sociétal. L'objectif est de plus en plus affirmé de parvenir à des territoires "intelligents", comme les "smart cities" (Shahrokni et al. 2015), dans lesquels les TIC permettent une gestion optimale des flux logistiques et d'énergie, un accompagnement au changement des habitudes de consommation et de mobilités ou une aide personnalisée pour les démarches administratives ...

Malgré ces possibilités intéressantes, les données jouent également un rôle plus obscure dans la gouvernance des territoires et des Etats (Desrosières 2008 ; Alphandéry et al. 2012). Ainsi, l'apparition et l'évolution des approches comptables nationales et des statistiques publiques ont contribué à justifier l'existence d'institutions qui permettent l'accès à des données utile au développement de nos sociétés. L'Etat devient ainsi un producteur de données référent pour son propre fonctionnement, mais aussi celui d'autres acteurs. Mais plus que produire, il normalise. Par le choix des statistiques récoltées et les conventions de classification, il définit le cadre de lecture de l'information publique. Indirectement, il est ainsi possible de minimiser certaines thématiques en restreignant l'information disponible (et justifier leur inaction au prétexte d'un manque de données), ou au contraire profiter de l'abondance d'informations pour d'autres thématiques pour chercher spécifiquement celles qui appuient leur politiques. Loin d'être objectives, les données, y compris issues des institutions publiques, sont bel et bien une construction sociales sur lesquelles il convient de prendre du recul. Un usage excessif a d'ailleurs également pour effet d'accentuer le "découplage total entre le centre de recherche et la réalité de terrain" (Charron et al. 2018, p21), alors que la bonne compréhension des dynamiques sociétales requièrent une connaissance fine des acteurs, connaissance qu'il est souvent difficile d'exprimer sous forme de données. En plus de ces éléments, l'intensification du recours aux données dans l'action publique peut exacerber la fracture numérique. Les personnes n'ayant pas accès aux TIC, et les territoires ne disposant pas des infrastructures ou des compétences numériques se retrouvent ainsi marginalisés dans leur développement (Charron et al. 2018).

Pour faire face à toute la complexité des enjeux, les pouvoirs publics tentent d'encadrer l'usage de données à travers la réglementation. Les intentions annoncées sont de renforcer la sécurité de la vie privée et des intérêts économique et en même temps de promouvoir l'ouverture des données (c'est-à-dire rendre les données accessibles et utilisables librement par tous) pour favoriser l'innovation et ouvrir de nouvelles opportunités économiques, politiques et scientifiques.

Dans le volet sécuritaire, l'un des premier texte porte au sujet du secret statistiques. Plus récemment, les lois sur le secret des affaires et le RGPD au niveau européen visant à renforcer la protection des données européennes.

Du point de vue de l'ouverture, la réglementation récente (LOI n° 2016-1321 du 7 octobre 2016 pour une République numérique. En ligne. vise à faciliter l'accès aux données publiques open access (Audard et al. 2014). Elle oblige notamment les collectivités et les services de l'état à rendre leur données non sensibles accessible sur internet. On voit émarger des plateformes Open-Date {Ref needed}+CiteExemple


Un outil pour le développement durable ?

Les données peuvent participer à la construction de réponses adaptées face à des problématiques complexes, parmi lesquelles figurent la protection de l'environnement. Dans cet objectif, une bonne gestion des données et de l'information peut permettre de mener des évaluations environnementales, de gérer plus efficacement les flux, les processus et les territoires, de participer à des réunions à distance, de télétravailler ou encore d'aller vers une dématérialisation de l'économie (Flipo et al. 2016).

Toutefois, de manière antinomique, les moyens nécessaires au traitement des données (les Technologies de l'Information et de la Communication - TIC) contribuent directement à la consommation d'énergie et à l'épuisement des ressources pour leur fabrication et leur fonctionnement. Les impacts environnementaux des TIC ne sont ainsi pas négligeables : ils représentent 5 à 10 % de la consommation mondiale d'électricité (près de 15 % en France), et mobilise des quantités importants de métaux (Flipo et al. 2016) : or (12% de la demande mondiale), cuivre (30%), argent (30%), ruthénium (80%), indium (80%), ... En fin de vie, les TIC constituent des déchets complexes à traiter, contenant de nombreux éléments toxiques et dont le recyclage est loin d'être systématique (Flipo et al. 2016 ; Rodhain et al. 2017). Ainsi, la consommation de ressources actuelle et à venir imputée aux TIC est devenue trop significative pour être compatible avec un développement durable de nos sociétés (Bihouix 2014).

Malgré les promesses du numérique en termes de dématérialisation, nous constatons exactement l'inverse : les gains d'efficacité permis par le numérique semblent avoir plutôt permis d'intensifier la consommation de ressources (Rodhain et al. 2017). La connexion à un réseau mondial permet en effet d'accroitre les échanges, qu'ils soient virtuels ou matériels.


Vers une algorithmisation des processus de décision ?

L'accélération de la puissance de calcul ces évolutions scientifiques nous fait rentrer dans un processus sociétal extrêmement singulier : celui de l'"algorithmisation" des prises de décisions qui les fait reposer sur le résultat d'un algorithme, sans intervention humaine. Le phénomène avait déjà commencé avec l'automatisation dans l'industrie, le trading haute fréquence dans la finance CITEREF, ou la sélection d'informations sur les réseaux sociaux CITEREF. Toutefois, avec les progrès de l'intelligence artificielles, d'autres domaines sont déjà en train de se transformer : la conduite de véhicule, la médecine, la justice, ...

Difficile de se prononcer sur le bien fondé de cette algorithmisation croissante. Force est de reconnaître que certaines applications présentent un fort potentiel et sont souvent plus fiables que des décisions humaines. Toutefois cela génère en même temps une désagréable impression de perte de contrôle. Thompson (https://www.wired.com/2013/03/clive-thompson-2104/ ; Traduit par https://presnumorg.hypotheses.org/301) écrivait à ce sujet : "en plaçant la prise de décision humaine hors de l’équation, nous nous sommes lentement débarrassés de ces moments de délibération où nous réfléchissions sur la moralité de nos actions". Le processus d'algorithmisation fait reposer des choix qui peuvent avoir des conséquences humaines sur un triptyque données / algorithmes / objectifs, tous trois parfaitement formels et donc tous trois intrinsèquement biaisés pour décrire une réalité infiniment plus complexe. Nous avons vu que les données dépendent de choix de classification en partie arbitraires et réducteurs, et de mesures comportant des parts d'aléas. Il en est de même pour les choix de programmation qui reflètent en partie la subjectivité de ceux qui les font (Charron et al. 2018). Enfin, les objectifs doivent être mesurables pour être algorithmiquement appréhendés, le paradoxe est souligné par Goodhart : "Lorsqu'une mesure devient un objectif, elle cesse d'être une bonne mesure" (Loi de Goodhart {Ref needed}). A cela s'ajoutent les risques liées à des failles de sécurité informatique qui pourraient permettre à une personne mal intentionnée de modifier un ou plusieurs des éléments du triptyque, et donc les décisions qui en découlent.

Pour toutes ces raisons, il nous paraît ainsi nécessaire de ne pas nous précipiter vers une hyper-présence de l'intelligence artificielle, notamment lorsque ses décisions peuvent avoir des impacts humains. Sans nier des réelles avancés techniques, la banalisation sociétale des algorithmes risque toutefois de rendre les impacts humains de nos décisions encore plus abstraits et de voir ainsi confier notre éthique à une machine qui en est dépourvue.

Références


La question de la qualité des données

  • falsification ou erreur / biais : echo a la qualité des infos accessibles aux gestionnaire (même problème )
  • neutralité des algorithmes? C'est notre position, mobiliser diverses sources et amélioration continue de la qualité des données, faciliter la confrontation
  • Biais de mesure, de structure (nomenclature), d'analyse, de communication, d'interprétation, tout au long du cycle de l'information qui viennent altérer l'information.

Autres ressources



Références

• Alphandéry, P., Fortier, A., Sourdril, A., 2012, Les données entre normalisation et territoire : la construction de la trame verte et bleue, Développement durable et territoires, 3. DOI : 10.4000/developpementdurable.9282
• Audard, F., Carpentier, S., Oliveau, S., 2014, , pp. 1-4. [En ligne] URL : https://halshs.archives-ouvertes.fr/halshs-01132689/document. Consulté le 19 avril 2018.
• Bihouix, P., 2014, L'âge des low tech : vers une civilisation techniquement soutenable. Éditions du Seuil, 336 p.. [En ligne] URL : http://banq.pretnumerique.ca/accueil/isbn/9782021160741. Consulté le 19 avril 2018.
• Charron, M., Shearmur, R., Beauchemin, G., 2018, Données massives et sciences du territoire, Revue canadienne des sciences régionales, 1/3. [En ligne] URL : http://www.cjrs-rcsr.org/V41/cjrsrcsr41-2cCharronShearmur.pdf. Consulté le 19 avril 2018.
• Cleveland, W., 2001, Data Science: an Action Plan for Expanding the Technical Areas of the Field of Statistics, International Statistical Review, 69, pp. 21-26. DOI : 10.1111/j.1751-5823.2001.tb00477.x
• Delzangles, H., Fleury, M., Monnier, L., 2018, Droit à l’information environnementale vs. secret industriel et commercial : une conciliation à l’épreuve en droit nucléaire, Revue juridique de l’environnement, 43, pp. 675-692. [En ligne] URL : https://www.cairn.info/revue-revue-juridique-de-l-environnement-2018-4-page-675.htm. Consulté le 19 avril 2018.
• Desrosières, A., 2008, L’Argument statistique I : Pour une sociologie historique de la quantification. Presses des MINES
• Fléty, Y., De Sède-Marceau, M., 2009, Vers une géo-ontologie pour les Systèmes Énergétiques Territoriaux (SET), XVIe rencontres de Rochebrune sur les systèmes complexes naturels et artificiels : ontologie et dynamique des systèmes complexes, pp. 1-12. [En ligne] URL : https://hal.archives-ouvertes.fr/hal-00767229. Consulté le 19 avril 2018.
• Flipo, F., Deltour, F., Dobré, M., 2016, Les technologies de l'information à l'épreuve du développement durable, Natures Sciences Sociétés, 24, pp. 36-47. DOI : 10.1051/nss/2016007
• Hey, T., Tansley, S., Tolle, K., 2009, The Fourth Paradigm: Data-Intensive Scientific Discovery, 284 p.
• Ibekwe-Sanjuan, F., 2014, Big Data, Big machines, Big Science : vers une société sans sujet et sans causalité ?, pp. 1-10. [En ligne] URL : https://hal.archives-ouvertes.fr/hal-01066202. Consulté le 19 avril 2018.
• Kitchin, R., Tate, N., 2000, Conducting Research in Human Geography: Theory, Methodology and Practice, 344 p.
• Mazaud, L., Suaud, C., Marquet, S., de Sède Marceau, M., Noucher, M., Hainaut, H., Bailly, B., 2017, Planification territoriale durable - Opportunités offertes par les données et les outils, Revue Internationale de Géomatique, 27, pp. 11-36. Lavoisier
• O'Neil, C., 2016, Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy, Crown, 272 p.
• Press, G., 2013, A Very Short History Of Data Science, Forbes. [En ligne] URL : https://www.forbes.com/sites/gilpress/2013/05/28/a-very-short-history-of-data-science. Consulté le 19 avril 2018.
• Rodhain, A., Rodhain, F., Fallery, B., Galy, J., 2017, TIC et/ou développement durable : le paradoxe écologique vécu par les utilisateurs, Annales des Mines - Gérer et comprendre, 2, pp. 48-61. [En ligne] URL : https://www.cairn.info/revue-gerer-et-comprendre-2017-2-page-48.htm. Consulté le 19 avril 2018.
• Schutt, R., O'Neil, C., 2013, Doing data science. O'Reilly Media
• Shahrokni, H., Lazarevic, D., Brandt, N., 2015, Smart Urban Metabolism: Towards a Real-Time Understanding of the Energy and Material Flows of a City and Its Citizens, Journal of Urban Technology, 22, pp. 65-86. Routledge. DOI : 10.1080/10630732.2014.954899

CiteRefCallRef needed +
KeyRefhey2009 +, audard2014 +, shahrokni2015 +, bihouix2014 +, cleveland2001 +, press2013 +, kitchin2000 +, ibekwesanjuan2014 +, schutt2013 +, oneil2016 +, flety2009 +, mazaud2017 +, flipo2016 +, rodhain2017 +, charron2018 +, delzangles2018 +, desrosieres2008a + et alphandery2012 +
PageLabelLes enjeux sociétaux de l'utilisation de données +
Texte de loiLOI n° 2016-1321 du 7 octobre 2016 pour une République numérique +