Développer une écologie des données pour la pratique politique : l'expérience PolicyCLOUD et son évaluation
Ofer Biran, Oshrit Feder, Yosef Moatti, Athanasios Kiourtis, Dimosthenis Kyriazis, George Manias, Argyro Mavrogiorgou, Nikitas M. Sgouros, Martim T. Barata, Isabella Oldani, María A. Sanguino, Pavlos Kranas, Samuele Baroni, Miquel Mila Prat, Sergio Salmerón et Metodiyka Tarlyovska
La résolution de problèmes politiques pratiques exige des données qui sont généralement de différents types. Ainsi, les décideurs politiques doivent gérer divers types de sources de données et de multiples méthodes et méthodologies scientifiques nécessaires pour nettoyer, filtrer, analyser, valider et éventuellement augmenter les ensembles de données à mesure qu'ils sont ingérés. Un tel traitement est obligatoire si les données doivent apporter une valeur.
PolicyCLOUD est un projet de recherche en cours financé par l'UE qui propose une approche innovante centrée sur les données pour la pratique politique. Cet objectif est atteint grâce à un écosystème basé sur le cloud qui prend en charge la gestion des politiques basée sur les données d'une manière efficace qui est à la fois juridiquement et éthiquement saine[2]. Cet écosystème se compose d'un environnement unique et intégré basé sur le cloud qui cible une ingestion et une utilisation simples et efficaces des données pour la création, la surveillance et l'évaluation des politiques.
Dans notre article de recherche , en libre accès dans Data & Policy [5], nous décrivons les types de sources de données utilisées par l'écosystème, certaines des capacités analytiques intégrées de cet environnement et les utilisations initiales de PolicyCLOUD pour résoudre des problèmes réels. problèmes politiques.
PolicyCLOUD offre aux scientifiques des données une boîte à outils pour ingérer et préparer des ensembles de données pour l'analyse des politiques. Plus précisément, PolicyCLOUD offre des moyens efficaces pour :
- enregistrer des ensembles de données et des fonctions analytiques ;
- appliquer un pipeline de fonctions analytiques à la volée aux ensembles de données lors de l'ingestion, soit pour transformer les données (par exemple, en supprimant les informations non pertinentes), soit pour extraire des informations initiales (par exemple, en ajoutant des informations analytiques telles que l'analyse des sentiments pour enrichir l'ensemble de données) :
- appliquer des fonctions analytiques aux ensembles de données après ingestion pour extraire et/ou visualiser des informations à partir des données stockées dans le magasin de données PolicyCLOUD.
D'un point de vue architectural, PolicyCLOUD a été construit sur un fournisseur de cloud sans serveur afin que toute fonction analytique invoquée pendant ou après l'ingestion de données soit exécutée dans son propre environnement isolé (c'est-à-dire dans un conteneur). Cela permet des degrés élevés d'évolutivité et de parallélisme. De plus, le modèle sans serveur et de paiement à l'utilisation est très attrayant à la fois pour les propriétaires d'infrastructure PolicyCLOUD et pour les décideurs politiques, car l'utilisation globale de la plate-forme PolicyCLOUD connaîtra probablement de grandes fluctuations.
Pour permettre aux décideurs d'extraire des informations précieuses des ensembles de données d'une manière à la fois légale et équitable envers les individus et la société dans son ensemble, PolicyCLOUD a été développé autour d'un cadre complet incorporant des exigences techniques et organisationnelles pour répondre aux préoccupations juridiques et éthiques qui peuvent survenir dans le contexte de l'élaboration de politiques fondées sur des données probantes. Ce cadre est composé de plusieurs contrôles juridiques et éthiques, en plus de mesures visant à minimiser la quantité de données personnelles collectées à partir d'ensembles de données (conformément au principe de minimisation des données) et à garantir que toutes les opérations de données requises sont effectuées d'une manière permettant aux données sujets d'exercer leurs droits (par exemple, dans le cadre du RGPD). En particulier, les paramètres d'enregistrement (à la fois pour les ensembles de données et les fonctions analytiques) permettent aux déclarants de fournir des informations sur les mesures spécifiques qui ont été prises pour traiter le risque de biais inhérent à une fonction/un ensemble de données, ou d'autres contraintes juridiques/éthiques pertinentes qui peuvent exister (par exemple, le l'existence de données personnelles dans un ensemble de données, la gestion des compromis pertinents dans le développement de fonctions et/ou l'autorisation des titulaires de droits concernés). Une fois l'enregistrement terminé, ces informations fournies lors du processus d'enregistrement peuvent ensuite être consultées par tout utilisateur de PolicyCLOUD, afin qu'elles puissent être prises en compte lors de l'évaluation de la viabilité d'un ensemble de données donné et/ou de l'utilisation d'une fonction dans un contexte spécifique. ex., l'existence de données personnelles dans un ensemble de données, la gestion des compromis pertinents dans le développement de fonctions et/ou l'autorisation des titulaires de droits concernés). Une fois l'enregistrement terminé, ces informations fournies lors du processus d'enregistrement peuvent ensuite être consultées par tout utilisateur de PolicyCLOUD, afin qu'elles puissent être prises en compte lors de l'évaluation de la viabilité d'un ensemble de données donné et/ou de l'utilisation d'une fonction dans un contexte spécifique. ex., l'existence de données personnelles dans un ensemble de données, la gestion des compromis pertinents dans le développement de fonctions et/ou l'autorisation des titulaires de droits concernés). Une fois l'enregistrement terminé, ces informations fournies lors du processus d'enregistrement peuvent ensuite être consultées par tout utilisateur de PolicyCLOUD, afin qu'elles puissent être prises en compte lors de l'évaluation de la viabilité d'un ensemble de données donné et/ou de l'utilisation d'une fonction dans un contexte spécifique.
PolicyCLOUD peut également exploiter la puissance des simulations en tant que sources d'informations, pour permettre la conception de politiques basées sur les résultats simulés de solutions alternatives. Ceci est réalisé grâce à Politika [4], un cadre externe à l'environnement PolicyCLOUD mis en œuvre au cours du projet qui offre une nouvelle méthodologie de méta-simulation pour la conception de politiques. Cette méthodologie facilite la simulation des politiques proposées et la réalisation d'une analyse et d'une évaluation comparatives de leurs hypothèses, mécanismes et résultats. Politika est intégré à l'environnement PolicyCLOUD via une interface à usage général qui peut également être utilisée pour augmenter la plate-forme avec d'autres cadres externes, facilitant ainsi l'extension de la plate-forme de projet avec des outils d'analyse externes.
Tableau 1 : Exemples de résultats pour le cas d'utilisation de la radicalisation.
Nous avons appliqué PolicyCLOUD augmenté de Politika pour simuler des politiques visant à limiter la propagation de la radicalisation via les réseaux sociaux. Nous supposons que le processus de radicalisation se caractérise par l'adoption progressive d'idéaux politiques, sociaux ou religieux extrêmes dans la population par le biais de l'influence sociale. Sur la base de cette hypothèse, nous simulons, comparons et évaluons diverses alternatives politiques pour limiter la propagation de la radicalisation dans une population par l'influence sociale. Ces alternatives explorent différentes périodes de restriction pour les radicaux dangereux et estiment leur coût, ainsi que l'effet qu'elles ont sur le pourcentage final de radicaux dans la population. Le tableau 1, qui est généré à partir de PolicyCLOUD via l'utilisation de Politika comme outil externe, fournit quelques exemples de résultats que nous avons reçus pour différentes alternatives politiques. Chaque ligne de ce tableau correspond à une alternative différente. Les deux premières colonnes décrivent les valeurs définies par le décideur politique pour les paramètres de politique restriction_threshold (une estimation du degré de radicalisation au-dessus duquel un radical doit être restreint) et restriction_duration (la période pendant laquelle un radical est soumis à restriction). Les trois colonnes suivantes décrivent le pourcentage de radicaux restreints, le pourcentage global de radicaux et le coût de la politique de restriction calculé par Politika à la fin de la simulation de chaque alternative. La dernière colonne décrit le nombre maximum de connexions qu'un individu peut avoir dans la population, tel que défini par le décideur politique, ce qui fournit une estimation du niveau d'inclusivité dans le groupe social. En général,
L'un des premiers utilisateurs de PolicyCLOUD est la municipalité de Sofia, en Bulgarie, qui utilise la boîte à outils pour plusieurs cas d'utilisation. Dans l'un de ces cas d'utilisation, la municipalité de Sofia a utilisé PolicyCLOUD pour améliorer l'infrastructure routière de la ville.
L'objectif des efforts de la municipalité dans ce domaine est d'améliorer les politiques liées à l'infrastructure routière locale, grâce à une analyse dépendante de la localisation des données et des signaux fournis par les citoyens. Grâce à PolicyCLOUD, la municipalité de Sofia a pu effectuer une analyse détaillée de la répartition territoriale des signaux par catégories/types, régions, districts, principaux axes de transport, etc. Cela a permis aux administrations municipales et régionales d'identifier les problèmes de l'infrastructure routière et de l'environnement urbain environnant, puis d'adopter ou de modifier des décisions politiques, y compris la planification budgétaire, afin d'accroître l'efficacité du budget et des ressources publiques. Cette analyse détaillée a également été conçue pour aider la municipalité de Sofia à améliorer le contrôle et la surveillance, ainsi qu'à créer un système d'alerte précoce.
Parmi les autres fonctionnalités intéressantes de PolicyCLOUD figurent ses technologies de visualisation, qui peuvent être utilisées par les décideurs politiques pour identifier les tendances, et ses analyses prédictives, qui traitent les données relatives à un lieu et à un sujet donnés et prédisent l'intensité et l'étendue des actions requises.
À partir de 2022, le budget de la municipalité de Sofia pour la réparation et l'entretien des routes est énorme. Nous croyons que l'analyse prédictive appliquée aux accidents de la route réduira ce budget en identifiant les zones où les réparations et les améliorations les plus importantes sont nécessaires. La municipalité de Sofia s'attend à ce que la prévision précise du type et des catégories d'incidents en fonction de la répartition géographique devienne essentielle pour la planification des dépenses budgétaires.
Pour le scénario d'infrastructure routière de Sofia, l'outil d'analyse de données exploratoires de PolicyCLOUD, SKA-EDA, a été utilisé. SKA-EDA permet l'exploration d'ensembles de données basée sur une analyse descriptive menée par visualisation de données. Plus précisément, SKA-EDA est un outil d'analyse de données exploratoire qui collecte des ensembles de données, applique des transformations, effectue certains calculs et produit différentes distributions (au format JSON) qui sont généralement tracées à l'aide des composants de visualisation de PolicyCLOUD. Certaines des distributions de variables incluent la distribution uni/bi-fréquence (fréquence d'occurrence pour une/deux variables) ; distribution géographique (représentation graphique du nombre d'événements qui se produisent dans une position géographique spécifique) ; distribution cumulée (somme de la valeur d'une variable numérique spécifique dans plusieurs catégories) ;
Ces distributions permettent aux décideurs d'effectuer des analyses graphiques en obtenant par exemple les distributions des « quartiers » (Figure 1) ou la distribution territoriale des signaux par quartier (Figure 2) pour le jeu de données d'infrastructures routières fourni par le pilote.
Figure 1 : Répartition des districts de Sofia pour le jeu de données sur les infrastructures routières
Figure 2 : Répartition territoriale des signaux par districts de Sofia pour le jeu de données sur les infrastructures routières
Les premières applications de PolicyCLOUD incluent également des politiques intelligentes pour le développement de l'industrie agroalimentaire, axées sur le secteur du vin, et l'analyse des médias sociaux liés à la commercialisation des vins d'Aragon (Espagne). Dans ces cas, PolicyCLOUD a été utilisé de multiples manières.
Tout d'abord, Politika est utilisé pour l'évaluation de diverses alternatives de politiques de tarification et de publicité susceptibles d'accroître la compétitivité des marques de vin par rapport à leurs concurrents. Sur la base de ces scénarios, nous avons identifié les facteurs critiques des pratiques numériques pour l'élaboration des politiques et partagé les leçons apprises en termes d'efficience, d'efficacité, d'adéquation et de facilité d'utilisation pour l'écosystème résultant.
Deuxièmement, PolicyCLOUD permet aux utilisateurs finaux d'avoir une compréhension plus large du marché et des besoins et de la satisfaction des clients. Cet objectif critique est atteint en appliquant les outils d'analyse des tendances et d'analyse des sentiments aux données des médias sociaux (en particulier les tweets). Ces outils permettent aux utilisateurs de filtrer le contenu des médias sociaux à l'aide d'ontologies/taxonomies spécifiques créées directement par l'utilisateur pour récupérer des informations utiles et des données de qualité. Sur la base de ces données filtrées, les décideurs politiques peuvent accéder à un aperçu détaillé de la situation. Le filtrage de la sortie par emplacement géographique permet non seulement de surveiller l'état d'une région donnée, mais également de comprendre l'appréciation du produit en fonction de l'emplacement. La possibilité d'un filtrage temporel des résultats facilite l'analyse de l'impact d'une politique ou d'une réglementation donnée qui a été mise en place. De cette façon,
Pour rendre le contenu de PolicyCLOUD accessible au public, nous avons également développé une place de marché de données (https://marketplace.policycloud.eu/), où les actifs liés à PolicyCLOUD tels que les ensembles de données exploités, les outils développés, les didacticiels pertinents et les documents de recherche sont librement accessibles.
à propos des auteurs
Ofer Biran, Oshrit Feder et Yosef Moatti sont basés chez IBM Research à Haïfa, en Israël. Athanasios Kiourtis, Dimosthenis Kyriazis, George Manias, Argyro Mavrogiorgou, Nikitas M. Sgouros sont affiliés au Département des systèmes numériques de l'Université du Pirée en Grèce. Martim T. Barata et Isabella Oldani sont chez ICT Legal Consulting à Milan, Italie. Pavlos Kranas est basé au centre de recherche et développement LeanXcale à Madrid, en Espagne. Samuele Baroni est basé chez Maggioli SpA Research and Innovation, Santarcangelo di Romagna, Italie. Miquel Mila Prat et Sergio Salmerón font partie du groupe Recherche & Innovation d'Atos à Paris, France. Metodiyka Tarlyovska est conseillère juridique principale à la municipalité de Sofia, en Bulgarie.
Références
[1] WN Dunn, Analyse des politiques publiques : une introduction, Routledge, 2017.
[2] D. Kyriazis et al, "PolicyCLOUD : l'analyse en tant que service facilitant une gestion efficace des politiques publiques axée sur les données. Dans : Maglogiannis I., Iliadis L., Pimenidis E. (eds) Applications et innovations de l'intelligence artificielle. AIAI 2020. IFIP Advances in Information and Communication Technology, vol 583. Springer, 2020.
[3] Hu, VC, Kuhn, DR, Ferraiolo, DF et Voas, J., "Contrôle d'accès basé sur les attributs". Ordinateur , vol. 48 , non. 2, 85–88, 2015.
[4] Nikitas M. Sgouros. 2022. Politika : mise en œuvre d'une nouvelle méthodologie de méta-simulation pour la conception de politiques publiques sur le Web. Gouvernement numérique : recherche et pratique (juste accepté (octobre 2022)).https://doi.org/10.1145/3568167
[5] Biran, O., et al (2022). PolicyCLOUD : un prototype d'écosystème cloud sans serveur pour l'analyse des politiques. Données et politique, 4 , E44. doi:10.1017/dap.2022.32