Desarrollo de una ecología de datos para la práctica de políticas: la experiencia de PolicyCLOUD y su evaluación
Ofer Biran, Oshrit Feder, Yosef Moatti, Athanasios Kiourtis, Dimosthenis Kyriazis, George Manias, Argyro Mavrogiorgou, Nikitas M. Sgouros, Martim T. Barata, Isabella Oldani, María A. Sanguino, Pavlos Kranas, Samuele Baroni, Miquel Mila Prat, Sergio Salmerón y Metodiyka Tarlyovska
Resolver problemas prácticos de políticas exige datos que normalmente son de varios tipos. Por lo tanto, los formuladores de políticas tienen que administrar varios tipos de fuentes de datos y múltiples métodos y metodologías científicas necesarias para limpiar, filtrar, analizar, validar y posiblemente aumentar los conjuntos de datos a medida que se ingieren. Dicho procesamiento es obligatorio si los datos deben proporcionar valor.
PolicyCLOUD es un proyecto de investigación en curso financiado por la UE que ofrece un enfoque innovador centrado en los datos para la práctica política. Este objetivo se está alcanzando a través de un ecosistema basado en la nube que admite la gestión de políticas basadas en datos de una manera eficiente que es legal y éticamente sólida[2]. Este ecosistema consta de un entorno único e integrado basado en la nube que tiene como objetivo la ingesta y el uso fácil y eficiente de los datos en aras de la creación, el seguimiento y la evaluación de políticas.
En nuestro artículo de investigación , que es de acceso abierto en Data & Policy [5], describimos los tipos de fuentes de datos utilizados por el ecosistema, algunas de las capacidades analíticas integradas de este entorno y los usos iniciales de PolicyCLOUD para resolver problemas reales. problemas de política.
PolicyCLOUD ofrece a los científicos de datos una caja de herramientas para ingerir y preparar conjuntos de datos para el análisis de políticas. Específicamente, PolicyCLOUD ofrece formas eficientes de:
- registrar conjuntos de datos y funciones analíticas;
- aplique una canalización sobre la marcha de funciones analíticas a los conjuntos de datos en el momento de la ingesta, ya sea para transformar los datos (p. ej., eliminando información irrelevante) o para extraer información inicial (p. ej., agregando información analítica como el análisis de sentimientos para enriquecer el conjunto de datos):
- aplicar funciones analíticas a conjuntos de datos después de la ingesta para extraer y/o visualizar información de los datos almacenados en el almacén de datos de PolicyCLOUD.
Desde un punto de vista arquitectónico, PolicyCLOUD se ha creado sobre un proveedor de nube sin servidor para que cualquier función analítica invocada durante o después de la ingesta de datos se ejecute en su propio entorno aislado (es decir, en un contenedor). Esto permite altos grados de escalabilidad y paralelismo. Además, el modelo de pago por uso sin servidor es muy atractivo tanto para los propietarios de la infraestructura de PolicyCLOUD como para los responsables de la formulación de políticas, ya que el uso general de la plataforma de PolicyCLOUD probablemente tendrá grandes fluctuaciones.
Para permitir que los formuladores de políticas extraigan información valiosa de los conjuntos de datos de una manera que sea legal y justa para las personas y la sociedad en general, PolicyCLOUD se ha desarrollado en torno a un marco integral que incorpora requisitos técnicos y organizativos para abordar las preocupaciones legales y éticas que pueden surgir en el contexto de la formulación de políticas basadas en la evidencia. Este marco se compone de varios controles legales y éticos, además de medidas destinadas a minimizar la cantidad de datos personales recopilados de los conjuntos de datos (de conformidad con el principio de minimización de datos) y garantizar que todas las operaciones de datos requeridas se realicen de una manera que permita que los datos sujetos a ejercer sus derechos (por ejemplo, en virtud del RGPD). En particular, Los parámetros de registro (tanto para conjuntos de datos como para funciones analíticas) permiten a los solicitantes de registro proporcionar información sobre las medidas específicas que se han tomado para abordar el riesgo de sesgos inherentes a una función/conjunto de datos, u otras restricciones legales/éticas relevantes que puedan existir (p. ej., la existencia de datos personales en un conjunto de datos, la gestión de compensaciones relevantes en el desarrollo de funciones y/o la autorización de los titulares de derechos relevantes). Una vez que se completa el registro, cualquier usuario de PolicyCLOUD puede acceder posteriormente a esta información proporcionada durante el proceso de registro, de modo que pueda ser considerada al evaluar la viabilidad de un determinado conjunto de datos y/o el uso de una función en un contexto específico. ej., la existencia de datos personales en un conjunto de datos, la gestión de compensaciones relevantes en el desarrollo de funciones y/o la autorización de los titulares de derechos relevantes). Una vez que se completa el registro, cualquier usuario de PolicyCLOUD puede acceder posteriormente a esta información proporcionada durante el proceso de registro, de modo que pueda ser considerada al evaluar la viabilidad de un determinado conjunto de datos y/o el uso de una función en un contexto específico. ej., la existencia de datos personales en un conjunto de datos, la gestión de compensaciones relevantes en el desarrollo de funciones y/o la autorización de los titulares de derechos relevantes). Una vez que se completa el registro, cualquier usuario de PolicyCLOUD puede acceder posteriormente a esta información proporcionada durante el proceso de registro, de modo que pueda ser considerada al evaluar la viabilidad de un determinado conjunto de datos y/o el uso de una función en un contexto específico.
PolicyCLOUD también puede explotar el poder de las simulaciones como fuentes de conocimiento, para permitir que las decisiones de políticas se diseñen en función de los resultados simulados de soluciones alternativas. Esto se logra a través de Politika [4], un marco externo al entorno PolicyCLOUD implementado durante el proyecto que ofrece una metodología novedosa de metasimulación para el diseño de políticas. Esta metodología facilita la simulación de políticas propuestas y la realización de un análisis comparativo y una evaluación de sus supuestos, mecanismos y resultados. Politika se integra con el entorno PolicyCLOUD a través de una interfaz de propósito general que también se puede utilizar para aumentar la plataforma con otros marcos externos, lo que facilita la extensión de la plataforma del proyecto con herramientas analíticas externas.
Tabla 1: Resultados de muestra para el caso de uso de radicalización.
Aplicamos PolicyCLOUD aumentado con Politika para simular políticas que apuntan a limitar la propagación de la radicalización a través de las redes sociales. Suponemos que el proceso de radicalización se caracteriza por la adopción progresiva de ideales políticos, sociales o religiosos extremos en la población a través de la influencia social. Con base en este supuesto, simulamos, comparamos y evaluamos varias alternativas de políticas para limitar la propagación de la radicalización en una población a través de la influencia social. Estas alternativas exploran diferentes periodos de restricción de radicales peligrosos y estiman su coste, así como el efecto que tienen sobre el porcentaje final de radicales en la población. La Tabla 1, que se genera a partir de PolicyCLOUD mediante el uso de Politika como herramienta externa, proporciona algunos resultados de ejemplo que recibimos para diferentes alternativas de políticas. Cada fila de esta tabla corresponde a una alternativa diferente. Las dos primeras columnas describen los valores establecidos por el responsable de la política para los parámetros de política relief_threshold (una estimación de la cantidad de radicalización por encima de la cual se debe restringir un radical) y duración_restricción (el período de tiempo durante el cual se restringe un radical). Las siguientes tres columnas describen el porcentaje de radicales restringidos, el porcentaje general de radicales y el costo de la política de restricción calculado por Politika al final de la simulación de cada alternativa. La última columna describe el número máximo de conexiones que un individuo puede tener en la población, según lo establecido por el hacedor de políticas, lo que proporciona una estimación del nivel de inclusión en el grupo social. En general,
Uno de los primeros en adoptar PolicyCLOUD es el municipio de Sofía, Bulgaria, que utiliza la caja de herramientas para varios casos prácticos. En uno de esos casos de uso, el municipio de Sofía ha estado utilizando PolicyCLOUD para mejorar la infraestructura vial de la ciudad.
El enfoque de los esfuerzos del municipio en esta área es mejorar las políticas relacionadas con la infraestructura vial local, a través de un análisis dependiente de la ubicación de los datos y las señales proporcionadas por los ciudadanos. Gracias a PolicyCLOUD, el municipio de Sofía ha podido realizar un análisis detallado de la distribución territorial de las señales por categorías/tipos, regiones, distritos, principales rutas de transporte y más. Esto ha permitido a las administraciones municipales y regionales identificar problemas en la infraestructura vial y el entorno urbano circundante y, posteriormente, adoptar o cambiar decisiones políticas, incluida la planificación presupuestaria, para aumentar la eficacia del presupuesto y los recursos públicos. Este análisis detallado también se diseñó para ayudar al municipio de Sofía a mejorar el control y la vigilancia, así como a crear un sistema de alerta temprana.
Otras capacidades interesantes de PolicyCLOUD incluyen sus tecnologías de visualización, que pueden ser utilizadas por los legisladores para identificar tendencias, y su análisis predictivo, que procesa datos relacionados con una ubicación y un tema determinados y predice la intensidad y el alcance de las acciones requeridas.
A partir de 2022, el presupuesto del municipio de Sofía para la reparación y el mantenimiento de carreteras es enorme. Creemos que el análisis predictivo aplicado a la siniestralidad en carretera reducirá este presupuesto al identificar las áreas donde se necesitan mayores reparaciones y mejoras. El municipio de Sofía espera que la predicción precisa del tipo y las categorías de incidentes en función de la distribución geográfica sea fundamental para la planificación del gasto presupuestario.
Para el escenario de infraestructura vial de Sofía, se utilizó la herramienta de análisis de datos exploratorios SKA-EDA de PolicyCLOUD. SKA-EDA permite la exploración de conjuntos de datos basados en análisis descriptivos realizados por visualización de datos. Más específicamente, SKA-EDA es una herramienta de análisis de datos exploratorios que recopila conjuntos de datos, aplica transformaciones, realiza algunos cálculos y genera diferentes distribuciones (en formato JSON) que generalmente se trazan utilizando los componentes de visualización de PolicyCLOUD. Algunas de las distribuciones de variables incluyen la distribución uni/bifrecuencia (frecuencia de ocurrencia de una o dos variables); distribución geográfica (representación gráfica de la cantidad de eventos que suceden en una posición geográfica específica); distribución acumulada (suma del valor de una variable numérica específica en varias categorías);
Estas distribuciones permiten a los hacedores de políticas realizar análisis gráficos obteniendo, por ejemplo, las distribuciones de “distritos” (Figura 1) o la distribución territorial de señales por distrito (Figura 2) para el conjunto de datos de infraestructura vial proporcionado por el piloto.
Figura 1: Distribución de distritos de Sofía para el conjunto de datos de infraestructura vial
Figura 2: Distribución territorial de las señales por distritos de Sofía para el conjunto de datos de infraestructura vial
Las primeras aplicaciones de PolicyCLOUD también incluyen políticas inteligentes para el desarrollo de la industria agroalimentaria, enfocadas en el sector del vino, y análisis de redes sociales relacionadas con la comercialización de vinos de Aragón (España). En estos casos, PolicyCLOUD se utilizó de múltiples maneras.
En primer lugar, Politika se está utilizando para la evaluación de diversas alternativas de política de precios y publicidad que pueden aumentar la competitividad de las marcas de vino frente a su competencia. Con base en estos escenarios, identificamos factores críticos en las prácticas digitales para la formulación de políticas y compartimos las lecciones aprendidas en términos de eficiencia, eficacia, adecuación y facilidad de uso para el ecosistema resultante.
En segundo lugar, PolicyCLOUD permite a los usuarios finales tener una comprensión más amplia del mercado y las necesidades y la satisfacción de los clientes. Este objetivo fundamental se alcanza aplicando las herramientas de análisis de tendencias y análisis de sentimientos a los datos de las redes sociales (específicamente tweets). Estas herramientas permiten a los usuarios filtrar el contenido de las redes sociales utilizando ontologías/taxonomías específicas creadas directamente por el usuario para recuperar información útil y datos de calidad. Con base en estos datos filtrados, los responsables políticos pueden acceder a una descripción detallada de la situación. Filtrar la salida por ubicación geográfica ayuda no solo a monitorear el estado de una región determinada, sino también a comprender la apreciación del producto en función de la ubicación. La posibilidad de filtrado temporal de los resultados facilita el análisis del impacto de una determinada política o regulación que se introdujo. De este modo,
Para que el contenido de PolicyCLOUD esté disponible públicamente, también desarrollamos un Mercado de datos (https://marketplace.policycloud.eu/), donde los activos relacionados con PolicyCLOUD, como conjuntos de datos explotados, herramientas desarrolladas, tutoriales relevantes y trabajos de investigación, son de libre acceso.
Sobre los autores
Ofer Biran, Oshrit Feder y Yosef Moatti trabajan en IBM Research en Haifa, Israel. Athanasios Kiourtis, Dimosthenis Kyriazis, George Manias, Argyro Mavrogiorgou, Nikitas M. Sgouros están afiliados al Departamento de Sistemas Digitales de la Universidad de El Pireo en Grecia. Martim T. Barata e Isabella Oldani trabajan en ICT Legal Consulting en Milán, Italia. Pavlos Kranas tiene su sede en LeanXcale Research and Development en Madrid, España. Samuele Baroni trabaja en Maggioli SpA Research and Innovation, Santarcangelo di Romagna, Italia. Miquel Mila Prat y Sergio Salmerón están en el grupo de Investigación e Innovación de Atos en París, Francia. Metodiyka Tarlyovska es Asesora Jurídica Principal en el Municipio de Sofía, Bulgaria.
Referencias
[1] WN Dunn, Análisis de políticas públicas: una introducción, Routledge, 2017.
[2] D. Kyriazis et al, “PolicyCLOUD: análisis como servicio que facilita la gestión eficiente de políticas públicas basadas en datos. En: Maglogiannis I., Iliadis L., Pimenidis E. (eds) Aplicaciones e innovaciones de inteligencia artificial. AIAI 2020. Avances de IFIP en tecnología de la información y la comunicación, vol 583. Springer, 2020.
[3] Hu, VC, Kuhn, DR, Ferraiolo, DF y Voas, J., “Control de acceso basado en atributos”. Computadora , vol. 48 , núm. 2, 85–88, 2015.
[4] Nikitas M. Sgouros. 2022. Politika: Implementando una novedosa metodología de Meta-Simulación para el Diseño de Políticas Públicas en la Web. Gobierno digital: investigación y práctica (recién aceptado (octubre de 2022)).https://doi.org/10.1145/3568167
[5] Biran, O. y otros (2022). PolicyCLOUD: un prototipo de un ecosistema sin servidor en la nube para el análisis de políticas. Datos y política, 4 , E44. doi:10.1017/dap.2022.32