Desenvolvendo uma ecologia de dados para a prática de políticas: a experiência PolicyCLOUD e sua avaliação
Ofer Biran, Oshrit Feder, Yosef Moatti, Athanasios Kiourtis, Dimosthenis Kyriazis, George Manias, Argyro Mavrogiorgou, Nikitas M. Sgouros, Martim T. Barata, Isabella Oldani, María A. Sanguino, Pavlos Kranas, Samuele Baroni, Miquel Mila Prat, Sergio Salmerón e Metodiyka Tarlyovska
Resolver problemas práticos de políticas exige dados que normalmente são de vários tipos. Assim, os formuladores de políticas precisam gerenciar vários tipos de fontes de dados e vários métodos e metodologias científicos necessários para limpar, filtrar, analisar, validar e possivelmente aumentar os conjuntos de dados à medida que são ingeridos. Esse processamento é obrigatório se os dados fornecerem valor.
O PolicyCLOUD é um projeto de pesquisa em andamento financiado pela UE que oferece uma abordagem inovadora centrada em dados para a prática política. Esse objetivo está sendo alcançado por meio de um ecossistema baseado em nuvem que oferece suporte ao gerenciamento de políticas baseado em dados de maneira eficiente, legal e eticamente sólida[2]. Esse ecossistema consiste em um ambiente baseado em nuvem exclusivo e integrado que visa a ingestão e o uso fácil e eficiente de dados para fins de criação, monitoramento e avaliação de políticas.
Em nosso artigo de pesquisa , que é de acesso aberto em Data & Policy [5], descrevemos os tipos de fontes de dados usadas pelo ecossistema, alguns dos recursos analíticos integrados desse ambiente e os usos iniciais do PolicyCLOUD para resolver problemas reais problemas de política.
O PolicyCLOUD oferece aos cientistas de dados uma caixa de ferramentas para ingerir e preparar conjuntos de dados para análise de políticas. Especificamente, PolicyCLOUD oferece maneiras eficientes de:
- registrar conjuntos de dados e funções analíticas;
- aplique um pipeline on-the-fly de funções analíticas a conjuntos de dados após a ingestão, seja para transformar dados (por exemplo, remover informações irrelevantes) ou para extrair insights iniciais (por exemplo, adicionar insights analíticos, como análise de sentimento para enriquecer o conjunto de dados):
- aplique funções analíticas a conjuntos de dados após a ingestão para extrair e/ou visualizar informações dos dados armazenados no armazenamento de dados PolicyCLOUD.
Do ponto de vista arquitetônico, o PolicyCLOUD foi construído sobre um provedor de nuvem sem servidor para que qualquer função analítica invocada durante ou após a ingestão de dados seja executada em seu próprio ambiente isolado (ou seja, em um contêiner). Isso permite altos graus de escalabilidade e paralelismo. Além disso, o modelo de pagamento por uso sem servidor é muito atraente tanto para os proprietários de infraestrutura PolicyCLOUD quanto para os formuladores de políticas, já que o uso geral da plataforma PolicyCLOUD provavelmente terá grandes flutuações.
Para permitir que os formuladores de políticas extraiam informações valiosas dos conjuntos de dados de maneira legal e justa para com os indivíduos e a sociedade em geral, o PolicyCLOUD foi desenvolvido em torno de uma estrutura abrangente que incorpora requisitos técnicos e organizacionais para abordar questões legais e éticas que possam surgir em no contexto da elaboração de políticas baseadas em evidências. Esta estrutura é composta por vários controles legais e éticos, além de medidas destinadas a minimizar a quantidade de dados pessoais coletados de conjuntos de dados (em conformidade com o princípio de minimização de dados) e garantir que todas as operações de dados necessárias sejam realizadas de maneira a permitir que os dados sujeitos a exercer seus direitos (por exemplo, sob o GDPR). Em particular, parâmetros de registro (para conjuntos de dados e funções analíticas) permitem que os registrantes forneçam informações sobre as medidas específicas que foram tomadas para lidar com o risco de vieses inerentes a uma função/conjunto de dados ou outras restrições legais/éticas relevantes que possam existir (por exemplo, o existência de dados pessoais em um conjunto de dados, gerenciamento de compensações relevantes no desenvolvimento de funções e/ou autorização de detentores de direitos relevantes). Uma vez concluído o registo, esta informação fornecida durante o processo de registo pode ser posteriormente acedida por qualquer utilizador PolicyCLOUD, para que possa ser considerada na avaliação da viabilidade de utilização de um determinado conjunto de dados e/ou função num contexto específico. g., a existência de dados pessoais em um conjunto de dados, o gerenciamento de compensações relevantes no desenvolvimento de funções e/ou autorização de detentores de direitos relevantes). Uma vez concluído o registo, esta informação fornecida durante o processo de registo pode ser posteriormente acedida por qualquer utilizador PolicyCLOUD, para que possa ser considerada na avaliação da viabilidade de utilização de um determinado conjunto de dados e/ou função num contexto específico. g., a existência de dados pessoais em um conjunto de dados, o gerenciamento de compensações relevantes no desenvolvimento de funções e/ou autorização de detentores de direitos relevantes). Uma vez concluído o registo, esta informação fornecida durante o processo de registo pode ser posteriormente acedida por qualquer utilizador PolicyCLOUD, para que possa ser considerada na avaliação da viabilidade de utilização de um determinado conjunto de dados e/ou função num contexto específico.
O PolicyCLOUD também pode explorar o poder das simulações como fontes de insight, para permitir que decisões de políticas sejam projetadas com base nos resultados simulados de soluções alternativas. Isso é alcançado por meio do Politika [4], uma estrutura externa ao ambiente PolicyCLOUD implementada durante o projeto que oferece uma nova metodologia de meta-simulação para o design de políticas. Essa metodologia facilita a simulação de políticas propostas e a realização de uma análise comparativa e avaliação de seus pressupostos, mecanismos e resultados. O Politika é integrado ao ambiente PolicyCLOUD por meio de uma interface de uso geral que pode ser usada para aumentar a plataforma também com outras estruturas externas, facilitando assim a extensão da plataforma do projeto com ferramentas analíticas externas.
Tabela 1: Resultados de amostra para o caso de uso de radicalização.
Aplicamos o PolicyCLOUD aumentado com o Politika para simular políticas que visam limitar a propagação da radicalização através das mídias sociais. Assumimos que o processo de radicalização caracteriza-se pela adoção progressiva de ideais políticos, sociais ou religiosos extremos na população por meio da influência social. Com base nessa suposição, simulamos, comparamos e avaliamos várias alternativas políticas para limitar a propagação da radicalização em uma população por meio de influência social. Essas alternativas exploram diferentes períodos de restrição para radicais perigosos e estimam seu custo, juntamente com o efeito que eles têm sobre a porcentagem final de radicais na população. A Tabela 1, que é gerada a partir do PolicyCLOUD por meio do uso do Politika como uma ferramenta externa, fornece alguns exemplos de resultados que recebemos para diferentes alternativas de política. Cada linha desta tabela corresponde a uma alternativa diferente. As duas primeiras colunas descrevem os valores definidos pelo formulador de políticas para os parâmetros de restrição_limite (uma estimativa da quantidade de radicalização acima da qual um radical deve ser restringido) e restrição_duração (o período de tempo durante o qual um radical é colocado sob restrição). As próximas três colunas descrevem a porcentagem de radicais restritos, a porcentagem geral de radicais e o custo da política de restrição calculado pelo Politika ao final da simulação de cada alternativa. A última coluna descreve o número máximo de conexões que um indivíduo pode ter na população, conforme definido pelo formulador de políticas, o que fornece uma estimativa do nível de inclusão no grupo social. No geral,
Um dos primeiros a adotar o PolicyCLOUD é o município de Sofia, na Bulgária, que usa a caixa de ferramentas para vários casos de uso. Em um desses casos de uso, o município de Sofia está usando o PolicyCLOUD para melhorar a infraestrutura viária da cidade.
O foco dos esforços do município nesta área é melhorar as políticas relacionadas com a infra-estrutura rodoviária local, através de uma análise dependente da localização dos dados e sinais fornecidos pelos cidadãos. Graças ao PolicyCLOUD, o município de Sófia conseguiu realizar uma análise detalhada da distribuição territorial de sinais por categorias/tipos, regiões, distritos, principais rotas de transporte e muito mais. Isso permite que as administrações municipais e regionais identifiquem problemas na infraestrutura rodoviária e no ambiente urbano circundante e, posteriormente, adotem ou alterem decisões políticas, incluindo o planejamento orçamentário, para aumentar a eficácia do orçamento e dos recursos públicos. Esta análise detalhada também foi projetada para ajudar o município de Sófia a melhorar o controle e o monitoramento, bem como criar um sistema de alerta precoce.
Outros recursos interessantes do PolicyCLOUD incluem suas tecnologias de visualização, que podem ser usadas por formuladores de políticas para identificar tendências, e sua análise preditiva, que processa dados pertencentes a um determinado local e tópico e prevê a intensidade e a extensão das ações necessárias.
A partir de 2022, o orçamento do município de Sofia para reparação e manutenção de estradas é enorme. Acreditamos que a análise preditiva aplicada à sinistralidade rodoviária irá reduzir este orçamento ao apontar as áreas onde são necessárias maiores reparações e melhorias. O município de Sofia espera que a previsão precisa do tipo e categorias de incidentes em função da distribuição geográfica se torne crítica para o planejamento de gastos orçamentários.
Para o cenário de infraestrutura rodoviária de Sofia, foi usada a ferramenta analítica de dados exploratórios da PolicyCLOUD SKA-EDA. O SKA-EDA permite a exploração de conjuntos de dados com base na análise descritiva conduzida pela visualização de dados. Mais especificamente, o SKA-EDA é uma ferramenta de análise exploratória de dados que coleta conjuntos de dados, aplica transformações, executa alguns cálculos e produz distribuições diferentes (no formato JSON) que normalmente são plotados usando os componentes de visualização do PolicyCLOUD. Algumas das distribuições variáveis incluem distribuição uni/bifrequência (frequência de ocorrência para uma/duas variáveis); distribuição geográfica (representação gráfica do número de eventos que acontecem em uma determinada posição geográfica); distribuição acumulada (soma do valor de uma variável numérica específica em várias categorias);
Essas distribuições permitem que os formuladores de políticas realizem análises gráficas obtendo, por exemplo, as distribuições de “distritos” (Figura 1) ou a distribuição territorial de sinais por distrito (Figura 2) para o conjunto de dados de infraestrutura viária fornecido pelo piloto.
Figura 1: Distribuição dos distritos de Sófia para o conjunto de dados de infraestrutura rodoviária
Figura 2: Distribuição territorial de sinais por distritos de Sófia para o conjunto de dados de infraestrutura rodoviária
As primeiras aplicações de PolicyCLOUD também incluem políticas inteligentes para o desenvolvimento da indústria agroalimentar, focadas no setor vitivinícola, e análises de mídias sociais relacionadas à comercialização de vinhos de Aragão (Espanha). Nesses casos, o PolicyCLOUD foi usado de várias maneiras.
Primeiro, o Politika está sendo usado para avaliar várias alternativas de preços e políticas de publicidade que podem aumentar a competitividade das marcas de vinho em relação à concorrência. Com base nesses cenários, identificamos fatores críticos nas práticas digitais para a formulação de políticas e compartilhamos as lições aprendidas em termos de eficiência, eficácia, adequação e facilidade de uso para o ecossistema resultante.
Em segundo lugar, o PolicyCLOUD permite que os usuários finais tenham uma compreensão mais ampla do mercado e das necessidades e satisfação dos clientes. Esse objetivo crítico é alcançado aplicando as ferramentas Análise de Tendências e Análise de Sentimentos a dados de mídia social (especificamente tweets). Essas ferramentas permitem que os usuários filtrem o conteúdo das mídias sociais usando ontologias/taxonomias específicas criadas diretamente pelo usuário para recuperar informações úteis e dados de qualidade. Com base nesses dados filtrados, os formuladores de políticas podem acessar uma visão geral detalhada da situação. Filtrar a produção por localização geográfica ajuda não apenas a monitorar o status de uma determinada região, mas também a entender a valorização do produto em função da localização. A possibilidade de filtragem temporal dos resultados facilita a análise do impacto de uma determinada política ou regulamentação que foi introduzida. Nesse caminho,
Para tornar o conteúdo PolicyCLOUD disponível publicamente, também desenvolvemos um mercado de dados (https://marketplace.policycloud.eu/), onde ativos relacionados ao PolicyCLOUD, como conjuntos de dados explorados, ferramentas desenvolvidas, tutoriais relevantes e artigos de pesquisa, são acessíveis abertamente.
sobre os autores
Ofer Biran, Oshrit Feder e Yosef Moatti trabalham na IBM Research em Haifa, Israel. Athanasios Kiourtis, Dimosthenis Kyriazis, George Manias, Argyro Mavrogiorgou, Nikitas M. Sgouros são afiliados ao Departamento de Sistemas Digitais da Universidade de Pireu, na Grécia. Martim T. Barata e Isabella Oldani estão na ICT Legal Consulting em Milão, Itália. Pavlos Kranas trabalha na Pesquisa e Desenvolvimento LeanXcale em Madri, Espanha. Samuele Baroni trabalha na Maggioli SpA Research and Innovation, Santarcangelo di Romagna, Itália. Miquel Mila Prat e Sergio Salmerón estão no grupo de Pesquisa & Inovação da Atos em Paris, França. Metodiyka Tarlyovska é consultora jurídica sênior no município de Sofia, Bulgária.
Referências
[1] WN Dunn, Análise de Políticas Públicas: Uma Introdução, Routledge, 2017.
[2] D. Kyriazis et al, “PolicyCLOUD: Analytics as a Service Facilitating Efficient Data-Driven Public Policy Management. In: Maglogiannis I., Iliadis L., Pimenidis E. (eds) Aplicações e inovações de inteligência artificial. AIAI 2020. IFIP Advances in Information and Communication Technology, vol 583. Springer, 2020.
[3] Hu, VC, Kuhn, DR, Ferraiolo, DF, & Voas, J., “Controle de acesso baseado em atributos”. Computador , vol. 48 , nº. 2, 85–88, 2015.
[4] Nikitas M. Sgouros. 2022. Politika: Implementando uma Nova Metodologia de Meta-Simulação para o Desenho de Políticas Públicas na Web. Governo Digital: Pesquisa e Prática (Apenas Aceito (Outubro de 2022)).https://doi.org/10.1145/3568167
[5] Biran, O., et al (2022). PolicyCLOUD: Um protótipo de um ecossistema sem servidor em nuvem para análise de políticas. Dados e Política, 4 , E44. doi:10.1017/dap.2022.32