Разработка экологии данных для политики: опыт PolicyCLOUD и его оценка

Dec 01 2022
Офер Биран, Ошрит Федер, Йосеф Моатти, Афанасиос Киуртис, Димофенис Кириазис, Джордж Маниас, Аргиро Маврогиоргу, Никитас М. Сгурос, Мартим Т.

Офер Биран, Ошрит Федер, Йосеф Моатти, Афанасиос Киуртис, Димостенис Кириазис, Джордж Маниас, Аргиро Маврогиоргу, Никитас М. Сгурос, Мартим Т. Барата, Изабелла Олдани, Мария А. Сангино, Павлос Кранас, Самуэле Барони, Микель Мила Прат, Серхио Сальмерон и Методийка Тарлевская

Для решения практических задач политики требуются данные, которые обычно относятся к разным типам. Таким образом, разработчики политики должны управлять различными типами источников данных и многочисленными научными методами и методологиями, необходимыми для очистки, фильтрации, анализа, проверки и, возможно, дополнения наборов данных по мере их поступления. Такая обработка является обязательной, если данные должны представлять ценность.

PolicyCLOUD — это продолжающийся исследовательский проект, финансируемый ЕС, который предлагает инновационный, ориентированный на данные подход к политике. Эта цель достигается с помощью облачной экосистемы, которая поддерживает управление политиками на основе данных эффективным образом, юридически и этически обоснованным[2]. Эта экосистема состоит из уникальной интегрированной облачной среды, ориентированной на простой и эффективный прием и использование данных для создания политик, мониторинга и оценки.

В нашей исследовательской статье , которая находится в открытом доступе в Data & Policy [5], мы описываем типы источников данных, используемых экосистемой, некоторые встроенные аналитические возможности этой среды и начальные варианты использования PolicyCLOUD для решения реальных задач. проблемы политики.

PolicyCLOUD предлагает специалистам по обработке и анализу данных набор инструментов для сбора и подготовки наборов данных для анализа политики. В частности, PolicyCLOUD предлагает эффективные способы:

  1. регистрировать наборы данных и аналитические функции;
  2. применить оперативный конвейер аналитических функций к наборам данных при приеме либо для преобразования данных (например, удаления ненужной информации), либо для извлечения первоначальных идей (например, добавления аналитических идей, таких как анализ настроений, для обогащения набора данных):
  3. применять аналитические функции к наборам данных после приема для извлечения и/или визуализации информации из данных, хранящихся в хранилище данных PolicyCLOUD.

С архитектурной точки зрения PolicyCLOUD был построен на основе бессерверного облачного провайдера, так что любая аналитическая функция, вызываемая во время или после приема данных, выполняется в своей собственной изолированной среде (т. е. в контейнере). Это обеспечивает высокую степень масштабируемости и параллелизма. Кроме того, бессерверная модель с оплатой по мере использования очень привлекательна как для владельцев инфраструктуры PolicyCLOUD, так и для разработчиков политики, поскольку общее использование платформы PolicyCLOUD, вероятно, будет иметь большие колебания.

Чтобы позволить политикам извлекать ценную информацию из наборов данных способом, который является законным и справедливым по отношению к отдельным лицам и обществу в целом, PolicyCLOUD был разработан на основе всеобъемлющей структуры, включающей технические и организационные требования для решения юридических и этических проблем, которые могут возникнуть в контекст доказательной политики. Эта структура состоит из нескольких правовых и этических средств контроля, а также мер, направленных на минимизацию объема персональных данных, собранных из наборов данных (в соответствии с принципом минимизации данных), и обеспечение того, чтобы все необходимые операции с данными выполнялись таким образом, чтобы данные могли субъектам осуществлять свои права (например, в соответствии с GDPR). Особенно, параметры регистрации (как для наборов данных, так и для аналитических функций) позволяют владельцам регистраций предоставлять информацию о конкретных мерах, которые были приняты для устранения риска систематических ошибок, присущих функции/набору данных, или других соответствующих юридических/этических ограничениях, которые могут существовать (например, наличие персональных данных в наборе данных, управление соответствующими компромиссами при разработке функций и/или разрешение от соответствующих правообладателей). После завершения регистрации к этой информации, предоставленной в процессе регистрации, впоследствии может получить доступ любой пользователь PolicyCLOUD, чтобы ее можно было учитывать при оценке жизнеспособности данного набора данных и/или использования функции в конкретном контексте. ж., наличие персональных данных в наборе данных, управление соответствующими компромиссами при разработке функций и/или разрешение от соответствующих правообладателей). После завершения регистрации к этой информации, предоставленной в процессе регистрации, впоследствии может получить доступ любой пользователь PolicyCLOUD, чтобы ее можно было учитывать при оценке жизнеспособности данного набора данных и/или использования функции в конкретном контексте. ж., наличие персональных данных в наборе данных, управление соответствующими компромиссами при разработке функций и/или разрешение от соответствующих правообладателей). После завершения регистрации к этой информации, предоставленной в процессе регистрации, впоследствии может получить доступ любой пользователь PolicyCLOUD, чтобы ее можно было учитывать при оценке жизнеспособности данного набора данных и/или использования функции в конкретном контексте.

PolicyCLOUD также может использовать возможности моделирования в качестве источников информации, позволяя разрабатывать политики на основе смоделированных результатов альтернативных решений. Это достигается с помощью Politika [4], внешней среды по отношению к среде PolicyCLOUD, реализованной в ходе проекта, которая предлагает новую методологию метамоделирования для разработки политики. Эта методология упрощает моделирование предлагаемых политик и проведение сравнительного анализа и оценки их предположений, механизмов и результатов. Politika интегрирована со средой PolicyCLOUD через интерфейс общего назначения, который можно использовать для дополнения платформы другими внешними фреймворками, что облегчает расширение платформы проекта внешними аналитическими инструментами.

Таблица 1: Пример результатов для варианта использования радикализации.

Мы применили PolicyCLOUD, дополненную Politika, для имитации политик, направленных на ограничение распространения радикализации через социальные сети. Мы предполагаем, что процесс радикализации характеризуется постепенным принятием населением крайних политических, социальных или религиозных идеалов через социальное влияние. Основываясь на этом предположении, мы моделируем, сравниваем и оцениваем различные альтернативы политики для ограничения распространения радикализации среди населения посредством социального влияния. Эти альтернативы исследуют различные периоды ограничения для опасных радикалов и оценивают их стоимость, а также влияние, которое они оказывают на конечный процент радикалов в популяции. В таблице 1, созданной из PolicyCLOUD с использованием Politika в качестве внешнего инструмента, представлены некоторые примеры результатов, которые мы получили для различных альтернативных политик. Каждая строка в этой таблице соответствует отдельной альтернативе. В первых двух столбцах описываются значения, установленные разработчиком политики для параметров политикиstriction_threshold (оценка степени радикализации, выше которой радикал должен быть ограничен) иstriction_duration (период времени, в течение которого радикал подвергается ограничениям). В следующих трех столбцах описывается процент ограниченных радикалов, общий процент радикалов и стоимость политики ограничений, рассчитанная программой «Политика» в конце моделирования каждой альтернативы. В последнем столбце указано максимальное количество связей, которое человек может иметь в популяции, установленное разработчиком политики, что дает оценку уровня включенности в социальную группу. В целом,

Одним из первых, кто внедрил PolicyCLOUD, является муниципалитет Софии, Болгария, который использует набор инструментов для нескольких вариантов использования. В одном из таких случаев муниципалитет Софии использовал PolicyCLOUD для улучшения дорожной инфраструктуры города.

В центре усилий муниципалитета в этой области находится совершенствование политики, связанной с местной дорожной инфраструктурой, посредством анализа данных и сигналов, предоставляемых гражданами, в зависимости от местоположения. Благодаря PolicyCLOUD муниципалитет Софии смог провести подробный анализ территориального распределения сигналов по категориям/типам, регионам, районам, основным транспортным маршрутам и т. д. Это позволяет муниципальным и региональным администрациям выявлять проблемы в дорожной инфраструктуре и окружающей городской среде и впоследствии принимать или изменять политические решения, включая планирование бюджета, для повышения эффективности использования бюджетных и государственных ресурсов. Этот подробный анализ также был разработан, чтобы помочь муниципалитету Софии улучшить контроль и мониторинг, а также создать систему раннего предупреждения.

Другие интересные возможности PolicyCLOUD включают его технологии визуализации, которые могут использоваться политиками для выявления тенденций, а также его прогнозную аналитику, которая обрабатывает данные, относящиеся к заданному местоположению и теме, и прогнозирует интенсивность и масштаб необходимых действий.

По состоянию на 2022 год бюджет муниципалитета Софии на ремонт и содержание дорог огромен. Мы считаем, что предсказательный анализ дорожно-транспортных происшествий сократит этот бюджет за счет определения областей, где требуется наибольший ремонт и усовершенствование. Муниципалитет Софии ожидает, что точное прогнозирование типов и категорий происшествий в зависимости от географического распределения станет критически важным для планирования бюджетных расходов.

Для сценария дорожной инфраструктуры Софии использовался аналитический инструмент SKA-EDA для разведочных данных PolicyCLOUD. SKA-EDA позволяет исследовать наборы данных на основе описательного анализа, проводимого путем визуализации данных. В частности, SKA-EDA — это инструмент исследовательского анализа данных, который собирает наборы данных, применяет преобразования, выполняет некоторые вычисления и выводит различные распределения (в формате JSON), которые обычно строятся с использованием компонентов визуализации PolicyCLOUD. Некоторые из распределений переменных включают одно-/двухчастотное распределение (частота появления одной/двух переменных); географическое распределение (графическое представление количества событий, происходящих в определенном географическом положении); накопленное распределение (сумма значений конкретной числовой переменной по нескольким категориям);

Эти распределения позволяют лицам, определяющим политику, проводить графический анализ, получая, например, распределение «районов» (рис. 1) или территориальное распределение сигналов по районам (рис. 2) для набора данных дорожной инфраструктуры, предоставленного пилотным проектом.

Рисунок 1: Распределение районов Софии по набору данных дорожной инфраструктуры

Рисунок 2: Территориальное распределение сигналов по районам Софии для набора данных дорожной инфраструктуры

Ранние приложения PolicyCLOUD также включают интеллектуальную политику развития агропродовольственной промышленности, ориентированную на винодельческий сектор, и анализ социальных сетей, связанный с маркетингом вин Aragon (Испания). В этих случаях PolicyCLOUD использовался несколькими способами.

Во-первых, Politika используется для оценки различных альтернатив ценовой и рекламной политики, которые могут повысить конкурентоспособность винных брендов по сравнению с их конкурентами. Основываясь на этих сценариях, мы определили критические факторы цифровых практик для разработки политики и поделились извлеченными уроками с точки зрения эффективности, действенности, адекватности и простоты использования для полученной экосистемы.

Во-вторых, PolicyCLOUD позволяет конечным пользователям получить более широкое представление о рынке, а также о потребностях и удовлетворенности клиентов. Эта важная цель достигается путем применения инструментов анализа тенденций и анализа настроений к данным социальных сетей (в частности, к твитам). Эти инструменты позволяют пользователям фильтровать контент социальных сетей, используя определенные онтологии/таксономии, созданные непосредственно пользователем, для извлечения полезной информации и качественных данных. На основе этих отфильтрованных данных разработчики политики могут получить доступ к подробному обзору ситуации. Фильтрация выходных данных по географическому местоположению помогает не только отслеживать статус данного региона, но и понимать оценку продукта в зависимости от местоположения. Возможность временной фильтрации результатов облегчает анализ воздействия той или иной введенной политики или правила. Этим способом,

Чтобы сделать контент PolicyCLOUD общедоступным, мы также разработали торговую площадку данных (https://marketplace.policycloud.eu/), где ресурсы, связанные с PolicyCLOUD, такие как используемые наборы данных, разработанные инструменты, соответствующие учебные пособия и исследовательские работы, находятся в открытом доступе.

Об авторах

Офер Биран, Ошрит Федер и Йосеф Моатти работают в IBM Research в Хайфе, Израиль. Афанасиос Киуртис, Димосфенис Кириазис, Джордж Маниас, Аргиро Маврогиоргу, Никитас М. Сгурос работают на кафедре цифровых систем Пирейского университета в Греции. Мартим Т. Барата и Изабелла Олдани работают в ICT Legal Consulting в Милане, Италия. Павлос Кранас работает в отделе исследований и разработок LeanXcale в Мадриде, Испания. Самуэле Барони работает в Maggioli SpA Research and Innovation, Сантарканджело-ди-Романья, Италия. Микель Мила Прат и Серхио Сальмерон входят в группу исследований и инноваций Atos в Париже, Франция. Методийка Тарлевска — старший юрисконсульт муниципалитета Софии, Болгария.

использованная литература

[1] В. Н. Данн, Анализ государственной политики: введение, Routledge, 2017.

[2] Д. Кириазис и др., «PolicyCLOUD: аналитика как услуга, способствующая эффективному управлению государственной политикой на основе данных. В: Маглогианнис И., Илиадис Л., Пименидис Э. (ред.) Приложения и инновации в области искусственного интеллекта. AIAI 2020. Достижения IFIP в области информационных и коммуникационных технологий, том 583. Springer, 2020.

[3] Ху, В.К., Кун, Д.Р., Феррайоло, Д.Ф., и Воас, Дж., «Управление доступом на основе атрибутов». Компьютер , вып. 48 , нет. 2, 85–88, 2015.

[4] Никитас М. Сгурос. 2022. Политика: внедрение новой методологии метамоделирования для разработки государственной политики в Интернете. Цифровое правительство: исследования и практика (только что принято (октябрь 2022 г.)).https://doi.org/10.1145/3568167

[5] Биран О. и др. (2022). PolicyCLOUD: прототип облачной бессерверной экосистемы для анализа политик. Данные и политика, 4 , E44. дои: 10.1017/dap.2022.32