Данные: мусор на входе, мусор на выходе

Dec 01 2022
Я собираюсь пойти дальше и доказать, что самая важная и неотложная проблема реального мира, которую мы должны решить как глобальное техническое сообщество, заключается в том, как мы улучшаем качество данных, которые поступают в системы искусственного интеллекта — ключевой шаг, прежде чем мы сможем сосредоточиться на масштабирование ИИ для всего положительного потенциала, который у него есть. Мы уже так сильно полагаемся на ИИ в нашей повседневной жизни, что коллективным «нам» важно понимать, с чем мы имеем дело.

Я собираюсь пойти дальше и доказать, что самая важная и неотложная проблема реального мира , которую мы должны решить как глобальное техническое сообщество, заключается в том, как мы улучшаем качество данных, которые поступают в системы искусственного интеллекта — ключевой шаг, прежде чем мы сможем сосредоточиться на масштабирование ИИ для всего положительного потенциала, который у него есть.

Мы уже так сильно полагаемся на ИИ в нашей повседневной жизни, что коллективным «нам» важно понимать, с чем мы имеем дело. ИИ зависит от данных, чтобы существовать. На самом деле данные, лежащие в основе алгоритма, гораздо важнее самого алгоритма.

Мусор на входе ➡️ Мусор на выходе.

Три аспекта данных для более тщательного изучения:

  1. Качество данных для обучения ИИ
  2. Инфраструктура для сбора, хранения и обработки данных
  3. Этика в данных и ИИ

На этапе разработки алгоритма ИИ команды определяют, откуда будут поступать данные для обучения алгоритма. Предвзятые данные будут создавать предвзятые алгоритмы и, в конечном итоге, предвзятые результаты и решения. Последствия для реального мира далеко идущие и довольно опасные. Если вы похожи на меня, вы тоже лучше всего учитесь на примерах:

  • Здравоохранение | Рентгеновские модели ИИ : если для обучения алгоритма ИИ для обнаружения изображений используются только рентгеновские снимки мужчин, то ИИ может не распознавать заболевания, когда ему поручено диагностировать женщину.
  • Безопасность и наблюдение | Умные камеры с искусственным интеллектом: если изображения, подаваемые на умные камеры слежения с искусственным интеллектом, будут отображать только американские новостные статьи о мусульманах за последние 10 лет, он научится рассматривать любого человека с физическими особенностями из этого региона или любого, кто исповедует ислам, как угрозу. Похожим неудачным приложением является наблюдение за безопасностью афроамериканских общин, с которым мы все слишком хорошо знакомы.
  • Распознавание лиц | Тегирование социальных сетей : если набор данных, используемый для обучения алгоритма ИИ, в основном состоит из лиц и черт лица европеоидной расы, алгоритм будет исключать лица других национальностей. Это гораздо глубже касается темы представления для всех и того влияния, которое оно может оказать на негативные самоисполняющиеся пророчества, и барьеров, которые оно создает для прогресса. Обратной стороной того же приложения является озабоченность сил наблюдения и безопасности, что в конечном итоге увековечивает несправедливую дискриминацию в отношении определенных сообществ.
  • Рекомендация по контенту : если данные для обучения алгоритма ИИ создаются людьми с ограниченным опытом, взглядами и опытом, эти механизмы записи контента могут проводить границы между тем, какой контент рекомендуется определенным группам, увековечивать повествования, ограничивать критическое мышление и ограничивать доступ к новым Информация. Это также решает проблему предвзятости доступности — когда люди верят контенту, который они читают, потому что это единственный доступный им контент.

«Данные не лгут. Люди делают. Если ваши данные необъективны, это связано с тем, что они были неправильно отобраны или вы задали неправильный вопрос (преднамеренно или нет)».
- Ли Бейкер, Правда, ложь и статистика: как лгать со статистикой

Если базовые обучающие данные предвзяты и неполны, тот же алгоритм (или даже его улучшенная версия) будет продолжать учиться на этих неверных базовых данных с большим использованием, что еще больше усугубит проблему.

Мой первый настоящий толчок к реальности в этом вопросе произошел, когда Дональд Трамп победил на президентских выборах в 2016 году. Я понял, что был в эхо-камере, основанной на том, какой контент был разработан для меня, и я продолжал получать больше этой темы контента по мере того, как Я продолжал потреблять его.

Недостатки? Я был совершенно ошеломлен результатами выборов.

Верх? Теперь я очень любопытен и отточил свои навыки критического мышления.

Инфраструктура для сбора и обработки данных

Реальность такова, что мы не следуем стандартизированному методу или системе сбора, хранения и обработки данных. Это привело к огромному количеству данных, собранных на нескольких разных платформах, которые не очень хорошо взаимодействуют друг с другом — то есть очень разрозненные системы без бесшовной интеграции между ними для обмена и объединения данных. Это не означает, что все системы такие (многие находятся в процессе решения этой проблемы), но это остается реальной проблемой для технического сообщества, которую необходимо решить, чтобы максимизировать ценность данных из различных источников.

И хуже? Качество данных, собираемых каждой системой, различается, что приводит к неточностям и несоответствиям в сочетании с другими наборами данных. Довольно ужасный коктейль проблем для « стратегии, основанной на данных », о которой все говорят.

Этика в данных и искусственном интеллекте: это сложно.

Чтобы добиться какого-либо значимого прогресса в разработке стандарта этики для технологий и ИИ, мы должны сначала признать, насколько невероятно сложным является вопрос этики. То, что одна группа считает «моральным» и «правильным», может быть совершенно непристойным и оскорбительным для другой группы — с точно такой же степенью убежденности.

В 2017 году я посетил феноменальную лекцию Майкла Шидловски в школе Flatiron в Нью-Йорке, которая продолжает вдохновлять меня по сей день. Он провел аудиторию через ряд мысленных экспериментов, чтобы проиллюстрировать сложность того, что мы «считаем» этикой и моралью, как быстро мы поначалу делаем выводы и как размываются границы, когда приходит время их выполнять.

Мой любимый мысленный эксперимент: Дилемма тележки . Этот эксперимент — реальная дилемма для тех, кто сегодня занимается проектированием и обучением беспилотных автомобилей!

Давайте сделаем еще один шаг вперед. Как бы ВЫ выбрали для обучения алгоритма самоуправляемого автомобиля, если бы делали выбор между убийством/спасением старика или ребенка? Мужчина против женщины? Черный человек против белого человека? Беременная женщина против женщины с маленьким ребенком на руках? Человек с ампутированной ногой против совершенно здорового трудоспособного мужчины?

Неудобно еще? Да, это сложно.

Хотя наша цель как технического сообщества и как представителей человеческой расы должна состоять в том, чтобы уменьшить как можно больше предвзятости, реальность такова, что всегда будет некоторая предвзятость, которая существует в наборах данных, выбранных для обучения алгоритмов ИИ, и предвзятость в этих наборах данных. будет меняться в зависимости от окружающей нас среды и того, что «нормализуется» в течение этого времени.

Неудобный пример с некоторыми уродливыми истинами: если бы самоуправляемые автомобили обучались на юге (США) в начале 1900-х годов на пике движения KKK, нетрудно представить, что те, кто принимает решения по обучающим наборам данных, выбрали бы путь ценить жизнь белого человека выше черного. Бесчисленное множество других примеров из мира, в котором мы живем сегодня.

Мусор на входе, мусор на выходе.

Хорошие данные ➡️ Хороший ИИ — но как этого достичь?

Некоторый уровень предвзятости, сознательный или бессознательный, всегда будет существовать. Коллективная цель состоит в том, чтобы уменьшить колебания маятника смещения настолько, насколько это в человеческих силах.

Вот несколько идей о том, как мы можем туда попасть:

  1. Преднамеренное разнообразие между командами обработки данных и ИИ :
    Крайне важно представлять как можно больше групп людей при создании и обучении алгоритмов ИИ. Этот шаг включения должен быть осмысленным и ориентированным на действия, а не просто слоем пиар-краски. Разнообразие взглядов, точек зрения, опыта и опыта укрепит наши наборы данных и поможет уменьшить маятниковое колебание предвзятости в данных, особенно когда мы масштабируем приложения ИИ по всему миру.
  2. Будьте очень любопытны :
    узнайте больше об искусственном интеллекте и раскройте эти модные словечки. Задавать вопросы. Не бойтесь вместе с деловыми партнерами и поставщиками технологий исследовать и углубляться в то, какие наборы данных используются и представляются, как данные собираются и обрабатываются, какие методологии искусственного интеллекта используются и т. д. информацию, необходимую для принятия наилучших решений для вашего бизнеса (и для себя), насколько это возможно.
  3. Используйте технологию искусственного интеллекта для повышения качества данных ⚡︎:
    используйте технологию искусственного интеллекта для автоматизации монотонных задач по сбору данных. Например, многие системы отчетов о расходах позволяют сотрудникам просто загружать или отправлять по электронной почте фотографии квитанций и автоматически сканировать всю необходимую информацию.
  4. Геймификация :
    Очистка данных и обеспечение качества данных может быть одной из наименее увлекательных работ, на которую можно было бы подписаться, но требует вдумчивого человеческого участия. Существуют способы творчески геймифицировать процесс сбора данных более высокого качества, очистки существующих данных и активной работы по уменьшению предвзятости и увеличению разнообразия наборов данных. Если все сделано эффективно, мы сможем добиться необходимых изменений с меньшими трудностями.
  5. Самое главное — принять сложность этики ⚖️:
    вместо того, чтобы бороться за абсолютную истину во все более глобальном и разнообразном мире, для нас было бы лучше принять сложность разработки этических стандартов и продолжать делать все возможное для увеличения разнообразия и представительства, при уменьшении предвзятости. Это будет постоянная работа (как и должно быть!), и мы будем много ошибаться, но, как прекрасно сказала Майя Энджелоу: « Делайте все возможное, пока не станете лучше. Затем, когда вы знаете лучше, делайте лучше».

Мусор наружу.