Обучение машинному обучению в интересах людей с плохим зрением
На конференции IEEE-EMBC 2023 был принят завершающий документ студентов CDS, изучающих, как модели ИИ могут лучше распознавать объекты, чтобы помочь слепым.

Искусственный интеллект продемонстрировал значительный потенциал для разработки технологий, которые принесут пользу людям со слепотой или слабым зрением. Эти модели обнаружения объектов обычно обучаются на общих данных, а не на наборах данных, специфичных для нужд слепых людей. Группа исследователей из Нью-Йоркского университета, в которую вошли студенты-магистры CDS Тарангини Санкарнараянан , Лев Пасиорковски и Хевна Парих , занялись этим вопросом в своем завершающем проекте, разработав набор данных об объектах, с которыми регулярно сталкиваются люди со слабым зрением.
Доклад «Обучение ИИ распознаванию объектов, представляющих интерес для сообщества слепых и слабовидящих» планируется опубликовать в PubMed и принять участие в 45-й ежегодной международной конференции IEEE Engineering in Medical Biology Society (IEEE-EMBC), проходившей в Сиднее . с 24 по 27 июля.
Соавторами работы являются постдокторант Медицинской школы Гроссмана Нью-Йоркского университета Джайлс Гамильтон-Флетчер , доцент Тандон Чен Фенг Нью-Йоркского университета, студент магистратуры Тандон Дивэй Шэн Нью-Йоркского университета, доцент-исследователь Нью-Йоркского университета Гроссман Тодд Э. Хадсон , ассоциированный сотрудник Ильзе Меламид. Профессор реабилитационной медицины Нью-Йоркского университета имени Гроссмана Джон-Росс Риццо и доцент и директор лаборатории нейровизуализации и визуальных исследований Нью-Йоркского университета имени Гроссмана Кевин С. Чан . Работа была дополнительно поддержана Программой исследования зрения Министерства обороны США и грантом от Исследования по предотвращению слепоты для Департамента офтальмологии NYU Langone Health.
Используя ориентированную на пользователя обратную связь, исследователи определили тридцать пять объектов, необходимых для слепых. Они собрали изображения объектов из общедоступных наборов данных и обучили модель YOLOv5x распознавать выбранные объекты. Запустив модель, они обнаружили, что она значительно лучше идентифицирует такие объекты, как кофейные кружки, ножи, вилки и стаканы, чем предыдущие модели. Исследователи также обнаружили, что наличие сбалансированного количества различных типов объектов в обучающем наборе данных также улучшило способность модели обнаруживать объекты, а также ее скорость.
«Приятно наблюдать за стремительным развитием технологий компьютерного зрения и их потенциалом для незрячих», — говорят авторы CDS. «Самая большая проблема в настоящее время, по-видимому, заключается в получении высококачественных обучающих наборов данных, которые точно представляют реальные среды, в которых будет развернута такая модель. В дальнейшем мы считаем, что следует уделять больше внимания тому, какие тренировочные изображения используются и откуда они берутся».
Наряду с улучшением имеющихся данных для разработки моделей машинного обучения, которые помогают слепым, исследование демонстрирует важность сбора обучающих данных для вспомогательных технологий, которые удовлетворяют потребности отдельных пользователей.
Мерил Фэйр