Текущий прогресс на Молли
После проведения оценки потребностей и некоторых других исследований, вот где я стою…

Вступление
Слепые или слабовидящие люди ежедневно сталкиваются с многочисленными проблемами, связанными с современными компьютерами. Они начинаются от навигации по компьютерному оборудованию до работы с программным обеспечением, которое в большинстве случаев не оптимизировано для них. Одним из таких ограничений программного обеспечения, которое особенно ярко проявляется с началом пандемии COVID-19, являются онлайн-видеоконференции.
Текущие инструменты видеоконференцсвязи (MS Teams и Zoom) в основном сочетаются с программами чтения с экрана, которые являются основным режимом работы компьютеров для слабовидящих. Однако этим программам чтения с экрана не хватает возможности разбивать живые видеопотоки, включая общие экраны. Как только участники начинают делиться своими экранами, для участников с нарушениями зрения становится практически невозможно следить за ними. Всеобъемлющее программное обеспечение для чтения элементов с общего экрана, безусловно, было бы лучшим возможным решением. Однако из-за технических ограничений потокового видео в реальном времени это становится практически невозможным. В прошлом были предприняты попытки, включающие JAWS и JAWS Fusion; однако они представляют собой программное обеспечение для удаленного доступа, которое необходимо подключать к внешнему программному обеспечению для воспроизведения звука.
Таким образом, вместо модернизации существующего программного обеспечения для видеоконференций следующим логическим шагом становится сбор основных сведений из этого программного обеспечения для видеоконференций и прямых трансляций, которые считаются важными для наших участников.
Требующий оценки
Чтобы понять важные элементы видеоконференций. Я провел оценку потребностей, просмотрев существующую литературу и побеседовав с Дэвидом Шварте, специалистом по вспомогательным технологиям в Purdue. Когда его спросили о возможности просеивать элементы на экране участника, Дэвид сказал: «Было бы полезно, если бы он мог это делать, но это не так». Кроме того, он упомянул, что для него и других участников оценка выражений лица с которыми они разговаривают по видеозвонкам, важно, потому что это помогает им улавливать невербальные сигналы. Кроме того, он также заметил, что у некоторых людей интересное прошлое, но он слышит о них только тогда, когда спрашивает других людей.
Таким образом, понимание выражения лица, фона и одежды человека становится важным шагом на пути к доступному программному обеспечению для видеоконференций, и это именно то, чего я хочу достичь с помощью этого проекта.
Текущая система
Чтобы разработать это, в течение последних нескольких недель я смог поработать над техническими аспектами системы, используя классификатор машинного обучения, основанный на сверточной нейронной сети, которая была предварительно обучена на наборе данных fer2013, размещенном на Kaggle. Я использую эту предварительно обученную модель от Rohan Krishna . Затем модель использовалась вместе с фляжным приложением и интерфейсом. Пользовательский интерфейс показан на изображении выше.
Следующие шаги
В течение последних нескольких недель этого проекта я планирую внедрить модель обнаружения фона и классификатор идентификации одежды, чтобы создать сквозную систему.
После этого я планирую переобучить модели для достижения более высокой точности, а затем на последних шагах я хотел бы вывести результаты классификаторов в тексте, чтобы программы чтения с экрана могли их уловить. Следите за обновлениями!