Molly의 현재 진행 상황
필요 기반 평가 및 기타 조사를 수행한 후, 여기 제가 서 있는 위치가 있습니다.

소개
맹인 또는 시각 장애인(BVI) 인구는 현대 컴퓨터를 중심으로 매일 수많은 문제에 직면합니다. 이들은 컴퓨터 하드웨어 탐색에서 대부분의 경우 최적화되지 않은 소프트웨어 작동에 이르기까지 시작합니다. 특히 COVID-19 대유행의 시작과 함께 예시되는 그러한 소프트웨어 제한 중 하나는 온라인 화상 회의입니다.
현재 화상 회의 도구(MS Teams 및 Zoom)는 대부분 시각 장애인을 위한 컴퓨터 작동의 기본 모드인 스크린 리더와 쌍을 이룹니다. 그러나 이러한 스크린 리더는 공유 화면을 포함하여 라이브 비디오 피드를 분류하는 기능이 부족합니다. 참가자가 화면을 공유하기 시작하면 시각 장애가 있는 참가자가 따라가는 것이 거의 불가능해집니다. 공유 화면에서 요소를 읽는 모든 것을 포괄하는 소프트웨어가 가능한 최상의 솔루션이 될 것입니다. 그러나 라이브 비디오 스트림의 기술적 한계로 인해 거의 불가능합니다. 과거에는 JAWS 및 JAWS Fusion을 포함하는 시도가 있었습니다. 그러나 오디오용 외부 소프트웨어에 연결해야 하는 원격 액세스 소프트웨어입니다.
따라서 기존 화상 회의 소프트웨어를 개선하는 대신 다음 논리적 단계는 이러한 화상 회의 소프트웨어와 참가자에게 중요하다고 간주되는 라이브 피드에서 필수 세부 정보를 캡처하는 것입니다.
필요 평가
화상 회의 통화의 중요한 요소를 이해합니다. 저는 기존 문헌을 검토하고 Purdue의 보조 기술 전문가인 David Schwarte와 대화를 통해 요구 사항 평가를 수행했습니다. 참가자 화면의 요소를 선별할 수 있는지에 대한 질문에 David는 "그렇게 할 수 있으면 도움이 되지만 그렇지 않습니다."라고 말했습니다. 화상 통화를 통해 대화하는 것은 비언어적 신호를 파악하는 데 도움이 되기 때문에 중요합니다. 또한 그는 어떤 사람들은 흥미로운 배경을 가지고 있지만 다른 사람들에게 물어볼 때만 듣는다고 말했습니다.
따라서 사람의 얼굴 표정, 배경 및 의복을 이해하는 것은 액세스 가능한 화상 회의 소프트웨어를 향한 필수 디딤돌이 되며 이것이 바로 제가 이 프로젝트를 통해 달성하고자 하는 것입니다.
현재 시스템
이를 개발하기 위해 지난 몇 주 동안 저는 Kaggle에서 호스팅하는 fer2013 데이터 세트에서 사전 훈련된 Convolutional Neural Network 기반 기계 학습 분류기를 사용하여 시스템의 기술적 측면에서 작업할 수 있었습니다. 저는 Rohan Krishna 의 사전 훈련된 모델을 사용합니다 . 그런 다음 이 모델을 플라스크 애플리케이션 및 프런트엔드와 함께 사용했습니다. UI는 위의 이미지에 있습니다.
다음 단계
이 프로젝트의 마지막 몇 주 동안 저는 배경 감지 모델과 의류 식별 분류기를 구현하여 종단 간 시스템을 만들 계획입니다.
그런 다음 더 높은 정확도를 달성하기 위해 모델을 재교육할 계획이며 마지막 단계에서는 스크린 리더가 선택할 수 있도록 분류자의 결과를 텍스트로 출력하려고 합니다. 계속 지켜봐!