Bieżący postęp w sprawie Molly
Po przeprowadzeniu oceny opartej na potrzebach i kilku innych badaniach, oto, gdzie stoję…

Wstęp
Populacja osób niewidomych lub niedowidzących (BVI) napotyka na co dzień wiele problemów związanych z nowoczesnymi komputerami. Zaczynają się od nawigacji po sprzęcie komputerowym po obsługę oprogramowania, które w większości przypadków nie jest dla nich zoptymalizowane. Jednym z takich ograniczeń oprogramowania, którego przykładem jest zwłaszcza początek pandemii COVID-19, są wideokonferencje online.
Obecne narzędzia do wideokonferencji (MS Teams i Zoom) są w większości sparowane z czytnikami ekranu, które są podstawowym trybem obsługi komputerów dla osób niedowidzących. Jednak te czytniki ekranu nie mają możliwości podziału kanałów wideo na żywo, w tym udostępnionych ekranów. Gdy tylko uczestnicy zaczną udostępniać swoje ekrany, dla osób niedowidzących staje się prawie niemożliwe podążanie za nimi. Wszechstronne oprogramowanie do odczytu elementów ze współdzielonego ekranu byłoby z pewnością najlepszym możliwym rozwiązaniem. Jednak ze względu na ograniczenia techniczne transmisji wideo na żywo staje się to prawie niemożliwe. W przeszłości podejmowano próby, które obejmowały JAWS i JAWS Fusion; są to jednak programy do zdalnego dostępu, które muszą być podłączone do zewnętrznego oprogramowania audio.
Dlatego zamiast modernizować istniejące oprogramowanie do wideokonferencji, następnym logicznym krokiem jest przechwytywanie istotnych szczegółów z tego oprogramowania do wideokonferencji i transmisji na żywo, które są uważane za ważne dla naszych uczestników.
Potrzebne oszacowanie
Aby zrozumieć ważne elementy połączeń wideokonferencyjnych. Przeprowadziłem ocenę potrzeb, przeglądając istniejącą literaturę i rozmawiając z Davidem Schwarte, który jest specjalistą ds. technologii wspomagających w Purdue. Zapytany o możliwość przeglądania elementów na ekranie uczestnika, David powiedział: „Byłoby pomocne, gdyby mógł to zrobić, ale tak się nie dzieje” . Ponadto wspomniał, że dla niego i innych uczestników, oceniających mimikę osoby rozmowy wideo są ważne, ponieważ pomagają im odbierać sygnały niewerbalne. Dodatkowo zauważył również, że niektórzy ludzie mają ciekawe pochodzenie, ale słyszy o nich tylko wtedy, gdy pyta innych ludzi.
Dlatego zrozumienie wyrazu twarzy, tła i ubioru danej osoby staje się niezbędnym krokiem w kierunku dostępnego oprogramowania do wideokonferencji i właśnie to chcę osiągnąć za pomocą tego projektu.
Obecny system
Aby to rozwinąć, w ciągu ostatnich kilku tygodni mogłem pracować nad technicznymi aspektami systemu przy użyciu klasyfikatora uczenia maszynowego opartego na konwolucyjnej sieci neuronowej, która została wstępnie przeszkolona na zbiorze danych fer2013 hostowanym przez Kaggle. Używam tego wstępnie wyszkolonego modelu od Rohana Krishny . Model był następnie używany w połączeniu z aplikacją kolbową i frontendem. Interfejs użytkownika znajduje się na obrazku powyżej.
Następne kroki
W ciągu ostatnich kilku tygodni tego projektu planuję wdrożyć model wykrywania tła i klasyfikator identyfikacji odzieży, aby stworzyć system end-to-end.
Następnie planuję przeszkolić modele, aby osiągnąć większą dokładność, a następnie, w ramach ostatnich kroków, chciałbym wyprowadzić wyniki klasyfikatorów w tekście, aby czytniki ekranu mogły je wykryć. Czekać na dalsze informacje!