Aktueller Fortschritt bei Molly

Nov 28 2022

Nach einer Bedarfsanalyse und einigen anderen Recherchen stehe ich hier: Einführung Die blinde oder sehbehinderte (BVI) Bevölkerung ist tagtäglich mit zahlreichen Problemen konfrontiert, die sich um moderne Computer drehen. Diese beginnen beim Navigieren der Computerhardware bis hin zum Bedienen der Software, die in den meisten Fällen nicht für sie optimiert ist.

Nachdem ich eine Bedarfsanalyse und einige andere Recherchen durchgeführt habe, stehe ich hier …

Erkennung von Ausdruck, Hintergrund und Kleidung in Echtzeit durch Molly

Einführung

Die blinde oder sehbehinderte Bevölkerung (BVI) ist täglich mit zahlreichen Problemen konfrontiert, die sich um moderne Computer drehen. Diese beginnen beim Navigieren der Computerhardware bis hin zum Bedienen der Software, die in den meisten Fällen nicht für sie optimiert ist. Eine solche Softwareeinschränkung, die sich insbesondere mit dem Ausbruch der COVID-19-Pandemie zeigt, sind Online-Videokonferenzen.

Die aktuellen Videokonferenz-Tools (MS Teams und Zoom) sind meist mit Screenreadern gekoppelt, die die primäre Art der Computerbedienung für Sehbehinderte sind. Diesen Screenreadern fehlt jedoch die Fähigkeit, Live-Video-Feeds einschließlich freigegebener Bildschirme aufzuschlüsseln. Sobald die Teilnehmer beginnen, ihre Bildschirme zu teilen, wird es für die sehbehinderten Teilnehmer fast unmöglich, mitzumachen. Eine allumfassende Software zum Auslesen von Elementen eines gemeinsam genutzten Bildschirms wäre definitiv die bestmögliche Lösung. Aufgrund der technischen Einschränkungen eines Live-Videostreams ist dies jedoch nahezu unmöglich. In der Vergangenheit wurden Versuche unternommen, die JAWS und JAWS Fusion beinhalten; Es handelt sich jedoch um Fernzugriffssoftware, die für Audio mit externer Software verbunden werden muss.

Anstatt die vorhandene Videokonferenzsoftware zu überarbeiten, besteht der nächste logische Schritt daher darin, wesentliche Details dieser Videokonferenzsoftware und Live-Feeds zu erfassen, die für unsere Teilnehmer als wichtig erachtet werden.

Bedarf Beurteilung

Die wichtigen Elemente in Videokonferenzanrufen verstehen. Ich habe eine Bedarfsanalyse durchgeführt, indem ich die vorhandene Literatur durchgegangen bin und mich mit David Schwarte unterhalten habe, einem Assistive Technology Specialist bei Purdue. Auf die Frage, ob es möglich sei, Elemente auf dem Bildschirm eines Teilnehmers zu sichten, sagte David: „Es wäre hilfreich, wenn es das tun könnte, aber es tut es nicht.“ Außerdem erwähnte er, dass es für ihn und andere Teilnehmer sei, die Gesichtsausdrücke einer Person zu beurteilen sie über Videoanrufe sprechen, ist wichtig, weil es ihnen hilft, nonverbale Hinweise zu erkennen. Außerdem bemerkte er, dass einige Leute einen interessanten Hintergrund haben, aber er hört nur davon, wenn er andere Leute fragt.

Daher wird das Verständnis der Gesichtsausdrücke, des Hintergrunds und der Kleidung einer Person zu einem wesentlichen Sprungbrett für eine barrierefreie Videokonferenzsoftware, und genau das möchte ich mit diesem Projekt erreichen.

Das aktuelle System

Um dies zu entwickeln, konnte ich in den letzten Wochen an den technischen Aspekten des Systems mit einem Klassifikator für maschinelles Lernen arbeiten, der auf einem Convolutional Neural Network basiert, das auf dem von Kaggle gehosteten fer2013-Datensatz vortrainiert wurde. Ich verwende dieses vortrainierte Modell von Rohan Krishna . Das Modell wurde dann in Verbindung mit einer Flask-Anwendung und einem Frontend verwendet. Die Benutzeroberfläche befindet sich im Bild oben.

Nächste Schritte

In den letzten Wochen dieses Projekts plane ich die Implementierung eines Hintergrunderkennungsmodells und eines Kleidungsidentifikations-Klassifikators, um ein End-to-End-System zu erstellen.

Danach plane ich, die Modelle neu zu trainieren, um eine höhere Genauigkeit zu erreichen, und möchte dann für die letzten Schritte die Ergebnisse der Klassifikatoren in Textform ausgeben, damit die Bildschirmlesegeräte sie aufnehmen können. Bleib dran!