Progreso actual en Molly

Nov 28 2022
Después de hacer una evaluación basada en necesidades y otras investigaciones, aquí es donde estoy... Introducción La población ciega o con discapacidad visual (BVI) enfrenta numerosos problemas en el día a día que giran en torno a las computadoras modernas. Estos van desde navegar por el hardware de la computadora hasta operar el software que, en la mayoría de las ocasiones, no está optimizado para ellos.

Después de hacer una evaluación basada en las necesidades y algunas otras investigaciones, aquí es donde estoy...

Detección de expresión, fondo y ropa en tiempo real habilitada a través de Molly

Introducción

La población ciega o con discapacidad visual (BVI) enfrenta numerosos problemas en el día a día que giran en torno a las computadoras modernas. Estos van desde navegar por el hardware de la computadora hasta operar el software que, en la mayoría de las ocasiones, no está optimizado para ellos. Una de esas limitaciones de software que se ejemplifica especialmente con el inicio de la pandemia de COVID-19 son las videoconferencias en línea.

Las herramientas de videoconferencia actuales (MS Teams y Zoom) se combinan principalmente con lectores de pantalla, que son el modo principal de operar computadoras para personas con discapacidad visual. Sin embargo, estos lectores de pantalla carecen de la capacidad de desglosar las transmisiones de video en vivo, incluidas las pantallas compartidas. Tan pronto como los participantes comienzan a compartir sus pantallas, se vuelve casi imposible que los participantes con discapacidad visual los sigan. Un software integral para leer elementos de una pantalla compartida definitivamente sería la mejor solución posible. Sin embargo, debido a las limitaciones técnicas de una transmisión de video en vivo, se vuelve casi imposible hacerlo. Se han realizado intentos en el pasado que incluyen JAWS y JAWS Fusion; sin embargo, son software de acceso remoto que deben conectarse a un software externo para el audio.

Por lo tanto, en lugar de renovar el software de videoconferencia existente, el siguiente paso lógico es capturar los detalles esenciales de este software de videoconferencia y transmisiones en vivo que se consideran importantes para nuestros participantes.

Necesita valoración

Comprender los elementos importantes en las llamadas de videoconferencia. Realicé una evaluación de necesidades revisando la literatura existente y teniendo una conversación con David Schwarte, quien es especialista en tecnología de asistencia en Purdue. Cuando se le preguntó sobre la posibilidad de filtrar elementos en la pantalla de un participante, David mencionó: "Sería útil si pudiera hacer eso, pero no lo hace" . Además, mencionó que para él y otros participantes, juzgar las expresiones de una persona con los que están hablando a través de videollamadas es importante porque les ayuda a captar las señales no verbales. Además, también comentó cómo algunas personas tienen antecedentes interesantes, pero solo escucha sobre ellos cuando pregunta a otras personas.

Por lo tanto, comprender las expresiones faciales, los antecedentes y la vestimenta de una persona se convierte en un paso fundamental hacia un software de videoconferencia accesible y eso es exactamente lo que quiero lograr a través de este proyecto.

el sistema actual

Para desarrollar esto, durante las últimas dos semanas, pude trabajar en los aspectos técnicos del sistema utilizando un clasificador de aprendizaje automático basado en una red neuronal convolucional que se entrenó previamente en el conjunto de datos fer2013 alojado por Kaggle. Yo uso este modelo pre-entrenado de Rohan Krishna . Luego, el modelo se usó junto con una aplicación de matraz y una interfaz. La interfaz de usuario está en la imagen de arriba.

Próximos pasos

Durante estas últimas semanas de este proyecto, planeo implementar un modelo de detección de fondo y un clasificador de identificación de ropa para crear un sistema de extremo a extremo.

Después de eso, planeo volver a entrenar los modelos para lograr una mayor precisión y luego, para los pasos finales, me gustaría mostrar los resultados de los clasificadores en texto para que los lectores de pantalla puedan detectarlos. ¡Manténganse al tanto!