Progresso atual em Molly

Nov 28 2022
Depois de fazer uma avaliação baseada nas necessidades e algumas outras pesquisas, aqui está minha posição... Introdução A população cega ou deficiente visual (BVI) enfrenta inúmeros problemas no dia-a-dia que giram em torno dos computadores modernos. Eles começam desde a navegação no hardware do computador até a operação do software que, na maioria das vezes, não é otimizado para eles.

Depois de fazer uma avaliação com base nas necessidades e algumas outras pesquisas, aqui é onde estou…

Detecção de expressão, fundo e roupas em tempo real habilitada através do Molly

Introdução

A população cega ou deficiente visual (BVI) enfrenta inúmeros problemas no dia-a-dia que giram em torno dos computadores modernos. Eles começam desde a navegação no hardware do computador até a operação do software que, na maioria das vezes, não é otimizado para eles. Uma dessas limitações de software que é exemplificada especialmente com o início da pandemia de COVID-19 é a videoconferência online.

As ferramentas atuais de videoconferência (MS Teams e Zoom) são em sua maioria combinadas com leitores de tela, que são o principal modo de operação de computadores para deficientes visuais. No entanto, esses leitores de tela não têm a capacidade de quebrar feeds de vídeo ao vivo, incluindo telas compartilhadas. Assim que os participantes começam a compartilhar suas telas, torna-se quase impossível para os participantes com deficiência visual acompanharem. Um software abrangente para ler elementos de uma tela compartilhada seria definitivamente a melhor solução possível. No entanto, devido às limitações técnicas de uma transmissão de vídeo ao vivo, torna-se quase impossível fazê-lo. Tentativas foram feitas no passado que incluem JAWS e JAWS Fusion; no entanto, são softwares de acesso remoto que precisam ser conectados a um software externo para áudio.

Portanto, em vez de renovar o software de videoconferência existente, o próximo passo lógico é capturar detalhes essenciais desse software de videoconferência e feeds ao vivo que são considerados importantes para nossos participantes.

Avaliação das necessidades

Compreender os elementos importantes nas chamadas de videoconferência. Realizei uma avaliação de necessidades examinando a literatura existente e conversando com David Schwarte, especialista em tecnologia assistiva na Purdue. Quando questionado sobre a capacidade de filtrar os elementos na tela de um participante, David mencionou: “Seria útil se pudesse fazer isso, mas não o faz” . com quem eles estão conversando por videochamadas é importante porque os ajuda a captar as dicas não-verbais. Além disso, ele também comentou como algumas pessoas têm experiências interessantes, mas ele só ouve falar delas quando pergunta a outras pessoas.

Portanto, entender as expressões faciais, o fundo e as roupas de uma pessoa torna-se um trampolim essencial para um software de videoconferência acessível e é exatamente isso que quero alcançar com este projeto.

O sistema atual

Para desenvolvê-lo, durante as últimas semanas, pude trabalhar nos aspectos técnicos do sistema usando um classificador de aprendizado de máquina baseado em uma rede neural convolucional que foi pré-treinada no conjunto de dados fer2013 hospedado pelo Kaggle. Eu uso este modelo pré-treinado de Rohan Krishna . O modelo foi então usado em conjunto com um aplicativo flask e um frontend. A IU está na imagem acima.

Próximos passos

Durante as últimas semanas deste projeto, pretendo implementar um modelo de detecção de fundo e um classificador de identificação de roupas para criar um sistema de ponta a ponta.

Depois disso, pretendo treinar novamente os modelos para obter maior precisão e, nas etapas finais, gostaria de enviar os resultados dos classificadores em texto para que os leitores de tela possam captá-los. Fique ligado!