Progrès actuels sur Molly
Après avoir fait une évaluation basée sur les besoins et quelques autres recherches, voici où j'en suis…

Introduction
La population aveugle ou malvoyante (BVI) est confrontée quotidiennement à de nombreux problèmes liés aux ordinateurs modernes. Celles-ci commencent par la navigation dans le matériel informatique jusqu'à l'utilisation du logiciel qui, dans la plupart des cas, n'est pas optimisé pour eux. L'une de ces limitations logicielles, illustrée en particulier avec le début de la pandémie de COVID-19, est la vidéoconférence en ligne.
Les outils de vidéoconférence actuels (MS Teams et Zoom) sont principalement associés à des lecteurs d'écran qui constituent le principal mode de fonctionnement des ordinateurs pour les malvoyants. Cependant, ces lecteurs d'écran n'ont pas la capacité de décomposer les flux vidéo en direct, y compris les écrans partagés. Dès que les participants commencent à partager leurs écrans, il devient presque impossible pour les participants malvoyants de suivre. Un logiciel complet pour lire les éléments d'un écran partagé serait certainement la meilleure solution possible. Cependant, en raison des limitations techniques d'un flux vidéo en direct, il devient presque impossible de le faire. Des tentatives ont été faites dans le passé qui incluent JAWS et JAWS Fusion ; cependant, ce sont des logiciels d'accès à distance qui doivent être connectés à un logiciel externe pour l'audio.
Par conséquent, au lieu de réorganiser le logiciel de visioconférence existant, la prochaine étape logique consiste à capturer les détails essentiels de ces logiciels de visioconférence et des flux en direct qui sont considérés comme importants pour nos participants.
Évaluation des besoins
Comprendre les éléments importants des appels de visioconférence. J'ai effectué une évaluation des besoins en parcourant la littérature existante et en discutant avec David Schwarte, spécialiste des technologies d'assistance chez Purdue. Lorsqu'on lui a demandé s'il était capable de passer au crible des éléments sur l'écran d'un participant, David a mentionné : "Ce serait utile si cela pouvait le faire, mais ce n'est pas le cas" . De plus, il a mentionné que pour lui et les autres participants, juger les expressions d'une personne à qui ils parlent par le biais d'appels vidéo est important car cela les aide à capter les signaux non verbaux. De plus, il a également remarqué que certaines personnes avaient des antécédents intéressants, mais il n'en entend parler que lorsqu'il interroge d'autres personnes.
Par conséquent, comprendre les expressions faciales, les antécédents et les vêtements d'une personne devient un tremplin essentiel vers un logiciel de vidéoconférence accessible et c'est exactement ce que je veux réaliser à travers ce projet.
Le système actuel
Pour développer cela, au cours des deux dernières semaines, j'ai pu travailler sur les aspects techniques du système en utilisant un classificateur d'apprentissage automatique basé sur un réseau de neurones convolutifs qui a été pré-formé sur le jeu de données fer2013 hébergé par Kaggle. J'utilise ce modèle pré-formé de Rohan Krishna . Le modèle a ensuite été utilisé conjointement avec une application flask et une interface. L'interface utilisateur est dans l'image ci-dessus.
Prochaines étapes
Au cours des dernières semaines de ce projet, je prévois d'implémenter un modèle de détection d'arrière-plan et un classificateur d'identification de vêtements pour créer un système de bout en bout.
Après cela, je prévois de recycler les modèles pour obtenir une plus grande précision, puis pour les étapes finales, je voudrais afficher les résultats des classificateurs sous forme de texte afin que les lecteurs d'écran puissent les récupérer. Restez à l'écoute!