Progressi attuali su Molly
Dopo aver fatto una valutazione basata sui bisogni e qualche altra ricerca, ecco dove mi trovo...
introduzione
La popolazione non vedente o ipovedente (BVI) deve affrontare quotidianamente numerosi problemi che ruotano attorno ai computer moderni. Questi iniziano dalla navigazione nell'hardware del computer fino al funzionamento del software che, nella maggior parte dei casi, non è ottimizzato per loro. Una di queste limitazioni del software esemplificata soprattutto con l'inizio della pandemia di COVID-19 è la videoconferenza online.
Gli attuali strumenti di videoconferenza (MS Teams e Zoom) sono per lo più associati a lettori di schermo che sono la modalità principale di funzionamento dei computer per i non vedenti. Tuttavia, questi lettori di schermo non sono in grado di suddividere i feed video in diretta, inclusi gli schermi condivisi. Non appena i partecipanti iniziano a condividere i propri schermi, diventa quasi impossibile per i partecipanti ipovedenti seguirli. Un software onnicomprensivo per leggere elementi da uno schermo condiviso sarebbe sicuramente la migliore soluzione possibile. Tuttavia, a causa delle limitazioni tecniche di un flusso video in diretta, diventa quasi impossibile farlo. In passato sono stati fatti tentativi che includono JAWS e JAWS Fusion; tuttavia, sono software di accesso remoto che devono essere collegati a software esterni per l'audio.
Pertanto, invece di rinnovare il software di videoconferenza esistente, il passo logico successivo diventa acquisire i dettagli essenziali da questi software di videoconferenza e dai feed live che sono considerati importanti per i nostri partecipanti.
Valutazione dei bisogni
Comprendere gli elementi importanti nelle chiamate in videoconferenza. Ho condotto una valutazione dei bisogni esaminando la letteratura esistente e conversando con David Schwarte, che è uno specialista di tecnologie assistive presso Purdue. Quando gli è stato chiesto se fosse in grado di vagliare gli elementi sullo schermo di un partecipante, David ha affermato: "Sarebbe utile se potesse farlo, ma non è così" . Inoltre, ha affermato che per lui e gli altri partecipanti, giudicare le espressioni di una persona con cui stanno parlando durante le videochiamate è importante perché li aiuta a raccogliere segnali non verbali. Inoltre, ha anche osservato come alcune persone abbiano un background interessante, ma ne sente parlare solo quando chiede ad altre persone.
Pertanto, comprendere le espressioni facciali, il background e l'abbigliamento di una persona diventa un trampolino di lancio essenziale verso un software di videoconferenza accessibile ed è esattamente ciò che voglio ottenere attraverso questo progetto.
Il sistema attuale
Per svilupparlo, nelle ultime due settimane, sono stato in grado di lavorare sugli aspetti tecnici del sistema utilizzando un classificatore di machine learning basato su una rete neurale convoluzionale che è stata pre-addestrata sul set di dati fer2013 ospitato da Kaggle. Uso questo modello pre-addestrato di Rohan Krishna . Il modello è stato quindi utilizzato in combinazione con un'applicazione flask e un frontend. L'interfaccia utente è nell'immagine sopra.
Prossimi passi
Durante queste ultime settimane di questo progetto, ho intenzione di implementare un modello di rilevamento dello sfondo e un classificatore di identificazione dell'abbigliamento per creare un sistema end-to-end.
Successivamente, ho intenzione di riaddestrare i modelli per ottenere una maggiore precisione e quindi, per i passaggi finali, vorrei visualizzare i risultati dei classificatori nel testo in modo che gli screen reader possano rilevarli. Rimani sintonizzato!

![Che cos'è un elenco collegato, comunque? [Parte 1]](https://post.nghiatu.com/assets/images/m/max/724/1*Xokk6XOjWyIGCBujkJsCzQ.jpeg)



































