Kemajuan Saat Ini tentang Molly
Setelah melakukan penilaian berdasarkan kebutuhan dan beberapa penelitian lainnya, di sinilah saya berdiri…

pengantar
Populasi tunanetra atau tunanetra (BVI) menghadapi banyak masalah sehari-hari yang berkisar pada komputer modern. Ini mulai dari menavigasi perangkat keras komputer hingga mengoperasikan perangkat lunak yang, pada banyak kesempatan, tidak dioptimalkan untuknya. Salah satu batasan perangkat lunak yang dicontohkan terutama dengan dimulainya pandemi COVID-19 adalah konferensi video online.
Alat konferensi video saat ini (MS Teams dan Zoom) sebagian besar dipasangkan dengan pembaca layar yang merupakan mode utama pengoperasian komputer untuk tunanetra. Namun, pembaca layar ini tidak memiliki kemampuan untuk memecah umpan video langsung termasuk layar bersama. Segera setelah peserta mulai membagikan layar mereka, hampir tidak mungkin bagi peserta tunanetra untuk mengikuti. Perangkat lunak yang mencakup semua untuk membaca elemen dari layar bersama pasti akan menjadi solusi terbaik. Namun, karena keterbatasan teknis streaming video langsung, hampir tidak mungkin untuk melakukannya. Upaya telah dilakukan di masa lalu yang mencakup JAWS dan JAWS Fusion; namun, mereka adalah perangkat lunak akses jarak jauh yang harus dihubungkan ke perangkat lunak eksternal untuk audio.
Oleh karena itu, alih-alih memperbarui perangkat lunak konferensi video yang ada, langkah logis selanjutnya adalah menangkap detail penting dari perangkat lunak konferensi video dan umpan langsung yang dianggap penting bagi peserta kami.
Butuh penilaian
Untuk memahami elemen-elemen penting dalam panggilan konferensi video. Saya melakukan penilaian kebutuhan dengan mempelajari literatur yang ada dan berbicara dengan David Schwarte, yang merupakan Spesialis Teknologi Bantuan di Purdue. Ketika ditanya tentang kemampuan menyaring elemen di layar peserta, David menyebutkan, “Akan sangat membantu jika bisa melakukan itu, tetapi tidak” Selain itu, dia menyebutkan bahwa untuk dia dan peserta lain, menilai ekspresi seseorang mereka berbicara melalui panggilan video penting karena membantu mereka menangkap isyarat non-verbal. Selain itu, dia juga berkomentar bagaimana beberapa orang memiliki latar belakang yang menarik tetapi dia hanya mendengar tentang mereka ketika dia bertanya kepada orang lain.
Oleh karena itu, memahami ekspresi wajah, latar belakang, dan pakaian seseorang menjadi batu loncatan penting menuju perangkat lunak konferensi video yang dapat diakses dan itulah yang ingin saya capai melalui proyek ini.
Sistem saat ini
Untuk mengembangkannya, selama beberapa minggu terakhir, saya dapat mengerjakan aspek teknis sistem menggunakan pengklasifikasi pembelajaran mesin berdasarkan Jaringan Syaraf Konvolusional yang dilatih sebelumnya pada kumpulan data fer2013 yang dihosting oleh Kaggle. Saya menggunakan model terlatih dari Rohan Krishna . Model tersebut kemudian digunakan bersamaan dengan aplikasi flask dan frontend. UI ada pada gambar di atas.
Langkah selanjutnya
Selama beberapa minggu terakhir proyek ini, saya berencana menerapkan model deteksi latar belakang dan pengklasifikasi identifikasi pakaian untuk membuat sistem end-to-end.
Setelah itu, saya berencana melatih ulang model untuk mencapai akurasi yang lebih tinggi dan kemudian untuk langkah terakhir, saya ingin menampilkan hasil pengklasifikasian dalam bentuk teks sehingga pembaca layar dapat memahaminya. Pantau terus!