Tiến độ hiện tại trên Molly
Sau khi thực hiện đánh giá dựa trên nhu cầu và một số nghiên cứu khác, đây là quan điểm của tôi…

Giới thiệu
Dân số mù hoặc khiếm thị (BVI) phải đối mặt với nhiều vấn đề hàng ngày xoay quanh các máy tính hiện đại. Những điều này bắt đầu từ việc điều hướng phần cứng máy tính đến vận hành phần mềm, trong hầu hết các trường hợp, không được tối ưu hóa cho chúng. Một hạn chế phần mềm như vậy được minh họa đặc biệt khi đại dịch COVID-19 bùng phát là hội nghị truyền hình trực tuyến.
Các công cụ hội nghị truyền hình hiện tại (MS Teams và Zoom) hầu hết được ghép nối với trình đọc màn hình, đây là chế độ vận hành máy tính chính dành cho người khiếm thị. Tuy nhiên, những trình đọc màn hình này thiếu khả năng chia nhỏ nguồn cấp dữ liệu video trực tiếp bao gồm cả màn hình được chia sẻ. Ngay khi những người tham gia bắt đầu chia sẻ màn hình của họ, những người tham gia khiếm thị gần như không thể theo dõi được. Một phần mềm bao gồm tất cả để đọc các yếu tố từ màn hình được chia sẻ chắc chắn sẽ là giải pháp tốt nhất có thể. Tuy nhiên, do những hạn chế kỹ thuật của luồng video trực tiếp, gần như không thể thực hiện được. Các nỗ lực đã được thực hiện trong quá khứ bao gồm JAWS và JAWS Fusion; tuy nhiên, chúng là phần mềm truy cập từ xa phải được kết nối với phần mềm bên ngoài để phát âm thanh.
Do đó, thay vì cải tiến phần mềm hội nghị truyền hình hiện có, bước hợp lý tiếp theo là nắm bắt các chi tiết cần thiết từ phần mềm hội nghị truyền hình này và nguồn cấp dữ liệu trực tiếp được coi là quan trọng đối với những người tham gia của chúng tôi.
Đánh giá nhu cầu
Để hiểu các yếu tố quan trọng trong cuộc gọi hội nghị truyền hình. Tôi đã tiến hành đánh giá nhu cầu bằng cách xem qua các tài liệu hiện có và trò chuyện với David Schwarte, Chuyên gia Công nghệ Hỗ trợ tại Purdue. Khi được hỏi về việc có thể sàng lọc các yếu tố trên màn hình của người tham gia, David đã đề cập: “Sẽ rất hữu ích nếu nó có thể làm được điều đó, nhưng thực tế thì không”. Ngoài ra, anh ấy cũng đề cập rằng đối với anh ấy và những người tham gia khác, việc đánh giá biểu cảm của một người họ đang nói chuyện qua cuộc gọi điện video là rất quan trọng vì nó giúp họ tiếp nhận các tín hiệu phi ngôn ngữ. Ngoài ra, anh ấy cũng nhận xét rằng một số người có lý lịch thú vị nhưng anh ấy chỉ biết về họ khi hỏi người khác.
Do đó, hiểu được nét mặt, bối cảnh và trang phục của một người trở thành bước đệm cần thiết để hướng tới một phần mềm hội nghị truyền hình có thể truy cập được và đó chính xác là điều tôi muốn đạt được thông qua dự án này.
hệ thống hiện tại
Để phát triển điều này, trong vài tuần qua, tôi đã có thể làm việc trên các khía cạnh kỹ thuật của hệ thống bằng cách sử dụng bộ phân loại máy học dựa trên Mạng thần kinh chuyển đổi được đào tạo trước trên tập dữ liệu fer2013 do Kaggle lưu trữ. Tôi sử dụng mô hình được đào tạo trước này từ Rohan Krishna . Sau đó, mô hình được sử dụng cùng với ứng dụng bình và giao diện người dùng. Giao diện người dùng ở trong hình trên.
Bước tiếp theo
Trong vài tuần cuối cùng của dự án này, tôi dự định triển khai mô hình phát hiện nền và bộ phân loại nhận dạng quần áo để tạo ra một hệ thống đầu cuối.
Sau đó, tôi dự định đào tạo lại các mô hình để đạt được độ chính xác cao hơn và sau đó ở bước cuối cùng, tôi muốn xuất kết quả của các bộ phân loại dưới dạng văn bản để trình đọc màn hình có thể tiếp nhận chúng. Giữ nguyên!