ความคืบหน้าปัจจุบันเกี่ยวกับมอลลี่
หลังจากทำการประเมินตามความต้องการและการวิจัยอื่น ๆ แล้ว ฉันยืนอยู่ตรงนี้...
บทนำ
ประชากรที่ตาบอดหรือมีความบกพร่องทางการมองเห็น (BVI) ประสบปัญหามากมายในชีวิตประจำวันซึ่งวนเวียนอยู่กับคอมพิวเตอร์สมัยใหม่ สิ่งเหล่านี้เริ่มต้นจากการไปยังส่วนต่างๆ ของฮาร์ดแวร์คอมพิวเตอร์ไปจนถึงการใช้งานซอฟต์แวร์ ซึ่งส่วนใหญ่แล้วไม่ได้รับการปรับให้เหมาะกับสิ่งเหล่านี้ ข้อจำกัดด้านซอฟต์แวร์อย่างหนึ่งที่เป็นตัวอย่างโดยเฉพาะอย่างยิ่งเมื่อเริ่มระบาดของ COVID-19 คือการประชุมทางวิดีโอออนไลน์
เครื่องมือการประชุมผ่านวิดีโอในปัจจุบัน (MS Teams และ Zoom) ส่วนใหญ่จะจับคู่กับโปรแกรมอ่านหน้าจอซึ่งเป็นโหมดหลักในการทำงานของคอมพิวเตอร์สำหรับผู้พิการทางสายตา อย่างไรก็ตาม โปรแกรมอ่านหน้าจอเหล่านี้ไม่มีความสามารถในการแยกย่อยฟีดวิดีโอสด รวมถึงหน้าจอที่แชร์ ทันทีที่ผู้เข้าร่วมเริ่มแชร์หน้าจอ แทบจะเป็นไปไม่ได้เลยที่ผู้เข้าร่วมที่มีความบกพร่องทางสายตาจะติดตามไปด้วย ซอฟต์แวร์ที่ครอบคลุมทุกอย่างเพื่ออ่านองค์ประกอบจากหน้าจอที่ใช้ร่วมกันจะเป็นทางออกที่ดีที่สุดอย่างแน่นอน อย่างไรก็ตาม เนื่องจากข้อจำกัดทางเทคนิคของการสตรีมวิดีโอสด จึงแทบเป็นไปไม่ได้เลยที่จะทำเช่นนั้น มีความพยายามในอดีตซึ่งรวมถึง JAWS และ JAWS Fusion; อย่างไรก็ตาม เป็นซอฟต์แวร์การเข้าถึงระยะไกลที่ต้องเชื่อมต่อกับซอฟต์แวร์ภายนอกสำหรับเสียง
ดังนั้น แทนที่จะปรับปรุงซอฟต์แวร์การประชุมทางวิดีโอที่มีอยู่ ขั้นตอนต่อไปจึงกลายเป็นการเก็บรายละเอียดที่สำคัญจากซอฟต์แวร์การประชุมทางวิดีโอและฟีดสดที่ถือว่าสำคัญสำหรับผู้เข้าร่วมของเรา
การประเมินความต้องการ
เพื่อทำความเข้าใจองค์ประกอบที่สำคัญในการประชุมทางวิดีโอ ฉันทำการประเมินความต้องการโดยศึกษาวรรณกรรมที่มีอยู่และพูดคุยกับ David Schwarte ซึ่งเป็นผู้เชี่ยวชาญด้านเทคโนโลยีการช่วยเหลือที่ Purdue เมื่อถูกถามเกี่ยวกับความสามารถในการกรององค์ประกอบต่างๆ บนหน้าจอของผู้เข้าร่วม เดวิดกล่าวว่า"มันจะมีประโยชน์ถ้าทำได้ แต่ทำไม่ได้"นอกจากนี้ เขากล่าวว่าสำหรับเขาและผู้เข้าร่วมคนอื่นๆ แล้ว การตัดสินการแสดงออกของบุคคล พวกเขากำลังคุยกันผ่านแฮงเอาท์วิดีโอเป็นสิ่งสำคัญ เพราะมันช่วยให้พวกเขาเข้าใจความหมายที่ไม่ใช้คำพูด นอกจากนี้ เขายังตั้งข้อสังเกตว่าบางคนมีภูมิหลังที่น่าสนใจอย่างไร แต่เขาจะได้ยินเกี่ยวกับพวกเขาก็ต่อเมื่อเขาถามคนอื่นเท่านั้น
ดังนั้น การทำความเข้าใจสีหน้า ภูมิหลัง และเสื้อผ้าของบุคคลจึงกลายเป็นก้าวสำคัญสู่ซอฟต์แวร์การประชุมผ่านวิดีโอที่เข้าถึงได้ และนั่นคือสิ่งที่ฉันต้องการบรรลุผ่านโครงการนี้
ระบบปัจจุบัน
เพื่อพัฒนาสิ่งนี้ ในช่วง 2-3 สัปดาห์ที่ผ่านมา ฉันสามารถทำงานด้านเทคนิคของระบบโดยใช้ตัวแยกประเภทการเรียนรู้ของเครื่องตาม Convolutional Neural Network ซึ่งได้รับการฝึกอบรมล่วงหน้าในชุดข้อมูล fer2013 ที่โฮสต์โดย Kaggle ฉันใช้แบบจำลองที่ได้รับการฝึกฝนล่วงหน้านี้จากRohan Krishna แบบจำลองนี้ถูกใช้ร่วมกับแอปพลิเคชันขวดและส่วนหน้า UI อยู่ในภาพด้านบน
ขั้นตอนถัดไป
ในช่วงสองสามสัปดาห์สุดท้ายของโครงการนี้ ฉันวางแผนที่จะใช้แบบจำลองการตรวจจับพื้นหลังและตัวแยกประเภทการระบุเสื้อผ้าเพื่อสร้างระบบแบบครบวงจร
หลังจากนั้น ฉันวางแผนที่จะฝึกโมเดลใหม่เพื่อให้ได้ความแม่นยำสูงขึ้น และสำหรับขั้นตอนสุดท้าย ฉันต้องการแสดงผลลัพธ์ของตัวแยกประเภทเป็นข้อความเพื่อให้โปรแกรมอ่านหน้าจอสามารถรับได้ คอยติดตาม!