ความคืบหน้าปัจจุบันเกี่ยวกับมอลลี่

Nov 28 2022

หลังจากทำการประเมินตามความต้องการและการวิจัยอื่น ๆ แล้ว นี่คือจุดที่ฉันยืนอยู่... บทนำ ประชากรที่ตาบอดหรือมีความบกพร่องทางการมองเห็น (BVI) เผชิญกับปัญหามากมายในชีวิตประจำวันที่วนเวียนอยู่กับคอมพิวเตอร์สมัยใหม่ สิ่งเหล่านี้เริ่มต้นจากการไปยังส่วนต่างๆ ของฮาร์ดแวร์คอมพิวเตอร์ไปจนถึงการใช้งานซอฟต์แวร์ ซึ่งส่วนใหญ่แล้วไม่ได้รับการปรับให้เหมาะกับสิ่งเหล่านี้

หลังจากทำการประเมินตามความต้องการและการวิจัยอื่น ๆ แล้ว ฉันยืนอยู่ตรงนี้...

การตรวจจับการแสดงออก พื้นหลัง และเสื้อผ้าแบบเรียลไทม์เปิดใช้งานผ่าน Molly

บทนำ

ประชากรที่ตาบอดหรือมีความบกพร่องทางการมองเห็น (BVI) ประสบปัญหามากมายในชีวิตประจำวันซึ่งวนเวียนอยู่กับคอมพิวเตอร์สมัยใหม่ สิ่งเหล่านี้เริ่มต้นจากการไปยังส่วนต่างๆ ของฮาร์ดแวร์คอมพิวเตอร์ไปจนถึงการใช้งานซอฟต์แวร์ ซึ่งส่วนใหญ่แล้วไม่ได้รับการปรับให้เหมาะกับสิ่งเหล่านี้ ข้อจำกัดด้านซอฟต์แวร์อย่างหนึ่งที่เป็นตัวอย่างโดยเฉพาะอย่างยิ่งเมื่อเริ่มระบาดของ COVID-19 คือการประชุมทางวิดีโอออนไลน์

เครื่องมือการประชุมผ่านวิดีโอในปัจจุบัน (MS Teams และ Zoom) ส่วนใหญ่จะจับคู่กับโปรแกรมอ่านหน้าจอซึ่งเป็นโหมดหลักในการทำงานของคอมพิวเตอร์สำหรับผู้พิการทางสายตา อย่างไรก็ตาม โปรแกรมอ่านหน้าจอเหล่านี้ไม่มีความสามารถในการแยกย่อยฟีดวิดีโอสด รวมถึงหน้าจอที่แชร์ ทันทีที่ผู้เข้าร่วมเริ่มแชร์หน้าจอ แทบจะเป็นไปไม่ได้เลยที่ผู้เข้าร่วมที่มีความบกพร่องทางสายตาจะติดตามไปด้วย ซอฟต์แวร์ที่ครอบคลุมทุกอย่างเพื่ออ่านองค์ประกอบจากหน้าจอที่ใช้ร่วมกันจะเป็นทางออกที่ดีที่สุดอย่างแน่นอน อย่างไรก็ตาม เนื่องจากข้อจำกัดทางเทคนิคของการสตรีมวิดีโอสด จึงแทบเป็นไปไม่ได้เลยที่จะทำเช่นนั้น มีความพยายามในอดีตซึ่งรวมถึง JAWS และ JAWS Fusion; อย่างไรก็ตาม เป็นซอฟต์แวร์การเข้าถึงระยะไกลที่ต้องเชื่อมต่อกับซอฟต์แวร์ภายนอกสำหรับเสียง

ดังนั้น แทนที่จะปรับปรุงซอฟต์แวร์การประชุมทางวิดีโอที่มีอยู่ ขั้นตอนต่อไปจึงกลายเป็นการเก็บรายละเอียดที่สำคัญจากซอฟต์แวร์การประชุมทางวิดีโอและฟีดสดที่ถือว่าสำคัญสำหรับผู้เข้าร่วมของเรา

การประเมินความต้องการ

เพื่อทำความเข้าใจองค์ประกอบที่สำคัญในการประชุมทางวิดีโอ ฉันทำการประเมินความต้องการโดยศึกษาวรรณกรรมที่มีอยู่และพูดคุยกับ David Schwarte ซึ่งเป็นผู้เชี่ยวชาญด้านเทคโนโลยีการช่วยเหลือที่ Purdue เมื่อถูกถามเกี่ยวกับความสามารถในการกรององค์ประกอบต่างๆ บนหน้าจอของผู้เข้าร่วม เดวิดกล่าวว่า"มันจะมีประโยชน์ถ้าทำได้ แต่ทำไม่ได้"นอกจากนี้ เขากล่าวว่าสำหรับเขาและผู้เข้าร่วมคนอื่นๆ แล้ว การตัดสินการแสดงออกของบุคคล พวกเขากำลังคุยกันผ่านแฮงเอาท์วิดีโอเป็นสิ่งสำคัญ เพราะมันช่วยให้พวกเขาเข้าใจความหมายที่ไม่ใช้คำพูด นอกจากนี้ เขายังตั้งข้อสังเกตว่าบางคนมีภูมิหลังที่น่าสนใจอย่างไร แต่เขาจะได้ยินเกี่ยวกับพวกเขาก็ต่อเมื่อเขาถามคนอื่นเท่านั้น

ดังนั้น การทำความเข้าใจสีหน้า ภูมิหลัง และเสื้อผ้าของบุคคลจึงกลายเป็นก้าวสำคัญสู่ซอฟต์แวร์การประชุมผ่านวิดีโอที่เข้าถึงได้ และนั่นคือสิ่งที่ฉันต้องการบรรลุผ่านโครงการนี้

ระบบปัจจุบัน

เพื่อพัฒนาสิ่งนี้ ในช่วง 2-3 สัปดาห์ที่ผ่านมา ฉันสามารถทำงานด้านเทคนิคของระบบโดยใช้ตัวแยกประเภทการเรียนรู้ของเครื่องตาม Convolutional Neural Network ซึ่งได้รับการฝึกอบรมล่วงหน้าในชุดข้อมูล fer2013 ที่โฮสต์โดย Kaggle ฉันใช้แบบจำลองที่ได้รับการฝึกฝนล่วงหน้านี้จากRohan Krishna แบบจำลองนี้ถูกใช้ร่วมกับแอปพลิเคชันขวดและส่วนหน้า UI อยู่ในภาพด้านบน

ขั้นตอนถัดไป

ในช่วงสองสามสัปดาห์สุดท้ายของโครงการนี้ ฉันวางแผนที่จะใช้แบบจำลองการตรวจจับพื้นหลังและตัวแยกประเภทการระบุเสื้อผ้าเพื่อสร้างระบบแบบครบวงจร

หลังจากนั้น ฉันวางแผนที่จะฝึกโมเดลใหม่เพื่อให้ได้ความแม่นยำสูงขึ้น และสำหรับขั้นตอนสุดท้าย ฉันต้องการแสดงผลลัพธ์ของตัวแยกประเภทเป็นข้อความเพื่อให้โปรแกรมอ่านหน้าจอสามารถรับได้ คอยติดตาม!