การรู้จำเสียงทำงานอย่างไร

Nov 10 2006
เทคโนโลยีการรู้จำเสียงช่วยให้ผู้คนเขียนเอกสารและควบคุมคอมพิวเตอร์โดยใช้เสียง สามารถใช้ในบ้านหรือธุรกิจเพื่อการใช้งานที่หลากหลาย
มีโปรแกรมซอฟต์แวร์หลายโปรแกรมที่คุณสามารถซื้อสำหรับการรู้จำเสียงพูดที่บ้านได้

ทุกวันนี้ เวลาที่เราโทรหาบริษัทใหญ่ๆ ส่วนใหญ่ คนๆ นั้นมักจะไม่รับสาย แต่การบันทึกเสียงอัตโนมัติจะตอบกลับและแนะนำให้คุณกดปุ่มเพื่อเลื่อนผ่านเมนูตัวเลือก หลายบริษัทได้ก้าวไปไกลกว่าการที่คุณต้องกดปุ่ม บ่อยครั้งคุณสามารถพูดคำบางคำ (อีกครั้งตามคำแนะนำในการบันทึก) เพื่อให้ได้สิ่งที่คุณต้องการ ระบบที่ทำให้สิ่งนี้เป็นไปได้คือโปรแกรมการรู้จำเสียง ประเภทหนึ่ง ซึ่งเป็นระบบโทรศัพท์อัตโนมัติ

คุณยังใช้ซอฟต์แวร์การรู้จำคำพูดในบ้านและธุรกิจ ผลิตภัณฑ์ซอฟต์แวร์หลากหลายประเภทให้ผู้ใช้เขียนตามคำบอกในคอมพิวเตอร์และแปลงคำเป็นข้อความในการประมวลผลคำหรือเอกสารอีเมล คุณสามารถเข้าถึงคำสั่งของฟังก์ชัน เช่น การเปิดไฟล์และการเข้าถึงเมนูด้วยคำสั่งเสียง บางโปรแกรมมีไว้สำหรับการตั้งค่าธุรกิจเฉพาะ เช่น การถอดความทางการแพทย์หรือการถอดความทางกฎหมาย

คนพิการที่ป้องกันไม่ให้พิมพ์ได้ใช้ระบบรู้จำคำพูดด้วย หากผู้ใช้สูญเสียการใช้มือ หรือสำหรับผู้ใช้ที่มีความบกพร่องทางสายตาเมื่อไม่สามารถใช้แป้นพิมพ์อักษรเบรลล์หรือไม่สะดวก ระบบจะอนุญาตให้แสดงความรู้สึกส่วนตัวผ่านการเขียนตามคำบอกและควบคุมงานคอมพิวเตอร์จำนวนมากได้ บางโปรแกรมจะบันทึกข้อมูลคำพูดของผู้ใช้หลังจากทุกเซสชัน ทำให้ผู้ที่มีการด้อยค่าของคำพูดแบบก้าวหน้าสามารถสั่งการไปยังคอมพิวเตอร์ของตนต่อไปได้

โปรแกรมปัจจุบันแบ่งออกเป็นสองประเภท:

คำศัพท์เล็ก/ผู้ใช้หลายคน

ระบบเหล่านี้เหมาะสำหรับการตอบรับโทรศัพท์อัตโนมัติ ผู้ใช้สามารถพูดได้หลากหลายรูปแบบทั้งสำเนียงและคำพูด และระบบจะยังเข้าใจพวกเขาเป็นส่วนใหญ่ อย่างไรก็ตาม การใช้งานจะถูกจำกัดด้วยคำสั่งและอินพุตที่กำหนดไว้ล่วงหน้าจำนวนเล็กน้อย เช่น ตัวเลือกเมนูพื้นฐานหรือตัวเลข

คำศัพท์ขนาดใหญ่/จำกัดผู้ใช้

ระบบเหล่านี้ทำงานได้ดีที่สุดในสภาพแวดล้อมทางธุรกิจที่ผู้ใช้จำนวนน้อยจะทำงานร่วมกับโปรแกรมได้ แม้ว่าระบบเหล่านี้จะทำงานด้วยระดับความแม่นยำที่ดี (85 เปอร์เซ็นต์หรือสูงกว่ากับผู้ใช้ที่เชี่ยวชาญ) และมีคำศัพท์หลายหมื่นคำ คุณต้องฝึกให้ระบบเหล่านี้ทำงานได้ดีที่สุดกับผู้ใช้หลักจำนวนน้อย อัตราความแม่นยำจะลดลงอย่างมากกับผู้ใช้รายอื่น

ระบบการรู้จำเสียงพูดเมื่อกว่า 10 ปีที่แล้วต้องเผชิญกับทางเลือกระหว่างเสียงพูด ที่ ไม่ต่อเนื่องและต่อเนื่อง โปรแกรมจะเข้าใจคำศัพท์ได้ง่ายขึ้นมากเมื่อเราพูดแยกกัน โดยมีการหยุดระหว่างคำแต่ละคำอย่างชัดเจน อย่างไรก็ตาม ผู้ใช้ส่วนใหญ่ชอบที่จะพูดด้วยความเร็วปกติในการสนทนา ระบบสมัยใหม่เกือบทั้งหมดสามารถเข้าใจคำพูดต่อเนื่องได้

ขอบคุณ

สำหรับบทความนี้ เราได้พูดคุยกับJohn Garofoloผู้จัดการ Speech Group ที่ห้องปฏิบัติการเทคโนโลยีสารสนเทศของสถาบันมาตรฐานและเทคโนโลยีแห่งชาติ เราขอขอบคุณJoshua Senecalสำหรับความช่วยเหลือเกี่ยวกับบทความนี้