ความเร็วสากลของภาษา: 39 บิตต่อวินาที

May 09 2023
ไม่ว่าจะพูดภาษาญี่ปุ่นอย่างรวดเร็วหรือตั้งใจพูดภาษาเยอรมัน อัตราการส่งข้อมูลจะเท่ากัน
“เอ่อ..
ภาพถ่ายโดยเควิน เคอร์ติส บน Unsplash

“เอ่อ.. lo siento, no entiendo” - ฉัน

แม้จะเรียนภาษาสเปนมาหลายปี แต่ฉันก็ไม่สามารถตามจังหวะการพูดที่น่าสับสนของเจ้าของภาษาสเปนได้เลย ด้วยเหตุนี้ ฉันจึงคิดเสมอว่าอัตราการส่งข้อมูลจริงในภาษาสเปนนั้นสูงกว่า กล่าวอีกนัยหนึ่ง ผู้พูดภาษาสเปนถ่ายทอดความคิดและความคิดได้เร็วกว่าผู้พูดภาษาอังกฤษ

ฉันอยู่ไกล จากการศึกษาของ CNRS และ Université Lumière Lyon 2 ภาษามนุษย์มีอัตราข้อมูลที่ใกล้เคียงกันแม้ว่าอัตราการพูดและความหนาแน่นของข้อมูลจะแตกต่างกันไปก็ตาม ความหนาแน่นของข้อมูลหมายถึงจำนวนข้อมูลที่บรรจุในแต่ละพยางค์ของภาษา

ตัวอย่างเช่น ภาษาเวียดนามมีความหนาแน่นของข้อมูลสูง การใช้วรรณยุกต์เพื่อแยกความแตกต่างระหว่างความหมายต่างๆ ของพยางค์เดียวกัน ภาษาอังกฤษมีความหนาแน่นของข้อมูลน้อยกว่าเนื่องจากมีพยางค์มากกว่าและมีวรรณยุกต์น้อย

สำหรับผู้ที่ชอบคณิตศาสตร์:

อัตราข้อมูล = อัตราการพูด * ความหนาแน่นของข้อมูล

นักวิจัยวัดอัตราการพูดและความหนาแน่นของข้อมูล 17 ภาษา ตั้งแต่ภาษาบาสก์ไปจนถึงภาษาจีนกลาง และพบว่าทั้งหมดมีอัตราข้อมูลเฉลี่ยประมาณ 39 บิตต่อวินาที ซึ่งหมายความว่าไม่ว่าภาษาพูดจะเร็วหรือช้าเพียงใด ภาษาก็จะถ่ายทอดข้อมูลด้วยความเร็วใกล้เคียงกันโดยประมาณ

เหตุใดทุกภาษาจึงมาบรรจบกันที่ 39 บิตต่อวินาที

นักวิจัยแนะนำว่ามีเพดานจำกัดว่ามนุษย์จะประมวลผลภาษาได้เร็วแค่ไหน ดังนั้นภาษาต่างๆ จึงปรับให้เข้ากับขีดจำกัดนี้ด้วยวิธีต่างๆ กัน บางภาษาใช้พยางค์มากขึ้นแต่ข้อมูลต่อพยางค์น้อยลง และในทางกลับกัน ในท้ายที่สุด พวกเขาทั้งหมดก็บรรลุเป้าหมายเดียวกัน นั่นคือ การสื่อสารที่มีประสิทธิภาพ

ฉันพบว่าสิ่งนี้น่าสนใจเป็นการส่วนตัว แต่ทำให้ฉันมีคำถามมากกว่าคำตอบ:

  • ทำไมสมองของเราถึงตัดสินใจว่า 39 บิตต่อวินาทีเหมาะสมที่สุด?
  • ต้องใช้สมองมากขึ้นในการถ่ายทอดและประมวลผลภาษาในอัตราที่สูงขึ้น และนั่นเป็นสาเหตุที่ภาษาพูดตกลงที่ค่าเฉลี่ยนี้หรือไม่ ถ้าเป็นเช่นนั้น นี่เป็นลักษณะวิวัฒนาการหรือไม่?
  • แล้วอัตราการอ่านที่แท้จริงล่ะ — หลายคนฟังพอดคาสต์และหนังสือเสียงด้วยความเร็ว 1.5x หรือ 2x
  • ข้อ จำกัด นี้เปรียบเทียบกับรูปแบบอื่น ๆ ของการสื่อสารอย่างไร?

ฉันสงสัยเกี่ยวกับความหมายที่เป็นไปได้ของการวิจัยนี้สำหรับปัญญาประดิษฐ์และการประมวลผลภาษาธรรมชาติ หากภาษาของมนุษย์ทั้งหมดมีอัตราข้อมูลที่ใกล้เคียงกัน จะสามารถใช้สิ่งนี้เป็นเกณฑ์มาตรฐานสำหรับการพัฒนาระบบ AI ที่สามารถสื่อสารกับมนุษย์ได้อย่างมีประสิทธิภาพ โดยหลีกเลี่ยงหุบเขาลึกลับได้หรือไม่

นี่เป็นโพสต์ที่ค่อนข้างรก แต่ฉันแค่ต้องการแบ่งปันงานวิจัยที่น่าตื่นเต้น :)