ChatGPT และระบบแชทที่คล้ายกันทำงานอย่างไร
May 03 2023
GPT หรือ Generative Pretrained Transformer เป็นโมเดลที่พัฒนาโดย OpenAI สำหรับสร้างข้อความที่เหมือนมนุษย์ โดยอ้างอิงจากสถาปัตยกรรมหม้อแปลงไฟฟ้า ซึ่งเป็นสถาปัตยกรรมโครงข่ายประสาทเทียมประเภทหนึ่งที่นำเสนอในเอกสารเรื่อง “Attention is All You Need” โดย Vaswani et al

GPT หรือ Generative Pretrained Transformer เป็นโมเดลที่พัฒนาโดย OpenAI สำหรับสร้างข้อความที่เหมือนมนุษย์ โดยอ้างอิงจากสถาปัตยกรรมหม้อแปลงไฟฟ้า ซึ่งเป็นสถาปัตยกรรมโครงข่ายประสาทเทียมประเภทหนึ่งที่นำเสนอในเอกสารเรื่อง “Attention is All You Need” โดย Vaswani et al
นี่คือรายละเอียดโดยละเอียดเกี่ยวกับวิธีการทำงานของ GPT:
- Transformers และ Attention Mechanism : โครงสร้างพื้นฐานของ GPT คือโมเดลของ Transformer Transformers ใช้กลไกที่เรียกว่า "ความสนใจ" เพื่อชั่งน้ำหนักความเกี่ยวข้องขององค์ประกอบอินพุต (เช่น คำในประโยค) เมื่อสร้างองค์ประกอบเอาต์พุต สิ่งนี้สามารถทำได้โดยไม่ต้องประมวลผลองค์ประกอบอินพุตตามลำดับเฉพาะ เช่น โครงข่ายประสาทเทียมแบบเกิดซ้ำ (RNN) หรือเครือข่ายหน่วยความจำระยะสั้นแบบยาว (LSTM) คุณสมบัตินี้ช่วยให้หม้อแปลงสามารถจัดการกับการขึ้นต่อกันของข้อมูลในระยะยาวได้อย่างมีประสิทธิภาพและประสิทธิผลมากขึ้น
- Self-Attention : GPT ใช้ตัวแปรของกลไกการให้ความสนใจที่เรียกว่า ความสนใจในตัวเองช่วยให้แบบจำลองสามารถพิจารณาคำอื่น ๆ ในอินพุตเมื่อสร้างคำเอาต์พุต สำหรับแต่ละคำ จะมีการคำนวณคะแนน (โดยใช้ดอทโปรดัคของเวกเตอร์อินพุต) ซึ่งแสดงว่าควรให้ความสนใจกับคำอื่นๆ ในประโยคมากน้อยเพียงใด จากนั้นคะแนนเหล่านี้จะถูกใช้เพื่อชั่งน้ำหนักการมีส่วนร่วมของแต่ละคำในผลลัพธ์
- การถอดรหัสแบบสวมหน้ากาก : ขณะฝึก GPT ใช้เทคนิคที่เรียกว่า "การถอดรหัสแบบสวมหน้ากาก" หรือ "ความสนใจเชิงสาเหตุ" ซึ่งหมายความว่าเมื่อคาดการณ์คำ แบบจำลองจะใช้เฉพาะคำที่อยู่ก่อนหน้าในประโยค ซึ่งเลียนแบบวิธีที่มนุษย์สร้างข้อความ
- การฝึกและการปรับละเอียด : GPT ได้รับการฝึกฝนในสองขั้นตอน: การฝึกล่วงหน้าและการปรับละเอียด ในระหว่างการฝึกล่วงหน้า โมเดลจะได้รับการฝึกในคลังข้อความขนาดใหญ่เพื่อคาดเดาคำถัดไปในประโยค สิ่งนี้ทำให้สามารถเรียนรู้ความเข้าใจทั่วไปของภาษา รวมถึงไวยากรณ์ ข้อเท็จจริงเกี่ยวกับโลก ความสามารถในการให้เหตุผล และอคติจำนวนหนึ่งที่มีอยู่ในข้อมูลการฝึกอบรม หลังจากการฝึกอบรมล่วงหน้า โมเดลจะได้รับการปรับแต่งอย่างละเอียดในชุดข้อมูลที่แคบลง โดยมักจะมีการควบคุมดูแลโดยเจ้าหน้าที่ เพื่อปรับให้เข้ากับงานเฉพาะ เช่น การแปล การตอบคำถาม หรือการสร้างข้อความ
- โทเค็น : การป้อนข้อความไปยัง GPT จะแบ่งออกเป็นส่วนๆ ที่เรียกว่า "โทเค็น" ซึ่งอาจสอดคล้องกับคำหรือคำย่อย กระบวนการโทเค็นนี้ทำให้โมเดลสามารถจัดการคำศัพท์อินพุตได้หลากหลาย
- การเข้ารหัสตำแหน่ง : เพื่อให้แน่ใจว่าโมเดลทราบลำดับของคำในประโยค (เนื่องจากสถาปัตยกรรมของ Transformer ไม่เข้าใจลำดับโดยเนื้อแท้เช่น RNNs) GPT จึงเพิ่มการเข้ารหัสตำแหน่งในการฝังอินพุต สิ่งนี้ให้ข้อมูลโมเดลเกี่ยวกับตำแหน่งสัมพัทธ์หรือสัมบูรณ์ของโทเค็นในลำดับ
- ขนาดโมเดล : โมเดล GPT อาจมีขนาดใหญ่มาก ตัวอย่างเช่น GPT-3 ซึ่งเป็นหนึ่งในเวอร์ชันก่อนหน้า มีพารามิเตอร์ 175 พันล้านพารามิเตอร์ พารามิเตอร์เหล่านี้เป็นส่วนหนึ่งของโมเดลที่เรียนรู้จากข้อมูลการฝึกอบรม โดยทั่วไป โมเดลขนาดใหญ่สามารถจับรูปแบบที่ซับซ้อนมากขึ้น และสร้างข้อความที่สอดคล้องกันและหลากหลายมากขึ้น แต่พวกเขายังต้องการทรัพยากรการคำนวณมากขึ้นในการฝึกอบรมและใช้งาน
- เอาต์พุต : เอาต์พุตของ GPT เป็นการแจกแจงความน่าจะเป็นของคำถัดไปที่เป็นไปได้ทั้งหมด เมื่อสร้างข้อความ คุณสามารถสุ่มตัวอย่างจากการแจกแจงนี้เพื่อรับคำถัดไปที่น่าเชื่อถือ ด้วยการผูกมัดกระบวนการนี้ GPT สามารถสร้างข้อความทั้งหมดที่สามารถเชื่อมโยงกันและมีความเกี่ยวข้องทางบริบทได้
นี่คือเอกสารที่เริ่มต้นการปฏิวัติหม้อแปลงและนำไปสู่ ChatGPT และระบบที่คล้ายกัน:
Attention Is All You Need
Ashish Vaswani , Noam Shazeer , Niki Parmar , Jakob Uszkoreit , Llion Jones , Aidan N. Gomez , Lukasz Kaiser , Illia Polosukhin , 2017
ลิงก์:https://arxiv.org/abs/1706.03762
คุณรู้แล้วตอนนี้ :)