ห้องสมุด Infinite Babel ของ LLM
“' The Godfather of AI' Leaves Google and Warns of Danger Ahead ” เป็นชื่อของ New York Times เราจะรู้ได้อย่างไรว่า LMs เป็นภัยคุกคามต่อมนุษยชาติหากไม่ใช่โอเพ่นซอร์ส เกิดอะไรขึ้นจริง? โลกของแบบจำลองทางภาษากำลังใกล้จะเปลี่ยนแปลงอย่างไร
การเรียกร้องให้เปิดแหล่งที่มาของสงครามครูเสด
ไม่นานมานี้GPT-4ถูกเปิดเผยสู่สาธารณะ และฉันคิดว่าเราทุกคนไปอ่านรายงานทางเทคนิคแล้วรู้สึกผิดหวัง
เมื่อเร็ว ๆ นี้Nature ยังกล่าวถึงประเด็นนี้ว่า เราต้องการโมเดลภาษาขนาดใหญ่ (LLMs) เพื่อเป็นโอเพ่นซอร์ส
LLM จำนวนมากเป็นกรรมสิทธิ์ ไม่เผยแพร่ และเราไม่รู้ว่าพวกเขาได้รับการฝึกอบรมเกี่ยวกับข้อมูลใด สิ่งนี้ไม่อนุญาตให้ตรวจสอบและทดสอบข้อจำกัด โดยเฉพาะอย่างยิ่งในเรื่องอคติ
นอกจากนี้ การแชร์ข้อมูลและโค้ดกับ ChatGPT ยังเสี่ยงต่อการรั่วไหลตามที่ Samsung ค้นพบ ไม่ต้องพูดถึงว่าบางรัฐเชื่อว่าการจัดเก็บข้อมูลโดย บริษัทเหล่านี้ ละเมิดGDPR
นี่คือเหตุผลที่เราต้องการให้ LLM เป็นโอเพ่นซอร์ส และควรมีการลงทุนเพิ่มเติมในการพัฒนา LLM ใหม่ เช่น กลุ่มBLOOM (LLM พารามิเตอร์ 170 B ที่พัฒนาโดยกลุ่มวิชาการ)
ในช่วงหลายเดือนที่ผ่านมามักมีความรู้สึกตื่นเต้น ทั้งเกี่ยวกับความสามารถที่แท้จริงของ LLM เหล่านี้และความเสี่ยงของปัญญาประดิษฐ์ หากนักวิจัยไม่สามารถทดสอบแบบจำลองได้ พวกเขาก็ไม่สามารถประเมินความสามารถของตนได้อย่างแท้จริง และเช่นเดียวกันกับการวิเคราะห์ความเสี่ยง นอกจากนี้ โมเดลโอเพ่นซอร์สยังโปร่งใสกว่ามาก และชุมชนยังสามารถพยายามระบุแหล่งที่มาของพฤติกรรมที่เป็นปัญหาได้อีกด้วย
ยิ่งกว่านั้น ไม่เป็นที่ต้องการของสถาบันการศึกษา สถาบันตื่นตระหนกโดย AI สหภาพยุโรปกำลังหารือกันในวันนี้เกี่ยวกับพระราชบัญญัติ AI ของสหภาพยุโรปที่สามารถกำหนดอนาคตของ LLM ได้ ในขณะเดียวกันทำเนียบขาวกำลังผลักดันให้ซีอีโอด้านเทคโนโลยีจำกัดความเสี่ยงของ AI ดังนั้น โอเพ่นซอร์สอาจเป็นข้อกำหนดในอนาคตสำหรับโมเดลภาษา
ทำไม ChatGPT ถึงดี
เราเคยได้ยินเกี่ยวกับ ChatGPT กันมาบ้างแล้ว และดูเหมือนว่ามันจะมีการปฏิวัติ แต่มันได้รับการฝึกฝนอย่างไร?
ทุกสิ่งยกเว้นทุกสิ่งที่คุณจำเป็นต้องรู้เกี่ยวกับ ChatGPTเรามาเริ่มกันที่ ChatGPT ได้รับการฝึกอบรมบนพื้นฐานของ LLM (GPT 3.5 เพื่อความแม่นยำ) โดยทั่วไป โมเดลภาษาที่คล้ายกับ GPT เหล่านี้ได้รับการฝึกฝนโดยใช้การคาดคะเนโทเค็นถัดไปในลำดับ (จากลำดับของโทเค็น w โมเดลจะต้องทำนายโทเค็นถัดไป w+1)
โมเดลโดยทั่วไปคือหม้อแปลง: ประกอบด้วยตัวเข้ารหัสที่รับอินพุตเป็นลำดับและตัวถอดรหัสที่สร้างลำดับเอาต์พุต หัวใจของระบบนี้คือการเอาใจใส่ตนเองแบบหลายหัวซึ่งช่วยให้โมเดลสามารถเรียนรู้ข้อมูลเกี่ยวกับบริบทและการพึ่งพาระหว่างส่วนต่าง ๆ ของลำดับ
GPT-3ได้รับการฝึกอบรมด้วยหลักการนี้ (เช่นเดียวกับรุ่นอื่นๆ ใน Generative Pre-training Transformer, GPT, ตระกูล) เพียงแต่มีพารามิเตอร์มากขึ้นและข้อมูลมากขึ้นเท่านั้น (ข้อมูล 570 GB และพารามิเตอร์ 176 B)
GPT3มีความสามารถมหาศาล แต่เมื่อพูดถึงการสร้างข้อความ มักจะทำให้เกิดภาพหลอน ขาดประโยชน์ ตีความไม่ได้ และมักมีอคติ ซึ่งหมายความว่าโมเดลไม่สอดคล้องกับสิ่งที่เราคาดหวังจากโมเดลที่สร้างข้อความเหมือนมนุษย์
เราจะรับ ChatGPT จาก GPT-3 ได้อย่างไร
กระบวนการนี้เรียกว่าReinforcement Learning from Human Feedback (RHLF) และอธิบายโดยผู้เขียนในบทความนี้:
ในที่นี้ข้าพเจ้าจะอธิบายโดยทั่วๆ ไปและรวบรัด โดยเฉพาะอย่างยิ่งประกอบด้วยสามขั้นตอน:
- การปรับอย่างละเอียดภายใต้การดูแลเป็นขั้นตอนแรกที่ LLM ได้รับการปรับแต่งอย่างละเอียดเพื่อเรียนรู้นโยบายภายใต้การดูแล (แบบจำลองพื้นฐานหรือแบบจำลอง SFT)
- เลียนแบบการตั้งค่าของมนุษย์ในขั้นตอนนี้ ผู้ทำหมายเหตุประกอบต้องลงคะแนนชุดของผลลัพธ์จากแบบจำลองพื้นฐาน ชุดข้อมูลที่รวบรวมไว้นี้ใช้เพื่อฝึกโมเดลใหม่ ซึ่งเป็นโมเดลรางวัล
- Proximal Policy Optimization (PPO)ที่นี่ใช้โมเดลรางวัลเพื่อปรับแต่งโมเดล SFT และรับโมเดลนโยบาย
ผู้เขียนใช้เป็นโมเดล GPT-3.5 ที่ได้รับการปรับแต่งโค้ดโปรแกรมแล้ว ซึ่งจะอธิบายถึงความสามารถของโค้ดของ ChatGPT
ตอนนี้ขั้นตอนนี้ไม่สามารถปรับขนาดได้เนื่องจากเป็นการเรียนรู้ภายใต้การดูแล ไม่ว่าในกรณีใด โมเดลที่ได้มาจึงยังไม่สอดคล้องกัน
คำอธิบายประกอบจะสังเกตช่วงของการตอบสนองจากแบบจำลอง SFT ตามความพึงพอใจของการตอบสนองดังกล่าว (จากแย่ที่สุดไปดีที่สุด) ขณะนี้เรามีชุดข้อมูลที่ใหญ่ขึ้นมาก (10 เท่า) และให้การตอบสนองโมเดล SFT กับโมเดลใหม่ ซึ่งต้องจัดลำดับตามความชอบ
ในระหว่างขั้นตอนนี้ ตัวแบบกำลังเรียนรู้นโยบายทั่วไปเกี่ยวกับข้อมูล และวิธีการเพิ่มรางวัลสูงสุด (เมื่อเขาสามารถจัดอันดับผลลัพธ์ได้ดี)
ดังนั้นเราจึงมีโมเดล SFT และเราใช้ตุ้มน้ำหนักเพื่อเริ่มต้นโมเดล PPO ใหม่ โมเดลนี้ได้รับการปรับแต่งอย่างละเอียดโดยใช้ Proximal Policy Optimization (PPO)
กล่าวอีกนัยหนึ่ง เราใช้อัลกอริทึมการเรียนรู้แบบเสริมแรง โมเดล PPO ได้รับการแจ้งแบบสุ่มและตอบกลับพร้อมท์ หลังจากนั้นจะได้รับการลงโทษหรือรางวัล แทนที่จะใช้Q-learning แบบคลาส สิก นโยบายโมเดลจะได้รับการอัปเดตในแต่ละการตอบสนอง (โมเดลจะเรียนรู้โดยตรงจากประสบการณ์ จากนโยบาย)
นอกจากนี้ ผู้เขียนยังใช้การลงโทษ Kullback-Leibler (KL)ต่อโทเค็นเพื่อทำให้การกระจายการตอบสนองของโมเดลคล้ายกับของโมเดล SFT นี่เป็นเพราะเราต้องการปรับโมเดลให้เหมาะสมด้วย RL (เนื่องจากโมเดลรางวัล) แต่เรายังไม่ต้องการให้โมเดลลืมสิ่งที่เรียนรู้ในขั้นตอนที่ 1 ซึ่งเป็นคำแนะนำที่มนุษย์เป็นผู้ควบคุม
สุดท้าย แบบจำลองได้รับการประเมินในสามด้าน: ความเป็นประโยชน์ ความจริง และไม่เป็นอันตราย ท้ายที่สุดแล้ว สิ่งเหล่านี้คือแง่มุมที่เราต้องการเพิ่มประสิทธิภาพ
ข้อสังเกตที่น่าสงสัยคือ โมเดลเมื่อประเมินตามเกณฑ์มาตรฐานแบบคลาสสิก (การตอบคำถาม การสรุป การจัดหมวดหมู่) มีประสิทธิภาพต่ำกว่า GPT-3 นี่คือค่าใช้จ่ายในการจัดตำแหน่ง
อัลปาก้า สัตว์แห่งการปฏิวัติ
ดังที่ได้กล่าวมาแล้ว มีความจำเป็นอย่างยิ่งที่จะต้องศึกษาพฤติกรรมของโมเดลเหล่านี้ และจะเป็นไปได้ก็ต่อเมื่อโมเดลเหล่านี้เป็นโอเพ่นซอร์สเท่านั้น ในทางกลับกัน LM ใดๆ ก็สามารถจัดแนวได้โดยใช้ RHLF
RHLF มีราคาถูกกว่ามากและเน้นการคำนวณมากกว่าการฝึกโมเดลตั้งแต่เริ่มต้น ในทางกลับกัน จะต้องมีคำอธิบายประกอบ (คุณต้องมีชุดข้อมูลพร้อมคำแนะนำ) แต่ขั้นตอนเหล่านี้เป็นแบบอัตโนมัติไม่ได้หรือ
ขั้นตอนแรกคือSelf-instructในบทความปี 2022 นี้ ผู้เขียนเสนอวิธีการแบบกึ่งอัตโนมัติ อันที่จริง แนวคิดทั่วไปคือการเริ่มต้นด้วยชุดคำสั่งที่เขียนขึ้นเอง ชุดคำแนะนำนี้ทำหน้าที่เป็นทั้งเมล็ดและเพื่อให้มั่นใจว่าครอบคลุมงานNLP ส่วนใหญ่
เริ่มต้นด้วยคำสั่งเพียง 175 คำสั่งเท่านั้นที่กระตุ้นให้โมเดลสร้างชุดข้อมูล (คำสั่ง 50k) จากนั้นชุดข้อมูลจะถูกใช้สำหรับการปรับแต่งคำสั่ง
มีวิธีการที่ต้องการเพียงแบบจำลอง ChatGPT ใช้ OpenAI GPT-3.5 แต่ใช้รุ่นที่เล็กกว่านี้ไม่ได้หรือ จำเป็นต้องมีพารามิเตอร์มากกว่า 100 B หรือไม่
นักวิจัยของสแตนฟอร์ดใช้ LLaMA แทน และโดยเฉพาะรุ่น 7B และคำสั่ง 52 K ที่สร้างขึ้นตามวิธีการสอนตัวเอง (คำแนะนำที่สร้างโดยใช้ข้อความ-davinci-003 ของ OpenAI) คุณค่าที่แท้จริงของ Alpaca คือการที่ผู้เขียนลดความซับซ้อนของกระบวนการและลดต้นทุนลงอย่างมากในลักษณะที่ห้องปฏิบัติการทางวิชาการใดๆ สามารถทำซ้ำกระบวนการได้ (ซึ่งอยู่ในที่เก็บนี้ ) ตามความเป็นจริง:
สำหรับการทำงานครั้งแรกของเรา การปรับแต่งโมเดล 7B LLaMA อย่างละเอียดนั้นใช้เวลา 3 ชั่วโมงใน 8 80GB A100 ซึ่งมีค่าใช้จ่ายน้อยกว่า $100 สำหรับผู้ให้บริการประมวลผลบนคลาวด์ส่วนใหญ่ ( ที่มา )
การประเมินแบบจำลองเบื้องต้นแสดงให้เห็นว่า Alpaca เกือบจะดีที่ GPT-3.5 (ในบางกรณีอาจเกินด้วยซ้ำ) อาจดูน่าแปลกใจเนื่องจากเป็นรุ่นที่เล็กกว่า 20 เท่า ในทางกลับกัน ตัวแบบจะทำงานเหมือน GPT ในชุดอินพุต (ดังนั้นการฝึกอบรมจึงเปรียบเสมือนการกลั่นกรองความรู้ชนิดหนึ่ง) ในทางกลับกัน โมเดลมีข้อจำกัดเช่นเดียวกับโมเดลภาษาทั่วไป โดยแสดงภาพหลอน ความเป็นพิษ และแบบเหมารวม
จากนั้น Alpaca แสดงให้เห็นว่าห้องปฏิบัติการทางวิชาการใดๆ สามารถฝึกอบรม ChatGPT เวอร์ชันของตนเองได้ (โดยใช้LLaMAซึ่งมีให้สำหรับการวิจัยเท่านั้น) ในทางกลับกัน บริษัทใดๆ ที่ใช้โมเดลอื่นสามารถจัดตำแหน่งและสร้าง ChatGPT เวอร์ชันของตนเองได้ นอกจากนี้ โมเดลที่คล้ายกันยังสามารถนำไปใช้กับโทรศัพท์มือถือหรือคอมพิวเตอร์Raspberry Pi ได้อีกด้วย
ผู้เขียนได้ปล่อยตัวอย่าง แต่มันถูกปิดลงหลังจากนั้นไม่นาน (เพื่อความปลอดภัย) นอกจากนี้ แม้ว่าจะต้องสมัครเพื่อใช้ LLaMA (และ เข้าถึงน้ำหนักของโมเดล) ไม่กี่วันต่อมา โมเดลดังกล่าวก็รั่วไหลทางออนไลน์
LLMs อยู่ที่ขอบของการปฏิวัติหรือไม่?
ดูเหมือนว่าจะเป็นเวลาหลายปีแล้วที่ ChatGPT เปิดตัว แต่กลับเป็นเพียงไม่กี่เดือนเท่านั้น ถึงเวลานั้น เรากำลังพูดถึงกฎแห่งอำนาจ ว่าจำเป็นอย่างไรที่แบบจำลองจะต้องมีพารามิเตอร์มากขึ้น ข้อมูลมากขึ้น และการฝึกอบรมมากขึ้นเพื่อให้สามารถกำเนิดพฤติกรรมฉุกเฉินได้
แนวคิดเหล่านี้นำไปสู่แนวคิดที่ว่าเราสามารถกำหนดกฎของมัวร์สำหรับแบบจำลองภาษาได้ ในแง่หนึ่ง ในช่วงไม่กี่ปีที่ผ่านมา เราได้เห็นกฎเลขชี้กำลังเกือบทั้งหมด (เราได้เปลี่ยนจากพารามิเตอร์ 1.5 B สำหรับ GPT-2 เป็น 175 B สำหรับ GPT-3)
มีอะไรเปลี่ยนแปลงบ้าง?
การระเบิดครั้งแรกของหลัก คำสอนนี้อาจเรียกได้ว่าเป็นการมาถึงของChinchilla แบบจำลองของ DeepMind แสดงให้เห็นว่าไม่ใช่แค่เรื่องของปริมาณข้อมูลเท่านั้น แต่ยังรวมถึงคุณภาพของข้อมูลด้วย ประการที่สอง LLaMA ของ META แสดงให้เห็นว่าแม้แต่โมเดลขนาดเล็กที่ใช้ชุดข้อมูลที่รวบรวมไว้ก็สามารถบรรลุผลลัพธ์ที่คล้ายกันได้หากไม่ได้ผลลัพธ์ที่ดีกว่าโมเดลขนาดใหญ่
ไม่ใช่แค่เรื่องของโมเดลเท่านั้น ข้อมูลเป็นปัญหาอื่น มนุษย์ไม่ได้สร้างข้อมูลเพียงพอ ซึ่งอาจมีข้อมูลไม่เพียงพอที่จะสนับสนุน GPT-5 ใดๆ ตามที่กฎหมายอำนาจกำหนด ประการที่สอง ข้อมูลจะไม่สามารถเข้าถึงได้เหมือนเมื่อก่อน
ในความเป็นจริง Reddit (แหล่งข้อมูลยอดนิยม) ได้ประกาศว่านักพัฒนา AI จะต้องจ่ายเงินเพื่อเข้าถึงเนื้อหา แม้แต่วิกิพีเดียก็คิดเช่นเดียวกันและตอนนี้StackOverflowก็กำลังดำเนินการในลักษณะเดียวกัน บริษัทจะต้องจ่ายเงิน
Chandrasekar จาก Stack Overflow กล่าวว่า “แพลตฟอร์มชุมชนที่เติม LLMs ควรได้รับการชดเชยอย่างแน่นอนสำหรับการสนับสนุนของพวกเขา เพื่อให้บริษัทอย่างเราสามารถลงทุนกลับคืนสู่ชุมชนของเราเพื่อให้พวกเขาเติบโตต่อไป” Chandrasekar จาก Stack Overflow กล่าว “เราสนับสนุนแนวทางของ Reddit เป็นอย่างมาก” ( ที่มา )
และแม้ว่าจะสามารถจัดการข้อมูลได้ แต่ก็อาจไม่ปลอดภัยเช่นเดียวกันสำหรับบริษัท Getty ได้ฟ้องผู้สร้างงานศิลปะ AIแต่ศิลปินเองก็ได้ยื่นฟ้องด้วยเช่นกัน ไม่ต้องพูดถึงว่าโปรแกรมเมอร์ได้ทำเช่นเดียวกันกับ GitHub Copilotซึ่งได้รับการฝึกฝนด้วยโค้ดในที่เก็บ นอกจากนี้ วงการเพลง (ซึ่งเป็นคดีความฉาวโฉ่) ได้ออกมาต่อต้านเพลงที่สร้างโดย AIและเรียกร้องให้ต่อต้านบริการสตรีมมิ่ง แม้ว่าบริษัท AI จะยื่นอุทธรณ์ต่อการใช้งานที่เหมาะสมก็ไม่ได้หมายความว่าพวกเขาจะสามารถเข้าถึงข้อมูลแบบเดียวกันได้ในอนาคต
มีอีกปัจจัยหนึ่งที่ต้องพิจารณา นอกเหนือจากการขยายโมเดลโดย hetero modality แล้ว สถาปัตยกรรมของทรานส์ฟอร์มไม่ได้เปลี่ยนแปลงเลยตั้งแต่ปี 2017 โมเดลภาษาทั้งหมดอิงตามความเชื่อที่ว่าจำเป็นต้องมีการเอาใจใส่ตนเองแบบหลายหัวเท่านั้นและไม่มีอะไรมากไปกว่านี้ จนกระทั่งเมื่อไม่นานมานี้ Sam Altman เชื่อมั่นว่าความสามารถในการปรับขนาดของสถาปัตยกรรมเป็นกุญแจสำคัญของ AGI แต่อย่างที่เขาพูดในงาน MIT เมื่อเร็ว ๆ นี้ กุญแจสำคัญของ AGI ไม่ได้อยู่ที่เลเยอร์และพารามิเตอร์ที่มากกว่า
หม้อแปลงมีข้อจำกัดที่ชัดเจนและสิ่งนี้สะท้อนให้เห็นใน LM: ภาพหลอน ความเป็นพิษ และความลำเอียง LLM สมัยใหม่ไม่สามารถคิดเชิงวิพากษ์ได้ เทคนิคต่างๆ เช่น ห่วงโซ่แห่งความคิดและวิศวกรรมที่ทันท่วงทีทำหน้าที่เป็นแพตช์เพื่อพยายามบรรเทาปัญหา
ยิ่งไปกว่านั้น การแสดงความสนใจในตนเองแบบหลายหัวสามารถแก้ปัญหาที่ได้รับจาก RNN และปล่อยให้พฤติกรรมปรากฏขึ้นเนื่องจากการเรียนรู้ในบริบทมีค่าใช้จ่ายกำลังสอง เมื่อเร็ว ๆ นี้ มีให้เห็นแล้วว่าเราไม่สามารถแทนที่ความสนใจในตนเองด้วยความแตกต่างของความสนใจที่ไม่ใช่กำลังสองได้โดยไม่สูญเสียการแสดงออก อย่างไรก็ตาม งานเช่นSpike-GPTและHyenaแสดงให้เห็นว่ามีทางเลือกที่ถูกกว่าซึ่งไม่ได้ขึ้นอยู่กับความใส่ใจในตนเอง และอนุญาตให้มีผลลัพธ์ที่เทียบเคียงได้ในการสร้างแบบจำลองภาษา
เช่นเดียวกับที่แสดงการจัดตำแหน่งโมเดลโดยใช้ RHLF มีค่าใช้จ่ายที่เกี่ยวข้องกับประสิทธิภาพในงานต่างๆ ดังนั้น LM จะไม่มาแทนที่ "รุ่นผู้เชี่ยวชาญ" แต่ในอนาคตอาจจะเป็นตัวประสานของรุ่นอื่นๆ (เช่น แนะนำโดยHuggingGPT )
คุณไม่สามารถหยุดโอเพ่นซอร์สได้ และเหตุใดโอเพ่นซอร์สจึงชนะอยู่เสมอ
MidJourney หรือ DALL-E ดีกว่ากัน มันอาจจะยากที่จะพูด สิ่งที่แน่นอนคือการแพร่กระจายที่เสถียรเป็นเทคโนโลยีที่ชนะ การแพร่กระจายที่เสถียรโดยความจริงที่ว่ามันเป็นโอเพ่นซอร์สทำให้เกิดแอปพลิเคชั่นมากมายและเป็นแรงบันดาลใจสำหรับการวิจัยเชิงอนุพันธ์มากมาย (ControlNet, ข้อมูลสังเคราะห์สำหรับการถ่ายภาพทางการแพทย์, แนวเดียวกันกับสมอง)
ผ่านการทำงานของชุมชน Stable diffusion ในเวอร์ชั่นต่างๆ ได้รับการปรับปรุงให้ดีขึ้นและมีความหลากหลายไม่รู้จบ ในทางกลับกัน ไม่มีแอปพลิเคชันใดของ DALL-E ที่ไม่มีคู่เทียบตามการแพร่กระจายที่เสถียร (แต่ตรงกันข้ามคือความจริง)
เหตุใดจึงไม่มีสิ่งเดียวกันนี้เกิดขึ้นกับโมเดลภาษา
จนถึงขณะนี้ปัญหาหลักคือการฝึกอบรมรูปแบบภาษาเป็นสิ่งที่ห้ามปราม BLOOM ของ BigScience เป็นสมาคมขนาดใหญ่ แต่ LLaMA ได้แสดงให้เห็นว่าโมเดลที่เล็กกว่ามากสามารถแข่งขันกับสัตว์ประหลาดที่มีพารามิเตอร์มากกว่า 100 B ได้ Alpaca แสดงให้เห็นว่าการจัดตำแหน่ง LM สามารถทำได้โดยมีค่าใช้จ่ายเพียงเล็กน้อย (ต้นทุนรวมน้อยกว่า 1,000 ดอลลาร์) สิ่งเหล่านี้คือองค์ประกอบที่ทำให้ไซมอน วิลสันกล่าวว่า " โมเดลภาษาขนาดใหญ่กำลังมีช่วงเวลาการแพร่กระจายที่เสถียร ”
จาก Alpaca จนถึงปัจจุบันมีโมเดลมากมายที่ออกมาซึ่งเป็นโอเพ่นซอร์ส ไม่เพียงแต่Stability AI เท่านั้นที่เปิดตัวโมเดลหลายรุ่นที่แข่งขันกับยักษ์ใหญ่และทุกคนสามารถใช้ได้ แต่บริษัทอื่นๆ ก็เปิดตัวแชทบอทและโมเดลด้วยเช่นกัน ในเวลาเพียงไม่กี่สัปดาห์ เราได้เห็น: Dolly , HuggingChat , Koala และอีกมากมาย
ตอนนี้บางรุ่นที่กล่าวถึงใช่โอเพ่นซอร์ส แต่มีไว้สำหรับการใช้งานที่ไม่ใช่เชิงพาณิชย์ แม้ว่าพวกเขาจะเปิดกว้างสำหรับการวิจัยเชิงวิชาการ แต่ก็หมายความว่าพวกเขาไม่สามารถแสวงหาผลประโยชน์จากบริษัทที่สนใจได้
นี่เป็นเพียงส่วนหนึ่งของเรื่องราวเท่านั้น อันที่จริง มีโมเดลบน HuggingFace อยู่แล้วที่สามารถฝึกฝนได้ง่าย (โมเดล ชุดข้อมูล และไปป์ไลน์) และในปัจจุบันมีหลายโมเดลที่มีจำหน่ายในเชิงพาณิชย์ (จนถึงปัจจุบันมากกว่า 10 รายการ) :
โมเดลโอเพ่นซอร์ส ข้อมูลส่วนตัว และแอปพลิเคชันใหม่
Dario Amodei ซีอีโอของ Anthropic กำลังแสวงหาเงินหลายพันล้านเพื่อเอาชนะ OpenAI ในรูปแบบที่ใหญ่กว่าของโลก อย่างไรก็ตาม ส่วนที่เหลือของโลกกำลังเคลื่อนไปในทิศทางอื่น ตัวอย่างเช่น Bloomberg ซึ่งไม่เป็นที่รู้จักใน AI ได้เปิดตัว LLM สำหรับการเงิน (ฝึกอบรมเกี่ยวกับโทเค็น 363 พันล้านโทเค็นจากแหล่งการเงิน)
ทำไมเราถึงต้องการ LLM สำหรับการเงิน ทำไมไม่ใช้แค่ ChatGPT
Google MedPalm แสดงให้เห็นว่าแบบจำลองทั่วไปมีประสิทธิภาพต่ำเมื่อเทียบกับแบบจำลองที่ได้รับการปรับแต่งในหัวข้อเฉพาะ (ในกรณีนี้คือชุดข้อมูลของบทความทางการแพทย์ วิทยาศาสตร์ และอื่นๆ)
การปรับ LLM อย่างละเอียดนั้นมีราคาแพงอย่างชัดเจน โดยเฉพาะอย่างยิ่งหากเรากำลังพูดถึงโมเดลที่มีพารามิเตอร์นับแสนล้าน รุ่นเล็กมีราคาถูกกว่ามาก แต่ก็ยังไม่แยแส LLaMA ของ META ที่เป็นโอเพ่นซอร์สช่วยแก้ปัญหานี้ได้บางส่วน ในความเป็นจริง ผู้เขียนLLaMA-Adapter แสดงให้เห็นว่าจำเป็นต้องเพิ่มพารามิเตอร์เพียง 1.2 ล้านพารามิเตอร์เพื่อทำการปรับแต่งอย่างละเอียด (การฝึกอบรมใช้เวลาน้อยกว่าหนึ่งชั่วโมง)
แม้ว่า LLaMA จะไม่มีจำหน่ายในท้องตลาด แต่ก็มีรุ่นอื่นๆ ให้เลือกมากมาย (ตั้งแต่รุ่นเล็กไปจนถึงรุ่นใหญ่) สิ่งที่จะทำให้แอปพลิเคชันประสบความสำเร็จในฟิลด์ที่กำหนดได้อย่างชัดเจนคือข้อมูล
เนื่องจาก Samsung ค้นพบสิ่งที่ไม่พึงประสงค์การใช้ ChatGPT ภายในบริษัทจึงมีความเสี่ยง แม้ว่าตอนนี้ ChatGPT จะอนุญาตให้ผู้คนปิดใช้งานประวัติการแชทหรือปฏิเสธที่จะใช้ข้อมูลของตนในการฝึกโมเดล บริษัทต่างๆ จะถือว่ามีความเสี่ยงที่จะยอมรับข้อมูลของตน
หลายบริษัทจะพิจารณาว่าเป็นไปได้ที่จะฝึกแชทบอทของตนเอง ซึ่งเป็นโมเดลที่ได้รับการปรับแต่งอย่างละเอียดจากข้อมูลองค์กรของตนเองและจะยังคงใช้เป็นการภายใน ท้ายที่สุดแล้ว เทคโนโลยีนี้มีให้ใช้งานและราคาไม่แพงแม้แต่กับบริษัทที่มีงบประมาณน้อย ยิ่งไปกว่านั้น ต้นทุนที่ต่ำช่วยให้สามารถปรับแต่งได้อย่างสม่ำเสมอเมื่อมีข้อมูลใหม่เข้ามาหรือหากมีการเผยแพร่โมเดลโอเพ่นซอร์สที่ดีกว่า บริษัทที่มีข้อมูลอยู่ในขณะนี้จะไม่เต็มใจที่จะให้ข้อมูลดังกล่าว
นอกจากนี้ เราได้เห็นความสำคัญของการมีข้อมูลที่มีคุณภาพ ข้อมูลด้านการแพทย์และสาขาอื่น ๆ ยากที่จะรวบรวม (แพง ได้รับการควบคุม หายาก) และบริษัทที่มีข้อมูลเหล่านั้นจะได้เปรียบ OpenAI อาจใช้เงินหลายพันล้านเพื่อพยายามรวบรวมข้อมูลทางการแพทย์ แต่นอกเหนือจากค่าใช้จ่ายแล้ว การสรรหาผู้ป่วยต้องใช้เวลาหลายปีและเครือข่ายที่มั่นคง (ซึ่งยังไม่มี) บริษัทที่มีข้อมูลอยู่ในขณะนี้จะมีข้อจำกัดมากขึ้นในการแบ่งปันข้อมูลเหล่านี้กับโมเดลที่สามารถจัดเก็บสิ่งที่พวกเขาเปิดเผยได้
นอกจากนี้ งานต่างๆ เช่น HuggingGPT และAudioGPTยังแสดงให้เห็นว่า LLM เป็นอินเทอร์เฟซสำหรับผู้ใช้ในการโต้ตอบกับโมเดลผู้เชี่ยวชาญ (แปลงข้อความเป็นรูปภาพ โมเดลเสียง และอื่นๆ อีกมากมาย) ในช่วงหลายปีที่ผ่านมา หลายๆ บริษัทได้จ้างนักวิทยาศาสตร์ข้อมูลและพัฒนาแบบจำลองเฉพาะทางที่แตกต่างกันสำหรับความต้องการของพวกเขา (แบบจำลองของบริษัทยาสำหรับการค้นพบและออกแบบยา บริษัทผู้ผลิตสำหรับการออกแบบส่วนประกอบและการบำรุงรักษาเชิงคาดการณ์ เป็นต้น) ดังนั้น ในตอนนี้ นักวิทยาศาสตร์ข้อมูลสามารถสั่งให้ LLM เชื่อมต่อกับโมเดลที่ได้รับการฝึกอบรมก่อนหน้านี้ และอนุญาตให้ผู้ใช้ภายในที่ไม่ใช่ด้านเทคนิคสามารถโต้ตอบกับพวกเขาผ่านข้อความแจ้ง
นอกจากนี้ยังมีองค์ประกอบอื่นที่ชี้ไปยังสถานการณ์ดังกล่าว กฎระเบียบเกี่ยวกับ generative AI ยังไม่ชัดเจน (เช่น Google ไม่ได้เปิดตัว generative music model เพราะกลัวการละเมิดลิขสิทธิ์) นอกเหนือจากปัญหาลิขสิทธิ์แล้ว คำถามเกี่ยวกับความรับผิดยังคงเปิดอยู่ ดังนั้น หลายบริษัทอาจนำเทคโนโลยีไปใช้และสร้างผู้ช่วย AI ของตนเองในอีกไม่กี่เดือนข้างหน้า
ความคิดพรากจากกัน
ดร. ฮินตันกล่าวว่า เมื่อมีคนเคยถามเขาว่าเขาทำงานเกี่ยวกับเทคโนโลยีที่อาจเป็นอันตรายได้อย่างไร เขาจะถอดความจากคำพูดของโรเบิร์ต ออพเพนไฮเมอร์ ซึ่งเป็นผู้นำความพยายามของสหรัฐฯ ในการสร้างระเบิดปรมาณูว่า ไปข้างหน้าและทำมัน”
เขาไม่พูดอย่างนั้นอีกต่อไป ( ที่มา )
Hinton กล่าวเมื่อเร็ว ๆ นี้ว่าเราจำเป็นต้องหารือเกี่ยวกับความเสี่ยงของปัญญาประดิษฐ์ แต่เราไม่สามารถศึกษาความเสี่ยงของการระเบิดได้หากอยู่ในกล่องดำ นั่นเป็นเหตุผลว่าทำไมโมเดลจึงต้องเป็นโอเพ่นซอร์สอย่างเร่งด่วนมากขึ้น
LLMs อยู่ในช่วงของการเปลี่ยนแปลงอย่างไรก็ตาม การสร้างแบบจำลองที่ใหญ่ขึ้นเรื่อย ๆ นั้นไม่ยั่งยืนและไม่ได้ให้ประโยชน์เหมือนที่เคยทำ อนาคตของ LLM ต่อไปจะอยู่ในข้อมูลและอาจอยู่ในสถาปัตยกรรมใหม่ที่ไม่ได้ขึ้นอยู่กับความใส่ใจอีกต่อไป
อย่างไรก็ตาม ข้อมูลจะไม่สามารถเข้าถึงได้เหมือนเมื่อก่อน บริษัทต่างๆ เริ่มหยุดการเข้าถึง Microsoft กล่าวว่ายินดีให้บริษัทต่างๆสร้าง ChatGPT เวอร์ชันของตนเอง แต่บริษัทจะไม่เชื่อ
บริษัทบางแห่งกลัวธุรกิจของตน (ดูเหมือนว่า ChatGPT ได้อ้างสิทธิ์เหยื่อรายแรก แล้ว ) และบริษัทอื่นๆ กลัวข้อมูลรั่วไหล หรือพูดง่ายๆ ว่าในที่สุดแล้วเทคโนโลยีก็เข้าถึงได้เกือบทุกบริษัท และแต่ละบริษัทจะสร้างแชทบอทที่ปรับแต่งให้เหมาะกับความต้องการของตน
โดยสรุป เราสามารถเห็นแนวโน้มที่แตกต่างกัน (ซึ่งส่วนหนึ่งเกิดขึ้นแล้ว):
- ความกลัวที่เพิ่มขึ้นของ AI กำลังผลักดันให้มีโมเดลโอเพ่นซอร์ส
- สิ่งนี้นำไปสู่การเผยแพร่โมเดล LLM แบบโอเพ่นซอร์สที่เพิ่มขึ้น ซึ่งจะแสดงให้เห็นว่าคุณสามารถใช้โมเดลขนาดเล็กลงและลดต้นทุนในการจัดตำแหน่งได้
- โมเดล LLM เป็นภัยคุกคามต่อธุรกิจต่างๆ และบริษัทต่างกลัวว่าโมเดลเหล่านี้อาจคุกคามธุรกิจของตน ดังนั้น บริษัทต่างๆ จึงลดการเข้าถึงข้อมูลหรือขอเงินจากบริษัท AI
- การลดต้นทุน ความกลัวต่อการแข่งขัน ความเกี่ยวข้องใหม่สำหรับข้อมูลที่เป็นกรรมสิทธิ์ และความพร้อมใช้งานใหม่ของโมเดลโอเพ่นซอร์สทำให้บริษัทต่างๆ ฝึกฝนแชทบอทของตนเองด้วยข้อมูลของตนเองโดยใช้โมเดลโอเพ่นซอร์ส
หากคุณพบว่าสิ่งนี้น่าสนใจ:
คุณสามารถค้นหาบทความอื่นๆ ของฉัน คุณยังสามารถสมัครสมาชิกเพื่อรับการแจ้งเตือนเมื่อฉันเผยแพร่บทความ คุณสามารถเป็นสมาชิกระดับกลางเพื่อเข้าถึงเรื่องราวทั้งหมดของมัน (ลิงก์พันธมิตรของแพลตฟอร์มที่ฉันได้รับรายได้เล็กน้อยโดยไม่เสียค่าใช้จ่าย) และคุณ ยังสามารถเชื่อมต่อหรือติดต่อฉันบนLinkedIn
นี่คือลิงก์ไปยังที่เก็บ GitHub ของฉัน ซึ่งฉันวางแผนที่จะรวบรวมโค้ดและทรัพยากรมากมายที่เกี่ยวข้องกับแมชชีนเลิร์นนิง ปัญญาประดิษฐ์ และอื่นๆ
หรือคุณอาจสนใจบทความล่าสุดของฉัน: