10 หัวข้อและ 50 บทความที่คุณไม่ควรพลาด
เอกสารหลัก 2672 ชิ้น การประชุมเชิงปฏิบัติการ 63 ครั้ง การพูดคุยที่ได้รับเชิญ 7 ครั้งและสุดท้ายเป็นการพบปะกันอีกครั้ง โมเดลภาษา, การวิจัยที่ได้รับแรงบันดาลใจจากสมอง, โมเดลการแพร่กระจาย, เครือข่ายนิวรัลกราฟ... NeurIPS อัดแน่นไปด้วยข้อมูลเชิงลึกด้านการวิจัย AI ระดับโลก และคำแนะนำนี้จะช่วยคุณค้นหาจุดที่จะดึงความสนใจของคุณ
การประชุม Neural Information Processing Systems Conference (NeurIPS) ครั้งที่ 36 กำลังจะเริ่มขึ้น และเราไม่สามารถพูดได้เต็มปากว่าเราตื่นเต้นแค่ไหนที่จะได้ไปที่นั่น เนื่องจากกลายเป็นประเพณีของการประชุมไปแล้ว เราจึงอยากช่วยผู้ชมสำรวจสิ่งที่น่าสนใจแต่ล้นหลามจากเอกสาร 2672 ชุด ชุดข้อมูล & เอกสารอ้างอิงเกณฑ์มาตรฐาน 163 ชุด และเอกสารเวิร์กชอปมากกว่า 700 ฉบับจากเวิร์กชอป 63 เวิร์กช็อป โดย 43 เวิร์กช็อปอยู่ใน- บุคคล.
ในปีนี้ เราได้แบ่งเนื้อหาออกเป็นสิ่งที่เราเชื่อว่าเป็นประเด็นสำคัญ 10 หัวข้อ พร้อมด้วยคำอธิบายสั้น ๆ ของเนื้อหาเหล่านั้น และเอกสาร 5 ฉบับที่คุณไม่ควรพลาดสำหรับแต่ละหัวข้อ หากคุณพบว่าตัวเองรู้สึกทึ่งกับรายงานชิ้นใดชิ้นหนึ่งอย่างไม่มีเหตุผล ให้คลิกที่ปุ่ม ยิ่งกว่ากระดาษแบบนี้แล้วคุณจะพบรายการเอกสารที่เกี่ยวข้องที่ NeurIPS ในหัวข้อ
1. โมเดลภาษาและการกระตุ้นเตือน
หัวข้อการวิจัยที่เป็นที่ต้องการมากที่สุดในด้าน AI โดยเฉพาะอย่างยิ่งตั้งแต่การเปิดตัว GPT-3 ในปี 2020 ได้รับความสนใจเป็นจำนวนมากในการประชุม ด้วยสิ่งพิมพ์ระดับบล็อคบัสเตอร์มากมายจาก Google, DeepMind, OpenAI, Meta, Stanford… พวกคอมพิวเตอร์ขนาดใหญ่ทั้งหมด
คาดว่าจะมีงานมากมายเกี่ยวกับเทคนิค "การกระตุ้นเตือนอย่างง่าย" เช่น เทคนิคลูกโซ่แห่งความคิด (หรือลูกเล่น?) ที่บีบประสิทธิภาพให้มากขึ้นจาก LMs แบบอัตโนมัติที่ได้รับการฝึกฝนล่วงหน้า Multimodality ยังได้รับความสนใจในปีนี้ Flamingo (การมองเห็น + ภาษา) ของ DeepMind เป็นที่นิยมมากที่สุดในกลุ่ม Minerva ของ Google แสดงให้เห็นว่า LM สามารถเก่งคณิตศาสตร์ได้อย่างไรเมื่อได้รับการฝึกฝนล่วงหน้าด้วยข้อมูลที่ถูกต้อง และ InstructGPT แสดงให้เห็นว่าความคิดเห็นของมนุษย์และการเรียนรู้แบบเสริมแรงสามารถทำได้อย่างไร ใช้ในการปรับแต่ง LMs ขนาดใหญ่
1️⃣ ห่วงโซ่แห่งความคิดกระตุ้นการใช้เหตุผลในรูปแบบภาษาขนาดใหญ่
เปิดรีวิว | โปสเตอร์เสมือนจริง | กระดาษแบบนี้
เพียงแจ้ง LM ให้แสดงขั้นตอนการให้เหตุผลแทนคำตอบโดยตรง จะช่วยปรับปรุงประสิทธิภาพได้อย่างมาก ดูผล งานติดตามเช่นSTAR
2️⃣ Flamingo: โมเดลภาษาภาพสำหรับการเรียนรู้เพียงไม่กี่ช็อ ต
เปิดรีวิว | โปสเตอร์เสมือนจริง | กระดาษแบบนี้
DeepMind ขอแนะนำโมเดลเดี่ยวที่ "เรียบง่าย" ซึ่งได้รับการฝึกฝนด้านการมองเห็นและภาษา ตั้งค่าความทันสมัยของงานต่อเนื่องหลายรูปแบบ
3️⃣ การแก้ปัญหาการให้เหตุผลเชิงปริมาณด้วยโมเดลภาษา (Minerva)
เปิดรีวิว | โปสเตอร์เสมือนจริง | กระดาษแบบนี้
LM ขนาดใหญ่ที่ได้รับการฝึกอบรมเกี่ยวกับข้อมูลทางคณิตศาสตร์สามารถบรรลุประสิทธิภาพที่แข็งแกร่งในงานการให้เหตุผลเชิงปริมาณ รวมถึงประสิทธิภาพที่ล้ำสมัยในชุดข้อมูล MATH
4️⃣ คุณสมบัติการกระจายข้อมูลทำให้เกิดการเรียนรู้ในบริบทที่เกิดขึ้นใน Transformers
เปิดรีวิว | โปสเตอร์เสมือนจริง | กระดาษแบบนี้
การฝึกอบรมล่วงหน้าขนาดใหญ่มีแง่มุมใดบ้างที่ขับเคลื่อนการเรียนรู้ในบริบท การกระจายข้อมูลการฝึกอบรมต้องการความ ต่อ เนื่องและกรณีที่ไม่ค่อยเกิดขึ้น จำนวน มาก
5️⃣ ฝึกโมเดลภาษาให้ทำตามคำแนะนำพร้อมคำติชมจากมนุษย์ (InstructGPT)
เปิดรีวิว | โปสเตอร์เสมือนจริง | กระดาษแบบนี้
OpenAI ใช้ Reinforcement Learning from Humans in the Loop (RLHF) เพื่อปรับแต่ง GPT-3 โดยใช้ข้อมูลที่รวบรวมจากมนุษย์ติดฉลาก โมเดลผลลัพธ์ที่เรียกว่า InstructGPT มีประสิทธิภาพดีกว่า GPT-3 ในงาน NLP ต่างๆ
2. แบบจำลองการแพร่กระจาย
จริงอยู่ หากสิ่งใดที่คู่ควรกับมงกุฎเด็กในเมืองที่เจ๋งที่สุดในปี 2022 จะต้องเป็นโมเดลการสร้างข้อความเป็นรูปภาพ ซึ่งส่วนใหญ่ขับเคลื่อนโดยDiffusion Modelsได้แก่ DALL·E 2 ของ OpenAI, Imagen ของ Google หรือการแพร่กระจายแบบเสถียร
ในฐานะที่เป็นสัญญาณของการเป็นผู้ใหญ่ - และเพิ่งจะ 2 ปีนับตั้งแต่ที่พวกเขากลายเป็นที่นิยม! — ปัจจุบัน เทคนิคการสร้างแบบจำลองได้แพร่หลายออกไปนอกเหนือขอบเขตของการสร้างภาพนิ่ง 2 มิติ และกำลังนำไปใช้กับการสังเคราะห์ฉาก 3 มิติ การสร้างวิดีโอ และการเชื่อมต่อโมเลกุล และอื่นๆ ดังที่เราเห็นใน Transformers ในปี 2017 เวลาที่แนวคิดการวิจัยจะกลายเป็นกระแสหลักนั้นสั้นลงเรื่อยๆ
1️⃣ โมเดลการแพร่กระจายข้อความเป็นรูปภาพเหมือนจริงด้วยความเข้าใจภาษาเชิงลึก (อิมเมจ)
เปิดรีวิว | โปสเตอร์เสมือนจริง | เอกสารเพิ่มเติมเช่นนี้
Imagen วิธีง่ายๆ ในการสังเคราะห์ข้อความเป็นรูปภาพโดยใช้โมเดลการแพร่กระจาย
2️⃣ Object Scene Representation Transformer (OSRT)
เปิดรีวิว | โปสเตอร์เสมือนจริง | เอกสารเพิ่มเติมเช่นนี้
โมเดล 3 มิติที่มีประสิทธิภาพสูงซึ่งการแสดงวัตถุแต่ละชิ้นเกิดขึ้นอย่างเป็นธรรมชาติผ่านการสังเคราะห์มุมมองที่แปลกใหม่
3️⃣ แบบจำลอง การฟื้นฟูการแพร่กระจายของ Denoising (DDRM)
เปิดรีวิว | โปสเตอร์เสมือนจริง | เอกสารเพิ่มเติมเช่นนี้
ความละเอียดขั้นสูง การลบภาพเบลอ การลงสี และการลงสีโดยใช้แบบจำลองความน่าจะเป็นการแพร่กระจายแบบแพร่ (Denoising Diffusion Probabilistic Models - DDPM) ที่ผ่านการฝึกอบรมล่วงหน้าโดยไม่มีการฝึกอบรมภายใต้การดูแลเฉพาะปัญหา
4️⃣ การสร้างแบบจำลองการแพร่กระจายที่ยืดหยุ่นของวิดีโอขนาดยาว
เปิดรีวิว | โปสเตอร์เสมือนจริง | เอกสารเพิ่มเติมเช่นนี้
DDPM ใช้กับโดเมนวิดีโอ ในการจับภาพการพึ่งพาระยะยาวระหว่างเฟรม พวกเขานำเสนอสถาปัตยกรรมที่สามารถกำหนดเงื่อนไขได้อย่างยืดหยุ่นบนเซ็ตย่อยของเฟรมวิดีโอใดๆ
5️⃣ EGSDE: การแปลแบบภาพต่อภาพที่ไม่ได้จับคู่ผ่านสมการเชิงอนุพันธ์เชิงอนุพันธ์แบบสโต แคสติกแบบใช้พลังงาน
เปิดรีวิว | โปสเตอร์เสมือนจริง | เอกสารเพิ่มเติมเช่นนี้
สมการเชิงอนุพันธ์สุ่มเชิงอนุพันธ์พลังงาน (EGSDE) ที่ใช้ฟังก์ชันพลังงานที่ได้รับการฝึกฝนล่วงหน้าทั้งในโดเมนต้นทางและเป้าหมายเพื่อเป็นแนวทางในการอนุมานของ SDE ที่ได้รับการฝึกฝนล่วงหน้าสำหรับ Image-to-image (I2I) ที่ไม่ได้จับคู่ที่สมจริงและซื่อสัตย์
3. การเรียนรู้ภายใต้การดูแลตนเอง
Self-Supervised Learning (SSL) ได้กลายเป็นองค์ประกอบสำคัญของ ML สมัยใหม่ ซึ่งตอนนี้มันถูกรวมเข้ากับการวิจัยส่วนใหญ่ไม่ทางใดก็ทางหนึ่ง เป็นครั้งแรกในการเรียนรู้เชิงลึกที่ NLP เป็นผู้นำด้วย BERT ในปี 2018 และ Computer Vision เข้าร่วมกลุ่ม SSL ในภายหลังด้วยเทคนิคที่ประสบความสำเร็จอย่าง SimCLR
ภูมิภาคนี้ของแผนที่ความหมายของเรามีการนำเสนอเทคนิค SSL ใหม่ๆ สำหรับ Computer Vision อย่างมาก: การเรียนรู้จากวิดีโอที่ไม่มีการควบคุมดูแล ผลกระทบของการเพิ่มข้อมูลบนภาพ... แต่เนื้อหาที่สำคัญที่สุดคือ Chinchilla ของ DeepMind: การศึกษาเกี่ยวกับปริมาณของภาษา งบประมาณการฝึกล่วงหน้าของโมเดลควรใช้กับพารามิเตอร์โมเดลและเท่าใดในคลังข้อมูลการฝึกที่ใหญ่ขึ้น (พบว่า LM ขนาดใหญ่ส่วนใหญ่นั้นใหญ่เกินไปหรือ มีการฝึกน้อยเกินไป ) ส่งผลให้ Chinchilla ซึ่งเป็น LM พารามิเตอร์ 70B มีประสิทธิภาพดีกว่าคู่ที่ใหญ่กว่าโดยการฝึกนานกว่า
สุดท้ายนี้ เรายังไม่พลาดเทคนิค SSL ใหม่ๆ (บางส่วน) สำหรับการดึงข้อมูล เช่น ดัชนีการค้นหาที่แตกต่าง
ในขณะที่ SSL กลายเป็นเรื่องธรรมดาไปแล้ว การวิจัยทั้งหมดนี้เป็นข้อพิสูจน์ว่ามีหินมากมายที่ไม่ถูกขุดในพื้นที่นี้พร้อมข้อมูลเชิงลึกใหม่ให้ค้นพบ
1️⃣ การวิเคราะห์เชิงประจักษ์ของการฝึกอบรมแบบจำลองภาษาขนาดใหญ่ที่เหมาะสมที่สุดสำหรับการคำนวณ (Chinchilla)
เปิดรีวิว | โปสเตอร์เสมือนจริง | เอกสารเพิ่มเติมเช่นนี้
เป็นการดีกว่าที่จะฝึกโมเดลภาษาที่เล็กกว่าบนโทเค็นจำนวนมากขึ้น DeepMind นำเสนอสิ่งนี้ด้วยรุ่น Chinchilla 70B ที่มีประสิทธิภาพเหนือกว่ารุ่นที่ใหญ่กว่า เช่น Gopher (280B), GPT-3 (175B) หรือ Megatron-Turing NLG (530B)
2️⃣ VideoMAE: ตัวเข้ารหัสอัตโนมัติที่สวมหน้ากากเป็นผู้เรียนที่มีประสิทธิภาพด้านข้อมูลสำหรับการฝึกอบรมล่วงหน้าวิดีโอที่มีการดูแลตนเอง
เปิดรีวิว | โปสเตอร์เสมือนจริง | เอกสารเพิ่มเติมเช่นนี้
ฝึกการแสดงวิดีโอล่วงหน้าบนวิดีโออย่างประณีต ประเด็นสำคัญ 3 ประการ: อัตราส่วนการกำบังที่สูงนั้นดีที่สุด เทคนิคนี้ใช้ได้ดีแม้กับชุดข้อมูลขนาดเล็ก และคุณภาพ > ปริมาณเมื่อพูดถึงวิดีโอ Petraining ที่ควบคุมดูแลด้วยตนเอง
3️⃣ คุณภาพไม่ใช่ปริมาณ: เกี่ยวกับปฏิสัมพันธ์ระหว่างการออกแบบชุดข้อมูลและความทนทานของ CLIP
เปิดรีวิว | โปสเตอร์เสมือนจริง | เอกสารเพิ่มเติมเช่นนี้
การศึกษาอย่างเป็นระบบของการโต้ตอบระหว่างแหล่งข้อมูลก่อนการฝึกอบรมสำหรับ CLIP น่าแปลกใจ (?) การผสมแหล่งข้อมูลหลายแหล่งไม่จำเป็นต้องให้โมเดลที่ดีกว่า ซึ่งได้รับการยืนยันโดยการวิเคราะห์ทางทฤษฎีของเราเกี่ยวกับโมเดลของเล่น
4️⃣ การเพิ่มข้อมูลมีค่าตัวอย่างหนึ่งพันตัวอย่าง: ช่วงเวลาการวิเคราะห์และการฝึกอบรมที่ไม่มีการสุ่มตัวอย่าง
เปิดรีวิว | โปสเตอร์เสมือนจริง | เอกสารเพิ่มเติมเช่นนี้
การศึกษาเชิงวิเคราะห์ของการเสริมข้อมูล (DA) และผลกระทบต่อพารามิเตอร์ของแบบจำลอง เช่น เมื่อมีการสูญเสียอยู่ในมือ DA ทั่วไปต้องการตัวอย่างหลายหมื่นตัวอย่างเพื่อให้มีการประเมินการสูญเสียอย่างถูกต้องและเพื่อให้แบบจำลองการฝึกมาบรรจบกัน
5️⃣ หน่วยความจำ Transformer เป็นดัชนีการค้นหาที่แยกความแตกต่างได้
เปิดรีวิว | โปสเตอร์เสมือนจริง | เอกสารเพิ่มเติมเช่นนี้
Transformer ตัวเดียวได้รับการฝึกฝนให้ส่งออกตัวระบุเอกสารโดยตรงจาก autoregressive โดยให้เคียวรีเป็นพรอมต์ นอกจากนี้ยังมีการนำเสนอผลงานติดตาม ที่NeurIPS เช่นA Neural Corpus Indexer for Document Retrieval
4. โครงข่ายประสาทเทียมแบบกราฟ
ความแปรปรวน การสร้างโมเลกุล 3 มิติ สมการเชิงอนุพันธ์ย่อย… Graph Neural Networks (GNNs) มีมาสักระยะหนึ่งแล้ว และแม้ว่าพวกเขาจะไม่ได้รับความนิยมระดับคนดังอย่าง Transformers หรือ Diffusion Models แต่พวกเขาก็เติบโตขึ้นเรื่อย ๆ ใน สองสามปีที่ผ่านมา ขยายไปสู่การใช้งาน เช่น การออกแบบยา การแก้สมการเชิงอนุพันธ์ หรือการใช้เหตุผล
ภูมิทัศน์ที่แตกต่างกันนี้สมเหตุสมผล เพราะตามที่ระบุไว้ใน พิมพ์เขียว การเรียนรู้เชิงลึกของเรขาคณิตในทางหนึ่ง GNNs เป็นนามธรรมใหม่บน NNs เพื่อปลดล็อกความคิดจากหลักการแรกเกี่ยวกับวิธีการโยนปัญหาตามอำเภอใจให้เป็นสถาปัตยกรรมที่ถูกต้อง หลีกหนีคำสาปแห่งมิติโดย ใช้ประโยชน์จากความสมมาตรและความแปรปรวน ตัวอย่างเช่น นี่เป็นกุญแจสำคัญในการค้นหาตัวแทนที่ถูกต้องเพื่อแก้สมการเชิงอนุพันธ์ย่อยทางคอมพิวเตอร์หรือทำนายรูปร่างของโมเลกุลอินทรีย์เพื่อออกแบบยาใหม่ได้อย่างมีประสิทธิภาพยิ่งขึ้น
1️⃣ การออกแบบยา 3 มิติแบบ Zero-Shot โดยการร่างและสร้าง (ทะเลทราย)
เปิดรีวิว | โปสเตอร์เสมือนจริง | เอกสารเพิ่มเติมเช่นนี้
วิธีการออกแบบยาแบบ Zero-shot ที่ขับเคลื่อนโดยเทคนิคก่อนการฝึกอบรม วิธีการที่ใช้การเรียนรู้เชิงลึกที่มีอยู่สำหรับการออกแบบยามักจะอาศัยข้อมูลการทดลองที่หายากหรือการจำลองการเชื่อมต่อที่ช้า DESERT แบ่งขั้นตอนการออกแบบออกเป็นช่วงการร่างและขั้นตอนการสร้าง เร่งการสร้างในขณะที่รักษาความแม่นยำสูงไว้
2️⃣ Torsional Diffusion สำหรับการสร้าง Conformer ของโมเลกุล
เปิดรีวิว | โปสเตอร์เสมือนจริง | เอกสารเพิ่มเติมเช่นนี้
การสร้างคอนฟอร์มเมอร์โมเลกุลคล้ายยาผ่านกระบวนการแพร่ในมุมบิด การสร้างคอนฟอร์มเมอร์ที่รวดเร็วและแม่นยำผ่านการสร้างแบบจำลองการแพร่กระจายบนไฮเปอร์โทรัสและแบบจำลองคะแนนจากภายนอกสู่ภายใน ในขณะที่ลำดับความสำคัญเร็วกว่าวิธีการอิงการแพร่กระจายก่อนหน้านี้
3️⃣ MAgNet: ตัวแก้ PDE ของระบบประสาทที่ไม่เชื่อเรื่องพระเจ้าแบบตาข่าย
เปิดรีวิว | โปสเตอร์เสมือนจริง | เอกสารเพิ่มเติมเช่นนี้
สถาปัตยกรรมแบบไม่เชื่อเรื่องพระเจ้าแบบเมชแบบใหม่ที่คาดการณ์วิธีแก้ปัญหาสำหรับ PDE ที่จุดต่อเนื่องเชิงพื้นที่ใดๆ ของโดเมน PDE และสรุปภาพรวมระหว่างเมชและความละเอียดต่างๆ
4️⃣ MACE: ข้อความเทียบเท่าลำดับที่สูงขึ้นผ่านโครงข่ายประสาทเทียมสำหรับสนามพลังที่รวดเร็วและแม่นยำ
เปิดรีวิว | โปสเตอร์เสมือนจริง | เอกสารเพิ่มเติมเช่นนี้
Message Passing NNs (MPNNs) เป็นวิธีที่มีประสิทธิภาพในการสร้างแบบจำลองศักยภาพระหว่างอะตอม แต่ก็ไม่มีประสิทธิภาพ MACE แนะนำการส่งข้อความที่มีลำดับสูงกว่าในลักษณะที่ขนานกันอย่างมากเพื่อให้ได้ SOTA ในเกณฑ์มาตรฐานต่างๆ
5️⃣ การใช้เหตุผลเชิงสัมพันธ์เพียงไม่กี่ครั้งผ่าน Connection Subgraph Pretraining (CSR)
เปิดรีวิว | โปสเตอร์เสมือนจริง | เอกสารเพิ่มเติมเช่นนี้
CSR สามารถคาดการณ์สำหรับงานไม่กี่ช็อตเป้าหมายได้โดยตรงโดยการฝึกอบรมล่วงหน้าที่มีการควบคุมดูแลด้วยตนเองผ่านกราฟความรู้
5. การเรียนรู้การเสริมแรง
การทำให้ตัวแทนผู้เรียนมีประสิทธิภาพมากขึ้นเป็นคำถามสำคัญที่นักวิจัยของ RL ยังคงต้องเผชิญ และ NeurIPS ในปีนี้มีข้อเสนอมากมายเกี่ยวกับวิธีการบรรลุเป้าหมายดังกล่าว ตัวอย่างเช่น การใช้การเรียนรู้แบบออฟไลน์และการเรียนรู้แบบเลียนแบบในวงกว้างเพื่อเอาชนะขั้นตอนการสำรวจที่ไม่มีประสิทธิภาพในขั้นต้น การปรับปรุงเทคนิคการให้สินเชื่อเพื่อนำทางภูมิทัศน์ของรางวัลที่กระจัดกระจายได้ดีขึ้น หรือการใช้แบบจำลองภาษาที่ได้รับการฝึกฝนล่วงหน้าเพื่อเริ่มต้นนโยบายกับบรรพบุรุษของมนุษย์ จุดสนใจอื่นๆ มักจะเกี่ยวกับความทนทานและความสามารถในการทำซ้ำ ซึ่งสัมพันธ์อย่างใกล้ชิดกับประสิทธิภาพในการตั้งค่าแบบปลายเปิดที่ท้าทาย
สุดท้ายนี้ RL ยังเห็นการประยุกต์ใช้ที่ประสบความสำเร็จในด้านต่างๆ เช่น การออกแบบชิปด้วยเอกสารสองสามฉบับเกี่ยวกับหัวข้อนี้ (อย่างจริงจัง ลองดูที่ “แบบนี้อีก!”)
1️⃣ ใช้ภาษาธรรมชาติและนามธรรมของโปรแกรมเพื่อปลูกฝังอคติอุปนัยของมนุษย์ในเครื่องจักร
เปิดรีวิว | โปสเตอร์เสมือนจริง | เอกสารเพิ่มเติมเช่นนี้
ตัวแทนการเรียนรู้เมตาสามารถเรียนรู้อคติอุปนัยของมนุษย์ผ่านการฝึกอบรมร่วมกับตัวแทนจากคำอธิบายภาษาและการเหนี่ยวนำโปรแกรม
2️⃣ MineDojo: สร้างตัวแทนที่เป็นตัวเป็นตนแบบปลายเปิดด้วยความรู้ระดับอินเทอร์เน็ต
เปิดรีวิว | โปสเตอร์เสมือนจริง | เอกสารเพิ่มเติมเช่นนี้
ใช้ประโยชน์จากโมเดลขนาดใหญ่ที่ได้รับการฝึกฝนล่วงหน้าเพื่อติดป้ายกำกับวิดีโอโดยอัตโนมัติพร้อมการดำเนินการเพื่อสร้างชุดข้อมูลขนาดใหญ่สำหรับการเรียนรู้แบบออฟไลน์ เพียงแค่ใช้ข้อมูลวิดีโอจาก Minecraft
3️⃣ MaskPlace: การวางชิปอย่างรวดเร็วผ่านการเรียนรู้การเป็นตัวแทนภาพเสริม
เปิดรีวิว | โปสเตอร์เสมือนจริง | เอกสารเพิ่มเติมเช่นนี้
ตัวแทน RL ที่เรียนรู้ที่จะกระจายส่วนประกอบในการออกแบบชิปซิลิกอนได้ดีกว่ามนุษย์
4️⃣ ใช้เวลาคิดอย่างชาญฉลาด: เร่งความเร็ว MCTS ด้วยการขยายเสมือน
เปิดรีวิว | โปสเตอร์เสมือนจริง | เอกสารเพิ่มเติมเช่นนี้
MCTS ทำให้มีประสิทธิภาพมากขึ้นโดยการจัดสรรงบประมาณการประมวลผลที่สูงขึ้นในสถานะที่ยากขึ้น
5️⃣ Trajectory Balance: ปรับปรุงการกำหนดเครดิตใน GFlowNets
เปิดรีวิว | โปสเตอร์เสมือนจริง | เอกสารเพิ่มเติมเช่นนี้
วัตถุประสงค์การฝึกอบรมใหม่สำหรับเครือข่ายการไหลเชิงกำเนิดที่จัดการกับปัญหาของการกำหนดเครดิต (การดำเนินการใดภายในวิถีที่มีส่วนรับผิดชอบมากที่สุดสำหรับรางวัลสุดท้าย) นำไปสู่การบรรจบกันที่เร็วขึ้นและเหมาะสมยิ่งขึ้นสำหรับการกระจายเป้าหมาย
6. แรงบันดาลใจจากสมอง
อย่าลืมว่า NeurIPS ยังเป็นบ้านของวรรณกรรมที่อยู่ติดกันทางประสาทวิทยาศาสตร์ ท้ายที่สุดแล้วสมองของเราคือระบบประมวลผลข้อมูลประสาท OG ที่จุดประกาย NNs เทียมสมัยใหม่จำนวนมาก
พื้นที่อันหลากหลายนี้เกี่ยวข้องกับการเรียนรู้มากมายจากเทคนิคการสร้างภาพสมอง เช่น fMRI ทางเลือกอื่นนอกเหนือจาก backprop เพื่อการเรียนรู้ที่เป็นลางดียิ่งขึ้นด้วยสิ่งที่เรารู้เกี่ยวกับเซลล์ประสาท โครงข่ายประสาทเทียมที่พุ่งสูงขึ้น และอีกมากมาย!
1️⃣ เรียนรู้เกี่ยวกับโทโพโลยีกราฟโดยพลการผ่านการเข้ารหัสเชิงทำนาย
เปิดรีวิว | โปสเตอร์เสมือนจริง | เอกสารเพิ่มเติมเช่นนี้
Backprop ไม่อนุญาตให้มีการฝึกอบรมบนเครือข่ายที่มีการเชื่อมต่อแบบวนซ้ำหรือย้อนกลับ ซึ่งถูกตั้งสมมติฐานว่ามีความสำคัญในการคำนวณแบบสมอง พวกเขาแสดงให้เห็นว่าการเข้ารหัสเชิงทำนาย (PC) ซึ่งเป็นทฤษฎีของการประมวลผลข้อมูลในคอร์เท็กซ์สามารถใช้ทำการอนุมานและเรียนรู้เกี่ยวกับโทโพโลยีกราฟตามอำเภอใจได้อย่างไร
2️⃣ โครงข่ายประสาทเทียม Spiking ที่พิสูจน์ได้ในทางทฤษฎี
เปิดรีวิว | โปสเตอร์เสมือนจริง | เอกสารเพิ่มเติมเช่นนี้
การตรวจสอบเชิงทฤษฎีเกี่ยวกับกำลังการประมาณค่าและประสิทธิภาพการคำนวณของโครงข่ายประสาทเทียมที่มีการเชื่อมต่อด้วยตนเอง
3️⃣ การเรียนรู้แบบไดนามิกของสมองภายใต้การดูแลตนเองจากข้อมูลการสร้างภาพระบบประสาทแบบกว้าง
เปิดรีวิว | โปสเตอร์เสมือนจริง | เอกสารเพิ่มเติมเช่นนี้
เทคนิคการเรียนรู้ด้วยตนเองแบบใหม่สำหรับข้อมูลการสร้างภาพประสาทที่ได้รับแรงบันดาลใจจากกรอบการเรียนรู้ที่โดดเด่นในการประมวลผลภาษาธรรมชาติ โดยใช้ชุดข้อมูลการสร้างภาพระบบประสาทที่กว้างที่สุดชุดหนึ่งที่ใช้สำหรับการฝึกอบรมล่วงหน้าจนถึงปัจจุบัน
4️⃣ เกี่ยวกับความเสถียรและความสามารถในการปรับขนาดของ Node Perturbation Learning
เปิดรีวิว | โปสเตอร์เสมือนจริง | เอกสารเพิ่มเติมเช่นนี้
การก่อกวนโหนดสามารถปรับขนาดได้เมื่อเทียบกับการกำหนดพารามิเตอร์เกิน แต่ไม่เสถียรเมื่อมีโมเดลที่ไม่ตรงกัน
5️⃣ ทฤษฎีการวิเคราะห์หลักสูตรการเรียนรู้เครือข่ายครู-นักเรียน
เปิดรีวิว | โปสเตอร์เสมือนจริง | เอกสารเพิ่มเติมเช่นนี้
แบบจำลองการเรียนรู้หลักสูตรที่แก้ไขได้และแสดงความคิดเห็นเกี่ยวกับความหมายของ ML และวรรณกรรมจิตวิทยาเชิงทดลอง
7. การทำให้อยู่นอกโดเมน
การสรุปข้อมูลทั่วไปนอกโดเมนและสาเหตุที่เกี่ยวข้องอย่างใกล้ชิดเป็นหัวข้อที่ได้รับความสนใจสูงในการวิจัยเชิงวิชาการ ในขณะที่การวิจัย OOD แบบสแตนด์อโลนยังไม่ได้เจาะเข้าไปในกระแสหลักอย่างสมบูรณ์ มีแนวโน้มที่ปฏิเสธไม่ได้ในวงกว้างในวัฒนธรรมการวัดประสิทธิภาพการเรียนรู้ของเครื่อง ที่มีต่อการดูแลมากขึ้นเกี่ยวกับการสรุปอย่างแข็งแกร่งในสภาวะที่ท้าทาย เช่น 0/2-shot หรือภายใต้การกระจายข้อมูลจำนวนมาก การเปลี่ยนแปลงเนื่องจากคงที่ใน - การประเมินโดเมนได้รับการแคร็กทีละครั้งในอัตราที่ทำลายสถิติ
พื้นที่ — ส่วนใหญ่ในช่วงแรก — ยังคงประสบปัญหาจากการขาดมาตรฐาน ซึ่งเป็นเหตุผลว่าทำไมเราจึงเน้นสิ่งพิมพ์สองสามฉบับในหัวข้อ (2, 3) นอกจากนี้ เรากำลังเน้นเทคนิคทั้งมวลแบบง่ายๆ ไปจนถึงการกำหนดลักษณะทั่วไปของโดเมน (1) การฝังแบบตาราง (4) และกราฟปัจจัยที่เชื่อมต่อกันแบบกระจัดกระจายตามสเกลสำหรับการค้นพบเชิงสาเหตุ (5) ซึ่งแสดงถึงความคืบหน้าในทิศทางการวิจัยที่เราได้เน้นไว้ก่อนหน้านี้ : การใช้ความกระจัดกระจาย + คอขวดของการสื่อสารเพื่อจำกัดโมเดลให้เป็นโมเดลการเรียนรู้ของโลกที่รวบรวมโครงสร้างเชิงสาเหตุที่แข็งแกร่ง
1️⃣ กลุ่มของค่าเฉลี่ย: ปรับปรุงการเลือกแบบจำลองและเพิ่มประสิทธิภาพในการกำหนดลักษณะทั่วไปของโดเมน
เปิดรีวิว | โปสเตอร์เสมือนจริง | เอกสารเพิ่มเติมเช่นนี้
กลยุทธ์ง่ายๆ ที่ไม่มีพารามิเตอร์ไฮเปอร์พารามิเตอร์ของการใช้ค่าเฉลี่ยเคลื่อนที่อย่างง่ายของพารามิเตอร์โมเดลในระหว่างการฝึกอบรมและการรวมเข้าด้วยกันทำให้ SOTA บรรลุเกณฑ์มาตรฐานทั่วไปของโดเมน และสามารถอธิบายได้โดยใช้การแลกเปลี่ยนอคติ-ความแปรปรวน
2️⃣ ประเมินการสรุปข้อมูลทั่วไปนอกการกระจายในการเรียนรู้การถ่ายโอน
เปิดรีวิว | โปสเตอร์เสมือนจริง | เอกสารเพิ่มเติมเช่นนี้
การศึกษาเชิงประจักษ์ขนาดใหญ่ของการสรุปข้อมูลทั่วไปที่ไม่อยู่ในการกระจาย
3️⃣ สถาปัตยกรรมโมดูลาร์เพียงพอหรือไม่
เปิดรีวิว | โปสเตอร์เสมือนจริง | เอกสารเพิ่มเติมเช่นนี้
เมตริกเพื่อศึกษาระบบโมดูลาร์ที่มีสไตล์ผสมผสานระหว่างผู้เชี่ยวชาญที่หลากหลาย ระบบดังกล่าวประสบปัญหาการล่มสลายและความเชี่ยวชาญเฉพาะด้าน และอาจต้องการอคติเชิงอุปนัยเพิ่มเติมเพื่อเอาชนะการเพิ่มประสิทธิภาพย่อยนี้
4️⃣ การฝังสำหรับคุณสมบัติเชิงตัวเลขในการเรียนรู้เชิงลึกแบบตาราง
เปิดรีวิว | โปสเตอร์เสมือนจริง | เอกสารเพิ่มเติมเช่นนี้
การแสดงคุณสมบัติเชิงตัวเลขด้วยเวกเตอร์แทนค่าสเกลาร์สามารถเพิ่มโมเดล DL สำหรับข้อมูลแบบตารางได้อย่างมาก
5️⃣ การค้นพบกราฟปัจจัยเชิงสาเหตุของความแตกต่างขนาดใหญ่
เปิดรีวิว | โปสเตอร์เสมือนจริง | เอกสารเพิ่มเติมเช่นนี้
การใช้กราฟปัจจัยสำหรับการเรียนรู้การค้นพบเชิงสาเหตุขนาดใหญ่พร้อมข้อมูลแทรกแซง
8. ทฤษฎีการเรียนรู้
เอาล่ะ เรามาเริ่มกันด้วยการยอมรับว่าพวกเราหลายคนพบว่าวิชาคณิตศาสตร์หนักๆ ยังมีอะไรอีกมากมายให้เรียนรู้จาก NeurIPS
ตัวอย่างเช่น ชุดขนาดใหญ่ได้รับการพิสูจน์แล้วว่าจำเป็นต่อการเรียนรู้การเป็นตัวแทนให้ประสบความสำเร็จด้วยการเรียนรู้เชิงเปรียบเทียบ สิ่งนี้สมเหตุสมผลโดยสัญชาตญาณ แต่มีคำอธิบายทางสถิติที่มีเหตุผลมากกว่านี้หรือไม่ (1) หรือการรับประกันใดที่เราคาดหวังได้เมื่อใช้ autodiff แบบสุ่มสี่สุ่มห้ากับฟังก์ชันที่ไม่ราบรื่นเพียงพอ (3) หรือภายใต้เงื่อนไขใดที่ทำงานได้ดีใน Out-of-Distribution เป็นไปได้? (2). ตรวจสอบเอกสารด้านล่างหากคุณสนใจคำถามเหล่านี้
1️⃣ ทำไมเราต้องมี Batch ขนาดใหญ่ในการเรียนรู้แบบเปรียบเทียบ? มุมมองแบบ Gradient-Bias
เปิดรีวิว | โปสเตอร์เสมือนจริง | เอกสารเพิ่มเติมเช่นนี้
วิธีการเสริมข้อมูลแบบเบย์เพื่อแยกกลุ่มตัวอย่างเชิงลบเพื่อลดอคติแบบไล่ระดับสีในการเรียนรู้เชิงเปรียบเทียบ
2️⃣ สามารถเรียนรู้การตรวจจับการไม่อยู่ในการกระจายได้หรือไม่?
เปิดรีวิว | โปสเตอร์เสมือนจริง | เอกสารเพิ่มเติมเช่นนี้
ผ่านเลนส์ของทฤษฎีการเรียนรู้ที่น่าจะถูกต้องโดยประมาณ (PAC) งานนี้ศึกษาลักษณะทั่วไปของการตรวจจับ OOD: การจำแนกว่าตัวอย่างอยู่ในการกระจายการฝึกอบรมหรือไม่ พวกเขาพบว่าสิ่งนี้เป็นไปไม่ได้ภายใต้เงื่อนไขบางอย่างและพิสูจน์ทฤษฎีบทอย่างเป็นทางการรอบตัว แต่เงื่อนไขเหล่านี้ส่วนใหญ่ไม่ได้เป็นปัญหาในปัญหาในโลกแห่งความเป็นจริง
3️⃣ การสร้าง ความแตกต่างโดยอัตโนมัติของอัลกอริธึมการวนซ้ำที่ไม่ราบรื่น
เปิดรีวิว | โปสเตอร์เสมือนจริง | เอกสารเพิ่มเติมเช่นนี้
จะเกิดอะไรขึ้นเมื่อคุณใช้ autodiff กับฟังก์ชันที่ไม่ราบรื่นเพียงพอ ส่วนใหญ่ไม่เป็นไร พวกมันมาบรรจบกับอนุพันธ์คลาสสิคอยู่ดี
4️⃣ การแยกความแตกต่างโดยปริยายแบบแยกส่วน ที่มีประสิทธิภาพ
เปิดรีวิว | โปสเตอร์เสมือนจริง | เอกสารเพิ่มเติมเช่นนี้
Autodiff แต่อยู่ในรูปแบบนัย (เช่น เมื่อคุณไม่สามารถแยก f(x) ทางด้านซ้ายของเครื่องหมายเท่ากับ) ดำเนินการใน JAX
5️⃣ Gradient Descent: สุดยอดเครื่องมือเพิ่มประสิทธิภาพ
เปิดรีวิว | โปสเตอร์เสมือนจริง | เอกสารเพิ่มเติมเช่นนี้
การใช้การไล่ระดับสีลงเพื่อปรับแต่งไม่เพียงแต่ไฮเปอร์พารามิเตอร์เท่านั้น แต่ยังรวมถึงไฮเปอร์พารามิเตอร์ด้วย และอื่นๆ... งานนี้แสดงวิธีคำนวณไฮเปอร์เกรเดียนโดยอัตโนมัติด้วยการปรับเปลี่ยนแบ็คโพรพาเกชันที่เรียบง่ายและสวยงาม
9. ความแข็งแกร่งของฝ่ายตรงข้าม, การเรียนรู้แบบรวมศูนย์, การบีบอัด
ความทนทานของฝ่ายตรงข้ามใน ML เป็นสิ่งที่ยาวนานกว่าที่ฉันจำได้ และในปีนี้ก็ไม่แตกต่างกัน (3, 5) สิ่งนี้สามารถเข้าใจได้เนื่องจากเป็นข้อกังวลที่มีความสำคัญสูงเมื่อพูดถึงการใช้แบบจำลองในการใช้งานที่มีความสำคัญต่อความปลอดภัย เช่น การขับขี่ด้วยตนเอง
ในอีกทางหนึ่ง Federated Learning ซึ่งบางครั้งก็แต่งงานกับ Differential Privacy ก็เป็นอีกพื้นที่หนึ่งของการวิจัยที่อุดมสมบูรณ์ซึ่งยังคงต้องหาการใช้งานในแอปพลิเคชันกระแสหลักในโลกแห่งความเป็นจริง (2) ค่ายที่มีการใช้งานอย่างแพร่หลายในโลกแห่งความเป็นจริง การบีบอัด การตัดแต่ง และเทคนิคการเพิ่มความเร็ว/ประสิทธิภาพอื่นๆ (4) ในที่สุด การตัดแต่งกิ่งแบบใหม่ที่ดูที่ข้อมูลการตัดแต่ง ไม่ใช่น้ำหนัก เพื่อฝึก NNs ให้เร็วกว่ากฎหมายมาตราส่วนที่จะอนุญาต! (1)
1️⃣ ก้าวข้ามกฎหมายมาตราส่วนประสาท: เอาชนะกฎหมายมาตราส่วนอำนาจผ่านการตัดแต่งข้อมูล
เปิดรีวิว | โปสเตอร์เสมือนจริง | เอกสารเพิ่มเติมเช่นนี้
ในทางทฤษฎีและปฏิบัติแล้ว การปรับสเกลข้อผิดพลาดแบบกฎหมายกำลังตามขนาดชุดข้อมูลสามารถปรับปรุงได้ผ่านการตัดแต่งข้อมูลอัจฉริยะ
2️⃣ การเรียนรู้แบบสหพันธรัฐแบบตระหนักรู้ในตนเอง
เปิดรีวิว | โปสเตอร์เสมือนจริง | เอกสารเพิ่มเติมเช่นนี้
เราขอเสนออัลกอริธึมการเรียนรู้แบบรวมศูนย์ที่ปรับเปลี่ยนได้สำหรับการปรับเปลี่ยนในแบบของคุณ
3️⃣ เพิ่มความมั่นใจในการประเมินความทนทานของฝ่ายตรงข้าม
เปิดรีวิว | โปสเตอร์เสมือนจริง | เอกสารเพิ่มเติมเช่นนี้
การทดสอบที่ช่วยให้นักวิจัยสามารถค้นหาการประเมินความทนทานของฝ่ายตรงข้ามที่มีข้อบกพร่อง การผ่านการทดสอบนี้สร้างหลักฐานที่น่าสนใจว่าการโจมตีที่ใช้มีพลังเพียงพอในการประเมินความทนทานของโมเดล
4️⃣ การฝึกอบรมบนอุปกรณ์ภายใต้หน่วยความจำ 256KB
เปิดรีวิว | โปสเตอร์เสมือนจริง | เอกสารเพิ่มเติมเช่นนี้
เฟรมเวิร์กสำหรับการฝึกอบรมในอุปกรณ์บนอุปกรณ์ IoT ขนาดเล็ก แม้ในงบประมาณหน่วยความจำจำกัดที่ 256KB
5️⃣ การก่อกวนฝ่ายตรงข้ามที่ได้รับการฝึกฝนไว้ล่วงหน้า
เปิดรีวิว | โปสเตอร์เสมือนจริง | เอกสารเพิ่มเติมเช่นนี้
อัลกอริทึมใหม่ในการสร้างตัวอย่างศัตรูโดยใช้โมเดลที่ผ่านการฝึกอบรมมาล่วงหน้า ซึ่งสามารถหลอกโมเดลที่ได้รับการปรับแต่งมาอย่างดี และด้วยเหตุนี้จึงเผยให้เห็นปัญหาด้านความปลอดภัยของการปรับแต่งโมเดลที่ผ่านการฝึกอบรมมาอย่างดีเพื่อทำงานดาวน์สตรีม
10. ชุดข้อมูลและเกณฑ์มาตรฐาน
สุดท้ายแต่ไม่ท้ายสุด วีรบุรุษผู้โด่งดังของ ML ในขณะที่ความก้าวหน้าดำเนินไปอย่างรวดเร็ว และแม้แต่ชุดข้อมูลสมัยใหม่ก็อิ่มตัวเร็วกว่าที่คาดการณ์ไว้มากที่สุด [ลิงก์ไปยังฝ่ามือและการปรับแต่งคำสั่งอย่างละเอียด] ชุดข้อมูลใหม่ที่วัดปรากฏการณ์ที่น่าสนใจจะต้องเกิดขึ้นเพื่อแทนที่พวกเขา เช่นเดียวกับปีที่แล้ว NeurIPS มีแทร็กพิเศษสำหรับชุดข้อมูลและเอกสารอ้างอิง ( ดูรายชื่อทั้งหมดได้ที่นี่ )
เกณฑ์มาตรฐานที่นำเสนอจำนวนมากมีความน่าสนใจและมีประโยชน์อย่างเหลือเชื่อ ดังนั้นรายการด้านล่างนี้จึงรับประกันได้ว่าคุณจะพลาดเกณฑ์มาตรฐานเหล่านี้ไปบางส่วน ยังไงก็ตามนี้เลย
1️⃣ LAION-5B: ชุดข้อมูลขนาดใหญ่แบบเปิดสำหรับการฝึกอบรมโมเดลข้อความรูปภาพรุ่นต่อไป
เปิดรีวิว | โปสเตอร์เสมือนจริง | เอกสารเพิ่มเติมเช่นนี้
ชุดข้อมูลคู่ข้อความรูปภาพ 5.8B ที่เปิดเผยต่อสาธารณะ และตรวจสอบความถูกต้องโดยสร้างผลลัพธ์ของการฝึกอบรมโมเดล CLIP ที่ล้ำสมัยในมาตราส่วนต่างๆ
2️⃣ DC-BENCH: เกณฑ์มาตรฐานการควบแน่นของชุดข้อมูล
เปิดรีวิว | โปสเตอร์เสมือนจริง | เอกสารเพิ่มเติมเช่นนี้
การควบแน่นชุดข้อมูลมีวัตถุประสงค์เพื่อเรียนรู้ชุดข้อมูลขนาดเล็กที่รวบรวมข้อมูลมากมายที่เข้ารหัสในชุดข้อมูลดั้งเดิม การเปรียบเทียบการควบแน่นยังคงเป็นความท้าทาย ซึ่งเป็นเหตุผลว่าทำไมจึงเสนอเกณฑ์มาตรฐานนี้
3️⃣ NeoRL: เกณฑ์มาตรฐานที่ใกล้เคียงโลกแห่งความจริงสำหรับการเรียนรู้การเสริมแรงแบบออฟไลน์
เปิดรีวิว | โปสเตอร์เสมือนจริง | เอกสารเพิ่มเติมเช่นนี้
เกณฑ์มาตรฐาน RL แบบออฟไลน์ที่ใกล้เคียงความเป็นจริง (NeoRL) เป็นเกณฑ์มาตรฐานโดยเน้นที่ขั้นตอนที่สมบูรณ์สำหรับการปรับใช้ RL แบบออฟไลน์ในแอปพลิเคชันในโลกแห่งความเป็นจริง โดยมีจุดมุ่งหมายเพื่อลดช่องว่างด้านประสิทธิภาพระหว่างการประเมินแบบออฟไลน์และประสิทธิภาพการใช้งานออนไลน์
4️⃣ การประเมินแบบครบวงจรของการเรียนรู้ข้อความลับๆ: กรอบงานและเกณฑ์มาตรฐาน
เปิดรีวิว | โปสเตอร์เสมือนจริง | เอกสารเพิ่มเติมเช่นนี้
การสอดใส่แบ็คดอร์ระหว่างขั้นตอนการฝึกอบรมอาจเป็นวิธีที่มีประสิทธิภาพสำหรับฝ่ายตรงข้ามในการควบคุมระบบ NLP เช่น โมเดลภาษา งานนี้นำเสนอชุดเครื่องมือโอเพ่นซอร์ส OpenBackdoor ที่ช่วยให้สามารถประเมินอย่างเข้มงวดว่ารูปแบบที่มีช่องโหว่ต่อการโจมตีประเภทนี้เป็นอย่างไร
5️⃣ PEER: เกณฑ์มาตรฐานที่ครอบคลุมและหลากหลายสำหรับการทำความเข้าใจลำดับโปรตีน
เปิดรีวิว | โปสเตอร์เสมือนจริง | เอกสารเพิ่มเติมเช่นนี้
เกณฑ์มาตรฐานที่ครอบคลุมและหลากหลายสำหรับการทำความเข้าใจลำดับโปรตีน ซึ่งศึกษาทั้งการเรียนรู้แบบงานเดียวและหลายงาน
การเลือกของเราสิ้นสุดลงที่นี่ แต่การครอบคลุมของ NeurIPS เพิ่งเริ่มต้นขึ้น! เราจะทวีตสดจากนิวออร์ลีนส์ในระหว่างการประชุม ดังนั้นอย่าลืมติดตามเราบน Twitter @zetavectorเพื่อติดตามทุกสิ่งที่เกิดขึ้นที่นั่น!