เหตุใดเราจึงต้องมีการสุ่มตัวอย่างที่สำคัญ

Jan 04 2021

ฉันกำลังศึกษาวิธีการปรับปรุงนโยบายนอกนโยบาย จากนั้นฉันก็พบสุ่มตัวอย่างสำคัญ ฉันเข้าใจคณิตศาสตร์ที่อยู่เบื้องหลังการคำนวณอย่างสมบูรณ์ แต่ฉันสงสัยว่าตัวอย่างที่ใช้ได้จริงของการสุ่มตัวอย่างความสำคัญคืออะไร

ตัวอย่างเช่นในวิดีโอมีการบอกว่าเราต้องคำนวณมูลค่าที่คาดหวังของลูกเต๋าเอนเอียงที่นี่$g(x)$ในแง่ของมูลค่าที่คาดหวังของลูกเต๋ายุติธรรม $f(x)$. นี่คือภาพหน้าจอของวิดีโอ

ทำไมเราถึงต้องการสิ่งนั้นในเมื่อเรามีการแจกแจงความน่าจะเป็นของลูกเต๋าเอนเอียง?

คำตอบ

7 DavidIreland Jan 04 2021 at 16:20

โดยทั่วไปการสุ่มตัวอย่างความสำคัญจะใช้เมื่อการกระจายความสนใจเป็นตัวอย่างที่ยากเช่นการดึงตัวอย่างจากการแจกแจงอาจมีค่าใช้จ่ายสูงหรือเมื่อทราบการแจกแจงเฉพาะค่าคงที่แบบทวีคูณเท่านั้นเช่นในสถิติแบบเบย์ที่เป็น ยากที่จะคำนวณความเป็นไปได้เล็กน้อย นั่นคือ

$$p(\theta|x) = \frac{p(x|\theta)p(\theta)}{p(x)} \propto p(x|\theta)p(\theta)$$

ที่ไหน $p(x)$เป็นความเป็นไปได้เล็กน้อยของเราที่อาจจะยากดังนั้นเราจึงไม่สามารถคำนวณด้านหลังแบบเต็มได้ดังนั้นจึงต้องใช้วิธีการอื่นในการสร้างตัวอย่างจากการแจกแจงนี้ เมื่อฉันพูดว่ายากให้สังเกตว่า

$$p(x) = \int_{\Theta} p(x|\theta)p(\theta) d\theta$$

และยากมากในที่นี้หมายความว่า a) อินทิกรัลไม่มีโซลูชันเชิงวิเคราะห์หรือ b) วิธีการเชิงตัวเลขสำหรับการคำนวณอินทิกรัลนี้อาจมีราคาแพงเกินไปที่จะรัน

ในตัวอย่างของตัวอย่างการตายของคุณคุณถูกต้องที่คุณสามารถคำนวณความคาดหวังทางทฤษฎีของลูกเต๋าอคติได้ในเชิงวิเคราะห์และนี่อาจเป็นการคำนวณที่ค่อนข้างง่าย อย่างไรก็ตามเพื่อกระตุ้นว่าเหตุใดการสุ่มตัวอย่างที่สำคัญจึงอาจมีประโยชน์ในสถานการณ์นี้ให้พิจารณาคำนวณความคาดหวังโดยใช้วิธีมอนติคาร์โล มันจะง่ายกว่ามากในการสุ่มตัวอย่างจำนวนเต็มแบบสุ่มตั้งแต่ 1-6 และคำนวณอัตราส่วนการสุ่มตัวอย่างที่สำคัญ$x \frac{g(x)}{f(x)}$ มากกว่าที่จะดึงตัวอย่างจากลูกเต๋าอคติไม่น้อยเพราะภาษาโปรแกรมส่วนใหญ่ได้สร้างวิธีการสุ่มตัวอย่างจำนวนเต็ม

เนื่องจากคำถามของคุณถูกแท็กว่าเป็นการเรียนรู้แบบเสริมกำลังฉันจะเพิ่มว่าเหตุใดจึงมีประโยชน์ในโดเมน RL เหตุผลหนึ่งคืออาจเป็นเพราะนโยบายดอกเบี้ยของเรามีราคาแพงในการสุ่มตัวอย่างดังนั้นเราจึงสามารถสร้างการดำเนินการจากนโยบายง่ายๆอื่น ๆ ได้ในขณะที่ยังคงเรียนรู้เกี่ยวกับนโยบายผลประโยชน์ ประการที่สองเราอาจสนใจนโยบายที่กำหนด (โลภ) แต่ยังสามารถสำรวจได้ดังนั้นเราจึงสามารถมีการกระจายนอกนโยบายที่สำรวจบ่อยขึ้นมาก

หมายเหตุ: อาจไม่ชัดเจนว่าคุณจะใช้การสุ่มตัวอย่างความสำคัญได้อย่างไรหากทราบว่าการแจกแจงเป็นค่าคงที่เท่านั้นดังนั้นโปรดดูคำตอบนี้สำหรับคำอธิบาย