การทำความเข้าใจ 'ความก้าวร้าว' ของเชือกการเลือกแบบก้าวไปข้างหน้าและการเลือกชุดย่อยที่ดีที่สุดใน Hastie, T. , Tibshirani, R. & Tibshirani, RJ (2017)
Hastie et al. (2017) อธิบายว่าวิธีการที่กล่าวถึงข้างต้นทำงานอย่างไรโดยขึ้นอยู่กับอัตราส่วนสัญญาณต่อเสียงรบกวน (SNR) ที่มี 'ความก้าวร้าว' ที่แตกต่างกัน ตอนนี้ฉันไม่เข้าใจว่าทำไมวิธีการต่างๆจึงแตกต่างกันไปตามความก้าวร้าว (หมายถึงจำนวนตัวทำนายที่รวมอยู่ในแบบจำลองขั้นสุดท้าย?) และสิ่งนี้เกี่ยวข้องกับ SNR อย่างไร ฉันคิดว่าฉันเข้าใจการแลกเปลี่ยนอคติและความแปรปรวนและความสัมพันธ์กับประสิทธิภาพที่ดีขึ้นของบ่วงบาศในบางสถานการณ์ แต่ผู้เขียนให้คำอธิบายเพิ่มเติมที่ฉันไม่เข้าใจ
ในคำอธิบายของพวกเขาผู้เขียนเขียนว่า
"ค่าติดตั้งจากเชือก (สำหรับค่าคงที่ $\lambda \geq 0$) เป็นฟังก์ชันต่อเนื่องของ y (Zou et al., 2007; Tibshirani and Taylor, 2012) ในขณะที่ค่าติดตั้งจากไปข้างหน้าทีละขั้นและการเลือกชุดย่อยที่ดีที่สุด (สำหรับคงที่ $k \geq 1$) กระโดดไม่ต่อเนื่องขณะที่ y เคลื่อนที่ข้ามขอบเขตการตัดสินใจสำหรับเซตที่ใช้งานอยู่ "(น. 3)
ใครช่วยอธิบายให้ฉันเข้าใจได้บ้างว่า 'ขอบเขตการตัดสินใจ' คืออะไรและเซตที่ใช้งานอยู่มีความหมายว่าอย่างไร (ชุดตัวทำนายที่เลือก) ผู้เขียนยังกล่าวถึงความก้าวร้าวกับระดับของเสรีภาพซึ่งเป็นจุดที่ฉันไม่สามารถเข้าใจได้
ฉันขอขอบคุณคำอธิบายที่เข้าใจง่ายนอกเหนือจากสมการใด ๆ เพราะฉันไม่มีพื้นฐานทางคณิตศาสตร์ที่ดี
Hastie, T. , Tibshirani, R. , & Tibshirani, RJ (2017). การเปรียบเทียบเพิ่มเติมของการเลือกชุดย่อยที่ดีที่สุดการเลือกตามขั้นตอนไปข้างหน้าและเชือก ArXiv: 1707.08692 [สถิติ].http://arxiv.org/abs/1707.08692
คำตอบ
จากการใช้งานในกระดาษที่เชื่อมโยง "ชุดที่ใช้งานอยู่" คือชุดของตัวทำนายที่จะถูกเพิ่มเข้าไปในแบบจำลองขณะที่สร้างขึ้น ดูการใช้วลีเริ่มต้นเกี่ยวกับการก้าวไปข้างหน้าโดยคุณเริ่มต้นด้วย "ชุดที่ใช้งานอยู่" ว่างเปล่าและเพิ่มตัวทำนายลงในชุดตามลำดับ
สมมติว่านี่คือแบบจำลองการถดถอยเชิงเส้นดังนั้นเกณฑ์ของคุณในการตัดสินใจเลือกโมเดล "ดีที่สุด" จึงเกี่ยวข้องกับความแตกต่างกำลังสองระหว่างค่าที่สังเกตได้ของผลลัพธ์ $y$ และค่าที่คาดการณ์ไว้ $\hat y$. ปัญหาคือจะมีเสียงรบกวนในค่าที่สังเกตได้อย่างไร$y$ ก่อให้เกิดปัญหาในการคาดคะเนจากแบบจำลอง "ดีที่สุด" ที่เลือกโดยอิงจากข้อมูลที่สังเกตได้
สมมติว่าคุณเหมาะสมโดยไปข้างหน้าทีละขั้นหรือชุดย่อยที่ดีที่สุดและสัญญาณรบกวนแบบสุ่มในชุดค่าที่สังเกตได้ $y$หมายความว่าเกณฑ์ความผิดพลาดกำลังสองของคุณจะผลักตัวเลือกของโมเดลที่ "ดีที่สุด" จากตัวทำนาย 3 ตัวไปเป็นตัวทำนาย 4 ตัว นั่นเป็นการข้ามขอบเขตการตัดสินใจ เนื่องจากมีการเพิ่มตัวทำนายใหม่ทั้งหมดค่าที่คาดการณ์ไว้$\hat y$สำหรับชุดของค่าตัวทำนายใด ๆ จะแตกต่างกันไปตามการกระโดดระหว่างโมเดลทั้งสองดังนั้นการคาดการณ์ในภายหลังอาจขึ้นอยู่กับเสียงรบกวนในการสังเกตดั้งเดิมเป็นอย่างมาก คุณอาจคิดว่าวิธีนี้เป็นความเสี่ยงที่วิธีการเหล่านี้อาจพยายามทำให้เสียงรบกวนในตัวอย่างข้อมูลหนึ่ง ๆ
ด้วยเชือกคุณไม่เพียงแค่ปรับจำนวนตัวทำนายเมื่อคุณเปลี่ยนค่าการลงโทษ $\lambda$. คุณกำลังปรับการลงโทษของขนาดสัมประสิทธิ์การถดถอยที่สอดคล้องกัน ดังนั้นเสียงสุ่มใด ๆ ในการสังเกตของ$y$ จะนำไปสู่การเปลี่ยนแปลงอย่างต่อเนื่องแทนที่จะเป็นขั้นตอนในการคาดการณ์ขั้นสุดท้าย $\hat y$ทำโดยรุ่น บนพื้นฐานดังกล่าวถือได้ว่า "ก้าวร้าว" น้อยลงในการสร้างแบบจำลองเนื่องจากการคาดการณ์ขั้นสูงสุดมักจะไม่ทำให้เสียงรบกวนมากเกินไปในข้อมูลต้นฉบับ
ในการตอบกลับความคิดเห็น
จากISLRหน้า 35 (มี$\hat f$ แทนค่าที่คาดการณ์) โดยอธิบายถึงการแลกเปลี่ยนความแปรปรวนของอคติ:
ผลต่างหมายถึงจำนวนที่$\hat f$ จะเปลี่ยนไปหากเราประเมินโดยใช้ชุดข้อมูลการฝึกอบรมอื่น
นั่นคือสิ่งที่โต้แย้งข้างต้นเกี่ยวกับ การเปลี่ยนเสียงรบกวนเล็กน้อยในชุดฝึกสามารถสร้างความแตกต่างอย่างมากในการคาดการณ์จากแบบจำลองที่คิดค้นโดยวิธีขั้นตอนหรือวิธีย่อยที่ดีที่สุด การลงโทษที่มีอยู่ในเชือกช่วยลดความแปรปรวนในความหมายของคำนั้น
วิธีการทีละขั้นตอนและวิธีการย่อยที่ดีที่สุดมีความสัมพันธ์กับ "ความไม่แน่นอน" มากขึ้นหรือไม่อาจขึ้นอยู่กับคำจำกัดความของคำนั้น ถ้าตาม "ความไม่เสถียร" คุณหมายถึงความแตกต่างในชุดตัวทำนายสุดท้ายที่เลือกเมื่อคุณย้ายจากชุดการฝึกไปเป็นชุดการฝึกวิธีการเลือกตัวทำนายทั้งหมดรวมถึงเชือกมีความไม่เสถียรนั้น ลองสร้างแบบจำลองสำหรับตัวอย่าง bootstrap ซ้ำ ๆ จากชุดข้อมูลเพื่อแสดงความไม่เสถียรประเภทนั้น
ในทางกลับกันด้วยข้อมูลการฝึกอบรมที่มีขนาดเท่ากันจำนวนองศาอิสระที่มีประสิทธิผลที่มากขึ้นถูกใช้โดยวิธีการทีละขั้นตอนและวิธีการย่อยที่ดีที่สุดทำให้พวกเขามีแนวโน้มที่จะติดตั้งมากเกินไปมากกว่าการบ่วงบาศ การใส่มากเกินไปนั้นรวมอยู่ในการใช้คำว่า "ความแปรปรวน" ข้างต้นแล้วดังนั้นหาก "ความไม่แน่นอน" คุณหมายถึง "ความแปรปรวน" ที่สูงก็เป็นเช่นนั้น แม้ว่าแบบจำลองเชือกที่ได้รับการฝึกฝนในชุดการฝึกอบรมที่แตกต่างกันจะแตกต่างกันในแง่ของการคาดการณ์ที่คงไว้ แต่ก็มีโอกาสน้อยที่จะแตกต่างกันในแง่ของการคาดการณ์
ในที่สุดจำนวนองศาอิสระที่มากขึ้นหมายความว่าค่า p ที่คำนวณอย่างไร้เดียงสาสำหรับแบบจำลองขั้นตอนและแบบย่อยที่ดีที่สุดไม่น่าเชื่อถือ พวกเขาไม่คำนึงถึงการใช้ข้อมูลเพื่อกำหนดรูปแบบ