พื้นฐานของการถดถอยเชิงเส้น
คำนิยาม
การถดถอยเชิงเส้นเป็นวิธีการที่ช่วยให้เราสามารถเชื่อมโยงสองปรากฏการณ์ วิธีการนี้ช่วยให้สามารถระบุกฎตามข้อมูลจริงเพื่อทำนายค่าใหม่ได้ มีอัลกอริทึมและแพ็คเกจที่ทำการถดถอยเชิงเส้นอย่างง่าย ๆ แต่เราไม่เข้าใจว่าเกิดอะไรขึ้นหลังม่าน วัตถุประสงค์ของการนำเสนอนี้คือเพื่อแสดงพื้นฐานทางคณิตศาสตร์ของการถดถอยเชิงเส้น
วิธีการ
วิธีการสามารถแบ่งออกเป็นสามขั้นตอน:
- มุมมองเริ่มต้นของข้อมูล
- การกำหนดพารามิเตอร์
- สร้างพารามิเตอร์ที่พบเส้นโค้ง
วัตถุประสงค์ของขั้นตอนนี้คือเพื่อตรวจสอบว่าข้อมูลเป็นไปตามพฤติกรรมเชิงเส้นโดยประมาณหรือไม่ มิฉะนั้นไม่ควรใช้วิธีการถดถอยเชิงเส้น ลองพิจารณาชุดวันที่ต่อไปนี้
เราสามารถพล็อตข้อมูลเหล่านี้และตรวจสอบพฤติกรรมได้ ในภาพด้านล่าง เราจะเห็นว่ากราฟแสดงพฤติกรรมเชิงเส้น ดังนั้นการประยุกต์ใช้เทคนิคการถดถอยเชิงเส้นจึงถือว่าสมเหตุสมผล
ในที่เก็บข้อมูลนี้ ฉันได้จัดเตรียมโค้ดไพธอนที่สร้างเส้นโค้งที่เหมาะสมโดยใช้การถดถอยเชิงเส้น ดังที่ฉันได้กล่าวไว้ พื้นฐานทางคณิตศาสตร์ถูกระงับ และเราไม่รู้ว่าเกิดอะไรขึ้นภายใน รหัสสร้างภาพด้านล่าง
การกำหนดพารามิเตอร์
ในการกำหนดพารามิเตอร์ a และ b ของเส้นโค้ง เราจะใช้วิธีกำลังสองน้อยที่สุด ในวิธีนี้ ค่า a และ b จะได้มาในลักษณะที่ผลรวมของกำลังสองของผลต่างระหว่างค่าที่สังเกตได้ของ Y และค่าที่ได้จากเส้นโค้งที่ปรับแล้วสำหรับค่าเดียวกันของ X มีค่าน้อยที่สุด ในทางคณิตศาสตร์ ความคิดนี้สามารถแสดงเป็น:
ในการค้นหาการกำหนดค่าขั้นต่ำ เราสามารถหาค่านิพจน์ด้านบนที่เกี่ยวข้องกับพารามิเตอร์ a และ b และตั้งค่าเท่ากับศูนย์
เมื่อรู้ว่า n คือจำนวนของการสังเกต เราสามารถเขียนสมการ (I) และ (II) เป็นสมการ (III) และ (IV) ได้ดังนี้
ในการกำหนดพารามิเตอร์ b เราหารสมการแรกด้วย n และแยก a เพื่อแทนที่ในสมการที่สอง:
การแทนที่ในสมการที่สอง:
ค่าสัมประสิทธิ์เชิงเส้นของเส้นสามารถกำหนดได้ง่ายโดยสมการที่กำหนดไว้ข้างต้น:
เราสามารถคำนวณพารามิเตอร์เหล่านี้ได้โดยตรงจากข้อมูลโดยไม่ต้องใช้แพ็คเกจ scipy ผ่านโค้ดด้านล่าง:
และสุดท้าย หลังจากได้ค่าสัมประสิทธิ์เชิงเส้น a และค่าสัมประสิทธิ์เชิงมุม b แล้ว เราก็สามารถพล็อตเส้นโค้งพอดีได้