रैखिक प्रतिगमन के मूल तत्व

Nov 27 2022
परिभाषा रेखीय प्रतिगमन एक पद्धति है जो हमें दो घटनाओं को संबंधित करने की अनुमति देती है। यह दृष्टिकोण नए मूल्यों की भविष्यवाणी करने के लिए वास्तविक डेटा के आधार पर नियम की पहचान करने की अनुमति देता है।

परिभाषा

रेखीय प्रतिगमन एक पद्धति है जो हमें दो घटनाओं को जोड़ने की अनुमति देती है। यह दृष्टिकोण नए मूल्यों की भविष्यवाणी करने के लिए वास्तविक डेटा के आधार पर नियम की पहचान करने की अनुमति देता है। ऐसे एल्गोरिदम और पैकेज हैं जो सरल तरीके से रेखीय प्रतिगमन करते हैं, लेकिन हम यह नहीं समझते हैं कि पर्दे के पीछे क्या चल रहा है। इस प्रस्तुति का उद्देश्य रेखीय प्रतिगमन की गणितीय नींव को उजागर करना है।

प्रक्रिया

विधि को तीन चरणों में विभाजित किया जा सकता है:

  • डेटा का प्रारंभिक दृश्य;
  • मापदंडों का निर्धारण;
  • वक्र पाए गए पैरामीटर उत्पन्न करें।

इस कदम का उद्देश्य यह सत्यापित करना है कि डेटा लगभग रैखिक व्यवहार का पालन करता है या नहीं। अन्यथा, रेखीय प्रतिगमन विधि लागू नहीं की जानी चाहिए। आइए निम्नलिखित डेटसेट पर विचार करें।

हम इन आंकड़ों को प्लॉट कर सकते हैं और उनके व्यवहार की जांच कर सकते हैं। नीचे दी गई छवि में हम देख सकते हैं कि ग्राफ एक रेखीय व्यवहार प्रदर्शित करता है, इसलिए रेखीय प्रतिगमन तकनीक का अनुप्रयोग उचित है।

इस भंडार में मैंने एक अजगर कोड प्रदान किया है जो रैखिक प्रतिगमन का उपयोग करके एक वक्र फिटिंग उत्पन्न करता है, जैसा कि मैंने कहा, गणितीय नींव दबा दी गई है और आंतरिक रूप से क्या होता है इसका हमें कोई पता नहीं है। कोड नीचे दी गई छवि उत्पन्न करता है।

मापदंडों का निर्धारण

वक्र के प्राचलों a और b को ज्ञात करने के लिए हम न्यूनतम वर्ग विधि का प्रयोग करेंगे। इस पद्धति में, मान a और b इस तरह से प्राप्त किए जाते हैं कि Y के प्रेक्षित मानों और X के समान मानों के लिए समायोजित वक्र से प्राप्त अंतरों के वर्गों का योग न्यूनतम होता है। गणितीय रूप से इस विचार को इस प्रकार दर्शाया जा सकता है:

न्यूनतम कॉन्फ़िगरेशन खोजने के लिए हम उपरोक्त अभिव्यक्ति को पैरामीटर ए और बी के संबंध में प्राप्त कर सकते हैं और इसे शून्य के बराबर सेट कर सकते हैं।

यह जानते हुए कि n प्रेक्षणों की संख्या है, हम समीकरण (I) और (II) को समीकरण (III) और (IV) के रूप में इस प्रकार लिख सकते हैं।

पैरामीटर बी निर्धारित करने के लिए, हम पहले समीकरण को एन से विभाजित करते हैं और इसे दूसरे समीकरण में प्रतिस्थापित करने के लिए अलग करते हैं:

दूसरे समीकरण में प्रतिस्थापन:

रेखा के रैखिक गुणांक को ऊपर परिभाषित समीकरण द्वारा आसानी से निर्धारित किया जा सकता है:

हम नीचे दिए गए कोड के माध्यम से scipy पैकेज का उपयोग किए बिना सीधे डेटा से इन पैरामीटर की गणना कर सकते हैं:

और अंत में, रैखिक गुणांक a और कोणीय गुणांक b प्राप्त करने के बाद, हम फ़िट वक्र को प्लॉट कर सकते हैं।