डीमिस्टिफाइंग लॉजिस्टिक रिग्रेशन: मैथमेटिकल फाउंडेशन्स, यूज केसेज, डीप लर्निंग, पायथन कोड
परिचय
लॉजिस्टिक रिग्रेशन, एक लोकप्रिय सांख्यिकीय पद्धति है जिसका उपयोग भविष्यवाणी विश्लेषण के लिए किया जाता है, यह सामान्यीकृत रैखिक मॉडल (जीएलएम) का एक प्रकार है जो श्रेणीबद्ध आश्रित चर से संबंधित है। लीनियर रिग्रेशन के विपरीत, लॉजिस्टिक रिग्रेशन उन स्थितियों के लिए डिज़ाइन किया गया है जहाँ आउटपुट वैरिएबल बाइनरी या डाइकोटोमस है, यानी इसके केवल दो संभावित परिणाम हैं। इस शक्तिशाली तकनीक में स्वास्थ्य सेवा, वित्त और सामाजिक विज्ञान सहित विभिन्न डोमेन में अनुप्रयोग हैं। इस व्यापक लेख में, हम लॉजिस्टिक रिग्रेशन के उपयोग के मामलों का पता लगाएंगे और इस बहुमुखी तकनीक को रेखांकित करने वाले गणित में तल्लीन होंगे।
रसद प्रतिगमन: मूल बातें
लॉजिस्टिक रिग्रेशन एक सुपरवाइज्ड लर्निंग एल्गोरिथम है जो एक या एक से अधिक भविष्यवक्ता चर के आधार पर होने वाली घटना की संभावना को मॉडल करता है। यह लॉजिस्टिक फ़ंक्शन का उपयोग करके संभावनाओं का अनुमान लगाकर आश्रित चर और स्वतंत्र चर के बीच संबंध स्थापित करता है।
लॉजिस्टिक फ़ंक्शन, जिसे सिग्मॉइड फ़ंक्शन के रूप में भी जाना जाता है, एक एस-आकार का वक्र है जो किसी भी वास्तविक-मूल्यवान इनपुट को 0 और 1 के बीच के मान पर मैप करता है। इसे इस प्रकार परिभाषित किया गया है:
पी (एक्स) = 1 / (1 + ई^(-x))
जहाँ P(x) घटना के होने की प्रायिकता है और e प्राकृतिक लघुगणक का आधार है, लगभग 2.718। लॉजिस्टिक फ़ंक्शन का उपयोग किया जाता है क्योंकि यह उन संभावनाओं को प्रभावी ढंग से मैप कर सकता है जो स्वाभाविक रूप से 0 और 1 के बीच विवश हैं।
लॉजिस्टिक रिग्रेशन का गणित
लॉजिस्टिक प्रतिगमन रैखिक प्रतिगमन की अवधारणा पर आधारित है, जो स्वतंत्र और आश्रित चर के बीच एक रैखिक संबंध मानता है। हालाँकि, लॉजिस्टिक रिग्रेशन इस संबंध को स्थापित करने के लिए लॉजिस्टिक फ़ंक्शन को नियोजित करता है।
रसद प्रतिगमन समीकरण द्वारा दिया गया है:
लॉग (पी (एक्स) / (1 - पी (एक्स))) = β0 + β1 * x1 + β2 * x2 + … + βn * xn
कहाँ:
- P(x) घटना के घटित होने की प्रायिकता है।
- β0, β1, …, βn गुणांक हैं, जो घटना घटित होने की संभावना पर प्रत्येक स्वतंत्र चर (x1, x2, …, xn) के प्रभाव का प्रतिनिधित्व करते हैं।
- log(P(x) / (1 — P(x))) लॉग-ऑड्स या ऑड्स अनुपात का लघुगणक है।
लॉजिस्टिक रिग्रेशन के मामलों का उपयोग करें
लॉजिस्टिक रिग्रेशन में विभिन्न डोमेन में अनुप्रयोगों की एक विस्तृत श्रृंखला है। कुछ सामान्य उपयोग के मामलों में शामिल हैं:
ए हेल्थकेयर
- रोग के परिणामों की भविष्यवाणी करना: लॉजिस्टिक रिग्रेशन का उपयोग आयु, लिंग और चिकित्सा इतिहास जैसे कारकों के आधार पर एक विशिष्ट बीमारी विकसित करने वाले रोगी की संभावना को मॉडल करने के लिए किया जाता है।
- चिकित्सा उपचार की प्रभावकारिता का आकलन: यह उपचार और नियंत्रण समूहों के परिणामों की तुलना करके उपचार की प्रभावशीलता का निर्धारण करने में मदद करता है।
- क्रेडिट जोखिम विश्लेषण: लॉजिस्टिक रिग्रेशन को क्रेडिट इतिहास, आय और अन्य वित्तीय चर के आधार पर ऋण पर चूक करने वाले उधारकर्ता की संभावना का अनुमान लगाने के लिए नियोजित किया जाता है।
- ग्राहक मंथन भविष्यवाणी: यह कंपनियों को उन ग्राहकों की पहचान करने में मदद करता है जो अपनी सेवाओं को बंद करने के जोखिम में हैं, लक्षित प्रतिधारण प्रयासों को सक्षम करते हैं।
- मतदान व्यवहार विश्लेषण: लॉजिस्टिक प्रतिगमन जनसांख्यिकीय और सामाजिक आर्थिक कारकों के आधार पर किसी विशेष उम्मीदवार के लिए मतदान करने वाले व्यक्तियों की संभावना को मॉडल कर सकता है।
- एट्रिशन मॉडलिंग: इसका उपयोग नौकरी से संतुष्टि, वेतन और काम के माहौल जैसे कारकों के आधार पर कर्मचारी टर्नओवर की भविष्यवाणी करने के लिए किया जाता है।
लॉजिस्टिक प्रतिगमन कई मान्यताओं पर निर्भर करता है, जिनमें शामिल हैं:
- रैखिकता: लॉजिस्टिक प्रतिगमन घटना के लॉग-ऑड्स और भविष्यवक्ता चर के बीच एक रैखिक संबंध मानता है
- अवलोकनों की स्वतंत्रता: डेटासेट में प्रत्येक अवलोकन दूसरों से स्वतंत्र होना चाहिए।
- बहुसंरेखता का अभाव: पूर्वसूचक चरों को एक दूसरे के साथ अत्यधिक सहसंबद्ध नहीं होना चाहिए, क्योंकि इससे अस्थिर अनुमान हो सकते हैं और मॉडल की व्याख्या में बाधा आ सकती है।
- बड़ा नमूना आकार: सटीक और विश्वसनीय परिणाम उत्पन्न करने के लिए लॉजिस्टिक प्रतिगमन को आमतौर पर बड़े नमूने के आकार की आवश्यकता होती है।
- बाइनरी परिणामों तक सीमित: लॉजिस्टिक रिग्रेशन मुख्य रूप से बाइनरी वर्गीकरण समस्याओं के लिए डिज़ाइन किया गया है। मल्टी-क्लास वर्गीकरण समस्याओं के लिए, मल्टीनोमियल लॉजिस्टिक रिग्रेशन या वन-बनाम-रेस्ट रणनीतियों जैसे एक्सटेंशन लागू किए जा सकते हैं।
- जटिल संबंधों को पकड़ने में असमर्थता: लॉजिस्टिक प्रतिगमन चर के बीच जटिल संबंधों को मॉडल करने के लिए संघर्ष कर सकता है, खासकर जब बातचीत या गैर-रैखिकताएं मौजूद हों।
- आउटलेर्स के प्रति संवेदनशील: एल्गोरिथ्म आउटलेर्स के प्रभाव के प्रति अतिसंवेदनशील है, जो गुणांक और मॉडल के प्रदर्शन को महत्वपूर्ण रूप से प्रभावित कर सकता है।
लॉजिस्टिक रिग्रेशन मॉडल के प्रदर्शन का मूल्यांकन करने के लिए, कई मेट्रिक्स नियोजित किए जा सकते हैं, जैसे:
- भ्रम मैट्रिक्स: एक तालिका जो मॉडल द्वारा निर्मित वास्तविक सकारात्मक, वास्तविक नकारात्मक, झूठी सकारात्मक और झूठी नकारात्मक का सारांश देती है।
- सटीकता: मॉडल द्वारा की गई सही भविष्यवाणियों का अनुपात।
- प्रेसिजन: कुल अनुमानित पॉज़िटिव में से वास्तविक पॉज़िटिव का अनुपात।
- याद करें: वास्तविक सकारात्मक में से वास्तविक सकारात्मक का अनुपात।
- F1 स्कोर: असंतुलित डेटासेट से निपटने के दौरान उपयोगी सटीक और रिकॉल का हार्मोनिक माध्य।
लॉजिस्टिक रिग्रेशन मॉडल के प्रदर्शन को बेहतर बनाने के लिए, इस पर विचार करें:
- फ़ीचर इंजीनियरिंग: चर के बीच संबंधों को बेहतर ढंग से पकड़ने के लिए नई सुविधाएँ बनाएँ या मौजूदा सुविधाओं को बदलें।
- फ़ीचर चयन: शोर को कम करने और मॉडल की व्याख्या में सुधार करने के लिए अप्रासंगिक या अनावश्यक सुविधाओं को हटा दें।
- नियमितीकरण: ओवरफिटिंग को रोकने और मॉडल के सामान्यीकरण को बढ़ाने के लिए एल1 या एल2 नियमितीकरण जैसी तकनीकों को लागू करें।
लॉजिस्टिक रिग्रेशन गहरी शिक्षा और परसेप्ट्रॉन से निकटता से संबंधित है, क्योंकि यह अधिक उन्नत तंत्रिका नेटवर्क के विकास की नींव के रूप में कार्य करता है। लॉजिस्टिक रिग्रेशन को सिंगल-लेयर परसेप्ट्रॉन के रूप में देखा जा सकता है, जो एक कृत्रिम तंत्रिका नेटवर्क का सबसे सरल रूप है। लॉजिस्टिक रिग्रेशन और परसेप्ट्रॉन दोनों का उपयोग बाइनरी वर्गीकरण कार्यों के लिए किया जाता है, और उनका कनेक्शन सक्रियण फ़ंक्शन और सीखने की प्रक्रिया में निहित है।
लॉजिस्टिक रिग्रेशन एक एक्टिवेशन फंक्शन के रूप में
तंत्रिका नेटवर्क के संदर्भ में, लॉजिस्टिक फ़ंक्शन या सिग्मॉइड फ़ंक्शन को अक्सर सक्रियण फ़ंक्शन के रूप में उपयोग किया जाता है। लॉजिस्टिक फ़ंक्शन इनपुट मानों को 0 और 1 के बीच की सीमा में मैप करता है, जिसे बाइनरी वर्गीकरण कार्यों में सकारात्मक वर्ग की संभावना के रूप में व्याख्या किया जा सकता है।
एक परसेप्ट्रॉन में एक इनपुट लेयर, वेट और एक एक्टिवेशन फंक्शन होता है, जो लॉजिस्टिक फंक्शन हो सकता है। जब लॉजिस्टिक फ़ंक्शन को परसेप्ट्रॉन में सक्रियण फ़ंक्शन के रूप में उपयोग किया जाता है, तो परसेप्ट्रॉन अनिवार्य रूप से एक लॉजिस्टिक रिग्रेशन मॉडल बन जाता है। परसेप्ट्रॉन के आउटपुट की गणना निम्नानुसार की जा सकती है:
P(x) = 1 / (1 + e^(-(β0 + β1 * x1 + β2 * x2 + … + βn * xn)))
जहां P(x) धनात्मक वर्ग की प्रायिकता है, और β0, β1, …, βn प्रत्येक इनपुट सुविधा (X1, x2, …, xn) को निर्दिष्ट भार हैं।
सीखने की प्रक्रिया
लॉजिस्टिक रिग्रेशन और परसेप्ट्रॉन दोनों इष्टतम वजन सीखने के लिए ढाल-आधारित अनुकूलन विधियों का उपयोग करते हैं। रसद प्रतिगमन में, अधिकतम संभावना अनुमान (MLE) पद्धति का उपयोग उन भारों को खोजने के लिए किया जाता है जो दिए गए डेटा की संभावना को अधिकतम करते हैं। इसी तरह, एक परसेप्ट्रॉन में, पूर्वानुमानित आउटपुट और वास्तविक लेबल के बीच त्रुटि को कम करने के लिए ग्रेडिएंट डिसेंट या अन्य अनुकूलन एल्गोरिथ्म का उपयोग करके वजन को अपडेट किया जाता है।
लॉजिस्टिक रिग्रेशन और डीप लर्निंग
लॉजिस्टिक रिग्रेशन को डीप लर्निंग मॉडल के लिए बिल्डिंग ब्लॉक माना जा सकता है। डीप लर्निंग मॉडल, जैसे मल्टी-लेयर परसेप्ट्रॉन और कन्वेन्शनल न्यूरल नेटवर्क, इंटरकनेक्टेड न्यूरॉन्स की कई परतों से बने होते हैं। प्रत्येक न्यूरॉन लॉजिस्टिक फ़ंक्शन को सक्रियण फ़ंक्शन के रूप में उपयोग कर सकता है, इसके इनपुट के भारित योग को गैर-रैखिक आउटपुट में परिवर्तित कर सकता है।
हालाँकि, आधुनिक गहन शिक्षण आर्किटेक्चर में, अन्य सक्रियण कार्य जैसे ReLU (सुधारित रैखिक इकाई), Leaky ReLU, या Tanh सिग्मॉइड फ़ंक्शन की तुलना में उनके बेहतर प्रदर्शन और आसान प्रशिक्षण के कारण अधिक लोकप्रिय हो गए हैं।
अंत में, लॉजिस्टिक रिग्रेशन डीप लर्निंग और परसेप्ट्रॉन की नींव में महत्वपूर्ण भूमिका निभाता है। यह एक सक्रियण कार्य के रूप में कार्य करता है और ढाल-आधारित अनुकूलन के माध्यम से सीखने की प्रक्रिया में मदद करता है। यद्यपि गहन शिक्षण आर्किटेक्चर की तुलना में लॉजिस्टिक रिग्रेशन एक अपेक्षाकृत सरल मॉडल है, लेकिन इसके सिद्धांतों को समझने से अधिक जटिल तंत्रिका नेटवर्क को समझने में मदद मिल सकती है।
लॉजिस्टिक रिग्रेशन और परसेप्ट्रॉन के बीच घनिष्ठ संबंध
तार्किक प्रतिगमन और परसेप्ट्रॉन के बीच संबंध को गणितीय रूप से प्रदर्शित करने के लिए, आइए दोनों मॉडलों के घटकों को परिभाषित करके शुरू करें।
संभार तन्त्र परावर्तन
लॉजिस्टिक रिग्रेशन एक सामान्यीकृत रैखिक मॉडल है जो एक या अधिक इनपुट सुविधाओं के आधार पर बाइनरी परिणाम की संभावना का अनुमान लगाता है। यह इनपुट मानों को श्रेणी [0, 1] में मैप करने के लिए लॉजिस्टिक फ़ंक्शन का उपयोग करता है। रसद समारोह के रूप में परिभाषित किया गया है:
पी (एक्स) = 1 / (1 + ई ^ (- जेड))
जहां पी (एक्स) सकारात्मक वर्ग की संभावना का प्रतिनिधित्व करता है, और जेड इनपुट सुविधाओं और उनके संबंधित वजन का एक रैखिक संयोजन है:
z = β0 + β1 * x1 + β2 * x2 + … + βn * xn
परसेप्ट्रॉन
एक परसेप्ट्रॉन एक सिंगल-लेयर न्यूरल नेटवर्क है जिसका उपयोग बाइनरी वर्गीकरण कार्यों के लिए किया जाता है। इसमें इनपुट फीचर्स, वेट और एक एक्टिवेशन फंक्शन होता है। परसेप्ट्रॉन मॉडल को इस प्रकार दर्शाया जा सकता है:
वाई = एफ (जेड)
जहाँ y परसेप्ट्रॉन का आउटपुट है, f(z) सक्रियण फ़ंक्शन है, और z इनपुट सुविधाओं का भारित योग है:
z = β0 + β1 * x1 + β2 * x2 + … + βn * xn
अब, लॉजिस्टिक रिग्रेशन और परसेप्ट्रॉन को गणितीय रूप से कनेक्ट करते हैं:
जब हम लॉजिस्टिक फ़ंक्शन (सिग्मॉइड फ़ंक्शन) को परसेप्ट्रॉन मॉडल में सक्रियण फ़ंक्शन के रूप में उपयोग करते हैं, तो परसेप्ट्रॉन का आउटपुट बन जाता है:
वाई = एफ (जेड) = 1 / (1 + ई^(-जेड))
चूँकि भारित योग (z) लॉजिस्टिक रिग्रेशन और परसेप्ट्रॉन दोनों के लिए समान है, इसलिए हम यह निष्कर्ष निकाल सकते हैं कि एक लॉजिस्टिक फंक्शन वाला परसेप्ट्रॉन एक एक्टिवेशन फंक्शन के रूप में एक लॉजिस्टिक रिग्रेशन मॉडल के बराबर है।
सारांश में, लॉजिस्टिक रिग्रेशन और परसेप्ट्रॉन दोनों इनपुट सुविधाओं और वज़न (z) के समान रैखिक संयोजन को साझा करते हैं। जब लॉजिस्टिक फ़ंक्शन का उपयोग परसेप्ट्रॉन में सक्रियण फ़ंक्शन के रूप में किया जाता है, तो परसेप्ट्रॉन एक लॉजिस्टिक रिग्रेशन मॉडल के बराबर हो जाता है, जो दो मॉडलों के बीच घनिष्ठ संबंध को दर्शाता है।
कुछ पायथन कोड
यहाँ एक ही डेटासेट का उपयोग करके लॉजिस्टिक रिग्रेशन और लॉजिस्टिक (सिग्मॉइड) सक्रियण फ़ंक्शन के साथ एक परसेप्ट्रॉन का एक सरल पायथन कार्यान्वयन है। हम प्रदर्शन उद्देश्यों के लिए आईरिस डेटासेट का उपयोग करेंगे।
आवश्यक पुस्तकालय आयात करें:
import numpy as np
from sklearn import datasets
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.preprocessing import StandardScaler
iris = datasets.load_iris()
X = iris.data[:100, :2] # Select only first two features for simplicity
y = iris.target[:100] # Select only first two classes for binary classification
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)
log_reg = LogisticRegression()
log_reg.fit(X_train, y_train)
y_pred_log_reg = log_reg.predict(X_test)
def sigmoid(z):
return 1 / (1 + np.exp(-z))
class Perceptron:
def __init__(self, learning_rate=0.1, n_iterations=1000):
self.learning_rate = learning_rate
self.n_iterations = n_iterations
def fit(self, X, y):
n_samples, n_features = X.shape
self.weights = np.zeros(n_features)
self.bias = 0
for _ in range(self.n_iterations):
linear_output = np.dot(X, self.weights) + self.bias
y_predicted = sigmoid(linear_output)
# Update weights and bias
self.weights -= self.learning_rate * np.dot(X.T, (y_predicted - y)) / n_samples
self.bias -= self.learning_rate * np.sum(y_predicted - y) / n_samples
def predict(self, X):
linear_output = np.dot(X, self.weights) + self.bias
y_predicted = sigmoid(linear_output)
return np.round(y_predicted)
perc = Perceptron()
perc.fit(X_train, y_train)
y_pred_perc = perc.predict(X_test)
accuracy_log_reg = accuracy_score(y_test, y_pred_log_reg)
accuracy_perc = accuracy_score(y_test, y_pred_perc)
print("Logistic Regression Accuracy:", accuracy_log_reg)
print("Perceptron with Logistic Activation Function Accuracy:", accuracy_perc)
निष्कर्ष
लॉजिस्टिक रिग्रेशन एक बहुमुखी और शक्तिशाली सांख्यिकीय पद्धति है जो एक या अधिक भविष्यवक्ता चर के आधार पर होने वाली घटना की संभावना को मॉडल कर सकती है। स्वास्थ्य सेवा, वित्त और सामाजिक विज्ञान में फैले अनुप्रयोगों के साथ, लॉजिस्टिक प्रतिगमन बाइनरी वर्गीकरण समस्याओं को हल करने का एक प्रभावी साधन प्रदान करता है। इसकी गणितीय नींव, मान्यताओं और सीमाओं को समझकर, व्यवसायी विभिन्न डोमेन में सूचित निर्णय और भविष्यवाणियां करने के लिए लॉजिस्टिक रिग्रेशन का लाभ उठा सकते हैं।
इस लेख के निर्माण को आंशिक रूप से GPT-4 द्वारा समर्थित किया गया है।