एक एमएल मॉडल और एक फ़ंक्शन के बीच मूलभूत अंतर क्या है?
एक मॉडल को मोटे तौर पर किसी भी डिजाइन के रूप में परिभाषित किया जा सकता है जो एमएल कार्य को हल करने में सक्षम है। मॉडल के उदाहरण तंत्रिका नेटवर्क, निर्णय पेड़, मार्कोव नेटवर्क, आदि हैं।
एक फ़ंक्शन को डोमेन से सह-डोमेन / सीमा तक एक से कई संपत्ति वाले ऑर्डर किए गए जोड़े के सेट के रूप में परिभाषित किया जा सकता है।
औपचारिक रूप में उनके बीच मूलभूत अंतर क्या है?
जवाब
यद्यपि यह सभी मामलों पर लागू नहीं हो सकता है, मैं एक मॉडल को फ़ंक्शन के एक सेट के रूप में सोचना पसंद करता हूं, इसलिए यहां अंतर है।
यह परिभाषा क्यों उपयोगी है? यदि आप मापदंडों के वेक्टर के साथ एक तंत्रिका नेटवर्क के बारे में सोचते हैं$\theta \in \mathbb{R}^m$एक मॉडल के रूप में, फिर इन मापदंडों का एक विशिष्ट संयोजन एक विशिष्ट फ़ंक्शन का प्रतिनिधित्व करता है। उदाहरण के लिए, मान लें कि हमारे पास 2 इनपुट के साथ एक तंत्रिका नेटवर्क है, 1 छिपा हुआ न्यूरॉन (एक ReLU सक्रियण फ़ंक्शन के साथ, के रूप में चिह्नित)$\phi$, कि इनपुट्स के एक रैखिक संयोजन का अनुसरण करता है), और 1 आउटपुट न्यूरॉन (सिग्मोइड सक्रियण फ़ंक्शन के साथ,) $\sigma$) है। इनपुट केवल छिपे हुए यूनिट से जुड़े हैं और इन कनेक्शनों का वास्तविक मूल्य है। यदि हम पूर्वाग्रहों को नजरअंदाज करते हैं, तो 3 पैरामीटर हैं, जिन्हें पैरामीटर वेक्टर में वर्गीकृत किया जा सकता है$\theta = [\theta_1, \theta_2, \theta_3] \in \mathbb{R}^3 $। इस तंत्रिका नेटवर्क का प्रतिनिधित्व करने वाला मनमाना कार्य निम्नानुसार परिभाषित किया जा सकता है
$$ f(x_1, x_2) = \sigma (\theta_3 \phi(x_1 \theta_1 + x_2 \theta_2)) \tag{1}\label{1}, $$
इस स्थिति में, समीकरण \ ref {1} पैरामीटर स्थान को देखते हुए, मॉडल का प्रतिनिधित्व करता है $\Theta = \mathbb{R}^3$। किसी भी विशिष्ट मूल्यों के लिए$\theta_1, \theta_2,$ तथा $\theta_3$ ले सकते हैं, हमारे पास एक विशिष्ट (निर्धारक) कार्य है $f: \mathbb{R} \rightarrow [0, 1]$।
उदाहरण के लिए, $\theta = [0.2, 10, 0.4]$ कुछ विशिष्ट कार्य का प्रतिनिधित्व करता है, अर्थात्
$$ f(x_1, x_2) = \sigma (0.4 \phi(x_1 0.2 + x_2 10.0)) $$आप इस फ़ंक्शन को (Matplotlib के साथ) इनपुट के कुछ मूल्यों के लिए देख सकते हैं कि यह कैसा दिखता है। ध्यान दें कि$x_1$ तथा $x_2$ मनमाना हो सकता है (क्योंकि वे सिर्फ इनपुट हैं, जिन्हें मैंने वास्तविक संख्या माना है)।
एक मॉडल की यह व्याख्या कम्प्यूटेशनल शिक्षण सिद्धांत में एक परिकल्पना वर्ग (या स्थान) की परिभाषा के अनुरूप है, जो अनिवार्य रूप से कार्यों का एक सेट है । यह व्याख्या तंत्रिका नेटवर्क के लिए सार्वभौमिक सन्निकटन प्रमेयों के साथ भी संगत है , जो बताता है कि आप मापदंडों का एक विशिष्ट सेट पा सकते हैं जैसे कि आप कुछ दिए गए फ़ंक्शन को मनमाने ढंग से अच्छी तरह से गणना कर सकते हैं, यह देखते हुए कि कुछ शर्तों को पूरा किया जाता है। यह व्याख्या फैसले के पेड़, एचएमएम, आरएनएन और इन सभी एमएल मॉडल पर भी लागू की जा सकती है।
शब्द मॉडल का उपयोग कभी-कभी संभावना वितरण के संदर्भ में भी किया जाता है, उदाहरण के लिए, सुदृढीकरण सीखने के संदर्भ में, जहां $p(s', r \mid s, a)$ अगले राज्य पर एक संभावना वितरण है $s'$ और इनाम $r$ वर्तमान स्थिति दी $s$ और कार्रवाई $a$ उस अवस्था में लिया गया $s$। चेक इस सवाल का अधिक जानकारी के लिए। एक संभाव्यता वितरण को कार्यों के एक (संभवतः असीम रूप से बड़े) सेट के रूप में भी सोचा जा सकता है, लेकिन यह सिर्फ कार्यों का एक सेट नहीं है, क्योंकि आप एक संभाव्यता वितरण से नमूना भी ले सकते हैं (यानी एक संभावना वितरण के साथ जुड़े कुछ स्टोचैस्टिसिटी हैं)। तो, एक संभाव्यता वितरण को एक सांख्यिकीय मॉडल माना जा सकता है या इसका प्रतिनिधित्व करने के लिए उपयोग किया जा सकता है। इस उत्तर की जाँच करें ।
किसी भी मॉडल को एक फ़ंक्शन माना जा सकता है। शब्द "मॉडल" केवल एक फ़ंक्शन का उपयोग किसी विशेष तरीके से किया जाता है, अर्थात् ब्याज के कुछ अन्य फ़ंक्शन को अनुमानित करने के लिए।
सरल शब्दों में, एक तंत्रिका नेटवर्क मॉडल एक फ़ंक्शन सन्निकटन है जो परिकल्पना फ़ंक्शन के वक्र को फिट करने की कोशिश करता है। एक फ़ंक्शन में स्वयं एक समीकरण होता है जो एक निश्चित वक्र उत्पन्न करेगा:
यदि हमारे पास समीकरण (यानी, फ़ंक्शन) है, तो हमें इसके इनपुट डेटा के लिए तंत्रिका नेटवर्क की आवश्यकता नहीं है। हालाँकि, जब हमारे पास इसकी वक्र (या इनपुट और आउटपुट डेटा) की कुछ धारणा होती है, तो हम एक फ़ंक्शन सन्निकट की तलाश करते हैं, ताकि नए, अनदेखे इनपुट डेटा के लिए, हम आउटपुट उत्पन्न कर सकें।
इस तंत्रिका नेटवर्क को प्रशिक्षित करना सभी संभव के रूप में मूल (अज्ञात फ़ंक्शन) के करीब होने के बारे में है।
हर मॉडल एक फ़ंक्शन है। प्रत्येक फ़ंक्शन एक मॉडल नहीं है।
एक फ़ंक्शन विशिष्ट रूप से उसी सेट के कुछ सेट के तत्वों के विशिष्ट रूप से मैप करता है।
प्रत्येक AI मॉडल एक फ़ंक्शन है क्योंकि वे कंप्यूटर प्रोग्राम के रूप में कार्यान्वित किए जाते हैं और प्रत्येक कंप्यूटर प्रोग्राम विशिष्ट रूप से मेमोरी और बिट्स के अनुक्रम के संयोजन को प्रोग्राम स्टार्ट अप, मेमोरी और बिट्स के अनुक्रम में बिट्स के अनुक्रम में मेमोरी के भंडारण के लिए विशिष्ट रूप से मैप करता है। , कार्यक्रम समाप्ति पर, प्लस आउटपुट।
हालाँकि, एक 'मॉडल' विशेष रूप से किसी चीज़ का प्रतिनिधित्व करता है। लॉजिकल वक्र लें:
$$ f(x) = \frac{L}{1 + e^{k(x-x_{0})} } $$
के लिए मनमाने वास्तविक मूल्यों को देखते हुए $L$, $k$, तथा $x_{0}$, यह एक समारोह है। हालांकि, डेटा से बहुत अधिक विशिष्ट मूल्य दिए गए हैं, यह जनसंख्या वृद्धि का एक मॉडल हो सकता है।
इसी तरह, सभी शून्य के लिए आरंभिक भार वाला एक तंत्रिका नेटवर्क एक फ़ंक्शन है, लेकिन बहुत सीमित कोडन के साथ एक बहुत ही निर्बाध फ़ंक्शन है $\{0\}$। हालाँकि, यदि आप नेटवर्क को तब तक डेटा का एक गुच्छा खिलाकर प्रशिक्षित करते हैं, जब तक कि वज़न अनुमानों या कार्यों को लगभग किसी वास्तविक दुनिया उत्पन्न करने की प्रक्रिया के अनुरूप न दे दे, अब आपके पास उस निर्माण प्रक्रिया का एक मॉडल है।