स्किटिट लर्न - एनोमली डिटेक्शन

यहां, हम जानेंगे कि स्केलेर में विसंगति क्या है और डेटा बिंदुओं की पहचान में इसका उपयोग कैसे किया जाता है।

विसंगति का पता लगाने के लिए डेटासेट में डेटा बिंदुओं की पहचान करने के लिए एक तकनीक का उपयोग किया जाता है जो बाकी डेटा के साथ अच्छी तरह से फिट नहीं होता है। यह व्यापार में कई अनुप्रयोगों जैसे धोखाधड़ी का पता लगाने, घुसपैठ का पता लगाने, सिस्टम स्वास्थ्य निगरानी, ​​निगरानी और भविष्य कहनेवाला रखरखाव है। विसंगतियाँ, जिन्हें बहिर्मुखी भी कहा जाता है, को निम्नलिखित तीन श्रेणियों में विभाजित किया जा सकता है -

  • Point anomalies - यह तब होता है जब एक व्यक्तिगत डेटा उदाहरण को बाकी डेटा के रूप में विसंगत माना जाता है।

  • Contextual anomalies- इस तरह की विसंगति संदर्भ विशिष्ट है। यह तब होता है जब किसी विशिष्ट संदर्भ में डेटा इंस्टेंस असंगत होता है।

  • Collective anomalies - यह तब होता है जब संबंधित डेटा इंस्टेंस का एक संग्रह व्यक्तिगत मूल्यों के बजाय संपूर्ण संपूर्ण डेटासेट होता है।

तरीकों

दो विधियाँ अर्थात् outlier detection तथा novelty detectionविसंगति का पता लगाने के लिए इस्तेमाल किया जा सकता है। उनके बीच अंतर देखना आवश्यक है।

बाहरी पता लगाना

प्रशिक्षण डेटा में आउटलेयर होते हैं जो बाकी डेटा से दूर होते हैं। इस तरह के आउटलेर को टिप्पणियों के रूप में परिभाषित किया गया है। यही कारण है कि, बाह्य रूप से पता लगाने वाले अनुमानक हमेशा इस क्षेत्र को फिट करने की कोशिश करते हैं, जिसमें सबसे अधिक ध्यान केंद्रित प्रशिक्षण डेटा होता है, जबकि विचलित टिप्पणियों को अनदेखा किया जाता है। इसे अनिश्चित विसंगति का पता लगाने के रूप में भी जाना जाता है।

नवीनता का पता लगाने

यह नई टिप्पणियों में एक अप्राप्य पैटर्न का पता लगाने से संबंधित है जो प्रशिक्षण डेटा में शामिल नहीं है। यहां, प्रशिक्षण डेटा बाहरी लोगों द्वारा प्रदूषित नहीं है। इसे अर्ध-पर्यवेक्षित विसंगति का पता लगाने के रूप में भी जाना जाता है।

एमएल टूल्स का एक सेट है, जो स्किटिट-लर्न द्वारा प्रदान किया गया है, जिसका उपयोग बाहरी खोज के साथ-साथ नवीनता का पता लगाने के लिए भी किया जा सकता है। ये उपकरण सबसे पहले फिट () विधि का उपयोग करके एक अप्राप्त में डेटा से वस्तु सीखने को लागू कर रहे हैं -

estimator.fit(X_train)

अब, नए अवलोकनों को क्रमबद्ध किया जाएगा inliers (labeled 1) या outliers (labeled -1) निम्नानुसार भविष्यवाणी () विधि का उपयोग करके -

estimator.fit(X_test)

अनुमानक पहले कच्चे स्कोरिंग फ़ंक्शन की गणना करेगा और फिर भविष्यवाणी करेगा कि कच्चे स्कोरिंग फ़ंक्शन पर थ्रेशोल्ड का उपयोग किया जाएगा। हम इस कच्चे स्कोरिंग फ़ंक्शन की सहायता से एक्सेस कर सकते हैंscore_sample विधि और द्वारा सीमा को नियंत्रित कर सकते हैं contamination पैरामीटर।

हम भी परिभाषित कर सकते हैं decision_function ऐसी विधि जो ऋणात्मक मूल्य के रूप में और गैर-ऋणात्मक मूल्य के रूप में बाहरी लोगों को परिभाषित करती है।

estimator.decision_function(X_test)

बाहरी पता लगाने के लिए स्केलेर एल्गोरिदम

आइए हम समझते हैं कि एक अण्डाकार लिफाफा क्या है।

एक अण्डाकार कवरिंग फिटिंग

यह एल्गोरिथ्म मानता है कि नियमित डेटा एक ज्ञात वितरण से आता है जैसे कि गौसियन वितरण। बाह्य पहचान के लिए, स्किकिट-लर्न नाम की एक वस्तु प्रदान करता हैcovariance.EllipticEnvelop

यह ऑब्जेक्ट डेटा के लिए एक मजबूत सहसंयोजक अनुमान लगाता है, और इस प्रकार, केंद्रीय डेटा बिंदुओं पर एक दीर्घवृत्त फिट बैठता है। यह केंद्रीय मोड के बाहर के बिंदुओं को अनदेखा करता है।

मापदंडों

निम्न तालिका में उपयोग किए गए पैरामीटर शामिल हैं sklearn. covariance.EllipticEnvelop विधि -

अनु क्रमांक पैरामीटर और विवरण
1

store_precision - बूलियन, वैकल्पिक, डिफ़ॉल्ट = सच

यदि अनुमानित परिशुद्धता संग्रहीत है तो हम इसे निर्दिष्ट कर सकते हैं।

2

assume_centered - बूलियन, वैकल्पिक, डिफ़ॉल्ट = गलत

अगर हम इसे गलत तरीके से सेट करते हैं, तो यह FastMCD एल्गोरिथ्म की मदद से सीधे मजबूत स्थान और कोवरियन की गणना करेगा। दूसरी ओर, यदि यह सही है, तो यह मजबूत स्थान और सह-नागरिक के समर्थन की गणना करेगा।

3

support_fraction - फ्लोट इन (0., 1.), वैकल्पिक, डिफ़ॉल्ट = कोई नहीं

यह पैरामीटर विधि को बताता है कि कच्चे एमसीडी अनुमानों के समर्थन में अंकों का कितना अनुपात शामिल किया जाना है।

4

contamination - फ्लोट इन (0., 1.), वैकल्पिक, डिफ़ॉल्ट = 0.1

यह डेटा सेट में आउटलेर का अनुपात प्रदान करता है।

5

random_state - int, randomState उदाहरण या कोई नहीं, वैकल्पिक, डिफ़ॉल्ट = कोई नहीं

यह पैरामीटर उत्पन्न छद्म यादृच्छिक संख्या के बीज का प्रतिनिधित्व करता है जिसका उपयोग डेटा को फेरबदल करते समय किया जाता है। अनुवर्ती विकल्प हैं -

  • int - इस मामले में, random_state बीज यादृच्छिक संख्या जनरेटर द्वारा उपयोग किया जाता है।

  • RandomState instance- इस मामले में, random_state यादृच्छिक संख्या जनरेटर है।

  • None - इस मामले में, यादृच्छिक संख्या जनरेटर रैंडनस्टेट उदाहरण है जिसका उपयोग np.random द्वारा किया जाता है।

गुण

निम्न तालिका में उपयोग की जाने वाली विशेषताएँ हैं sklearn. covariance.EllipticEnvelop विधि -

अनु क्रमांक विशेषताएँ और विवरण
1

support_ - सरणी की तरह, आकार (n_samples)

यह स्थान और आकार के मजबूत अनुमानों की गणना करने के लिए उपयोग की जाने वाली टिप्पणियों के मुखौटे का प्रतिनिधित्व करता है।

2

location_ - सरणी की तरह, आकार (n_features)

यह अनुमानित मजबूत स्थान देता है।

3

covariance_ - सरणी की तरह, आकार (n_features, n_features)

यह अनुमानित मजबूत सहसंयोजक मैट्रिक्स लौटाता है।

4

precision_ - सरणी की तरह, आकार (n_features, n_features)

यह अनुमानित छद्म उलटा मैट्रिक्स लौटाता है।

5

offset_ - तैरना

इसका उपयोग कच्चे स्कोर से निर्णय फ़ंक्शन को परिभाषित करने के लिए किया जाता है। decision_function = score_samples -offset_

Implementation Example

import numpy as np^M
from sklearn.covariance import EllipticEnvelope^M
true_cov = np.array([[.5, .6],[.6, .4]])
X = np.random.RandomState(0).multivariate_normal(mean = [0, 0], cov=true_cov,size=500)
cov = EllipticEnvelope(random_state = 0).fit(X)^M
# Now we can use predict method. It will return 1 for an inlier and -1 for an outlier.
cov.predict([[0, 0],[2, 2]])

Output

array([ 1, -1])

अलगाव वन

उच्च-आयामी डेटासेट के मामले में, बाहरी जंगलों का एक कुशल तरीका यादृच्छिक जंगलों का उपयोग करना है। स्किटिट-सीख प्रदान करता हैensemble.IsolationForestवह विधि जो किसी विशेषता का चयन करके यादृच्छिक रूप से टिप्पणियों को अलग करती है। बाद में, यह चयनित सुविधाओं के अधिकतम और न्यूनतम मूल्यों के बीच बेतरतीब ढंग से एक मूल्य का चयन करता है।

यहां, एक नमूने को अलग करने के लिए आवश्यक विभाजन की संख्या रूट नोड से समाप्ति नोड तक पथ लंबाई के बराबर है।

मापदंडों

अनुसरण तालिका में उपयोग किए गए पैरामीटर शामिल हैं sklearn. ensemble.IsolationForest विधि -

अनु क्रमांक पैरामीटर और विवरण
1

n_estimators - int, वैकल्पिक, डिफ़ॉल्ट = 100

यह पहनावा में आधार अनुमानकों की संख्या का प्रतिनिधित्व करता है।

2

max_samples - int या फ्लोट, वैकल्पिक, डिफ़ॉल्ट = "ऑटो"

यह प्रत्येक आधार अनुमानक को प्रशिक्षित करने के लिए X से निकाले जाने वाले नमूनों की संख्या का प्रतिनिधित्व करता है। अगर हम int को उसके मूल्य के रूप में चुनते हैं, तो यह max_samples नमूने लेगा। यदि हम फ्लोट को उसके मूल्य के रूप में चुनते हैं, तो यह अधिकतम_समेनों को .shape [0] नमूने देगा। और, यदि हम ऑटो को उसके मूल्य के रूप में चुनते हैं, तो यह max_samples = min (256, n_samples) को आकर्षित करेगा।

3

support_fraction - फ्लोट इन (0., 1.), वैकल्पिक, डिफ़ॉल्ट = कोई नहीं

यह पैरामीटर विधि को बताता है कि कच्चे एमसीडी अनुमानों के समर्थन में अंकों का कितना अनुपात शामिल किया जाना है।

4

contamination - ऑटो या फ्लोट, वैकल्पिक, डिफ़ॉल्ट = ऑटो

यह डेटा सेट में आउटलेर का अनुपात प्रदान करता है। यदि हम इसे डिफ़ॉल्ट यानी ऑटो सेट करते हैं, तो यह मूल पेपर की तरह सीमा निर्धारित करेगा। यदि तैरने के लिए सेट किया जाता है, तो संदूषण की सीमा [0,0.5] की सीमा में होगी।

5

random_state - int, randomState उदाहरण या कोई नहीं, वैकल्पिक, डिफ़ॉल्ट = कोई नहीं

यह पैरामीटर उत्पन्न छद्म यादृच्छिक संख्या के बीज का प्रतिनिधित्व करता है जिसका उपयोग डेटा को फेरबदल करते समय किया जाता है। अनुवर्ती विकल्प हैं -

  • int - इस मामले में, random_state बीज यादृच्छिक संख्या जनरेटर द्वारा उपयोग किया जाता है।

  • RandomState instance- इस मामले में, random_state यादृच्छिक संख्या जनरेटर है।

  • None - इस मामले में, यादृच्छिक संख्या जनरेटर रैंडनस्टेट उदाहरण है जिसका उपयोग np.random द्वारा किया जाता है।

6

max_features - int या फ्लोट, वैकल्पिक (डिफ़ॉल्ट = 1.0)

यह प्रत्येक बेस अनुमानक को प्रशिक्षित करने के लिए X से खींची जाने वाली सुविधाओं की संख्या का प्रतिनिधित्व करता है। यदि हम इसके मूल्य के रूप में int चुनते हैं, तो यह max_features सुविधाओं को आकर्षित करेगा। यदि हम फ्लोट को इसके मूल्य के रूप में चुनते हैं, तो यह अधिकतम_फ्रीचर * X.shape [] नमूने आकर्षित करेगा।

7

bootstrap - बूलियन, वैकल्पिक (डिफ़ॉल्ट = गलत)

इसका डिफ़ॉल्ट विकल्प गलत है जिसका अर्थ है कि नमूना प्रतिस्थापन के बिना प्रदर्शन किया जाएगा। और दूसरी तरफ, अगर ट्रू में सेट किया गया है, तो इसका मतलब है कि व्यक्तिगत पेड़ प्रतिस्थापन के साथ नमूना किए गए प्रशिक्षण डेटा के यादृच्छिक सबसेट पर फिट हैं।

8

n_jobs - int या कोई नहीं, वैकल्पिक (डिफ़ॉल्ट = कोई नहीं)

यह समानांतर में चलाने के लिए नौकरियों की संख्या का प्रतिनिधित्व करता है fit() तथा predict() दोनों तरीके।

9

verbose - int, वैकल्पिक (डिफ़ॉल्ट = 0)

यह पैरामीटर ट्री बिल्डिंग प्रोसेस की वर्बोसिटी को नियंत्रित करता है।

10

warm_start - बूल, वैकल्पिक (डिफ़ॉल्ट = गलत)

अगर warm_start = true, हम फिट होने के लिए पिछले कॉल समाधान का पुन: उपयोग कर सकते हैं और पहनावा में अधिक अनुमानक जोड़ सकते हैं। लेकिन अगर यह गलत है, तो हमें एक नया जंगल फिट करना होगा।

गुण

निम्न तालिका में उपयोग की जाने वाली विशेषताएँ हैं sklearn. ensemble.IsolationForest विधि -

अनु क्रमांक विशेषताएँ और विवरण
1

estimators_ - DecisionTreeClassifier की सूची

सभी फिट उप-अनुमानकों का संग्रह प्रदान करना।

2

max_samples_ - पूर्णांक

यह उपयोग किए गए नमूनों की वास्तविक संख्या प्रदान करता है।

3

offset_ - तैरना

इसका उपयोग कच्चे स्कोर से निर्णय फ़ंक्शन को परिभाषित करने के लिए किया जाता है। decision_function = score_samples -offset_

Implementation Example

नीचे पायथन लिपि का उपयोग होगा sklearn. ensemble.IsolationForest दिए गए आंकड़ों पर 10 पेड़ों को फिट करने की विधि

from sklearn.ensemble import IsolationForest
import numpy as np
X = np.array([[-1, -2], [-3, -3], [-3, -4], [0, 0], [-50, 60]])
OUTDClf = IsolationForest(n_estimators = 10)
OUTDclf.fit(X)

Output

IsolationForest(
   behaviour = 'old', bootstrap = False, contamination='legacy',
   max_features = 1.0, max_samples = 'auto', n_estimators = 10, n_jobs=None,
   random_state = None, verbose = 0
)

स्थानीय बाहरी कारक

स्थानीय आयाम कारक (एलओएफ) एल्गोरिथ्म उच्च आयाम डेटा पर बाहरी पता लगाने के लिए एक और कुशल एल्गोरिथ्म है। स्किटिट-सीख प्रदान करता हैneighbors.LocalOutlierFactorविधि जो किसी स्कोर की गणना करती है, जिसे स्थानीय बाह्य कारक कहा जाता है, टिप्पणियों की विसंगति की डिग्री को दर्शाता है। इस एल्गोरिदम का मुख्य तर्क उन नमूनों का पता लगाना है जिनके पड़ोसियों की तुलना में काफी कम घनत्व है। यही कारण है कि यह दिए गए डेटा बिंदुओं के स्थानीय घनत्व के विचलन को उनके पड़ोसियों को प्रभावित करता है।

मापदंडों

अनुसरण तालिका में उपयोग किए गए पैरामीटर शामिल हैं sklearn. neighbors.LocalOutlierFactor तरीका

अनु क्रमांक पैरामीटर और विवरण
1

n_neighbors - int, वैकल्पिक, डिफ़ॉल्ट = 20

यह kneighbors क्वेरी के लिए डिफ़ॉल्ट रूप से पड़ोसियों के उपयोग की संख्या का प्रतिनिधित्व करता है। सभी नमूनों का इस्तेमाल किया जाएगा।

2

algorithm - वैकल्पिक

निकटतम पड़ोसियों की गणना के लिए किस एल्गोरिथ्म का उपयोग किया जाना है।

  • यदि आप ball_tree चुनते हैं, तो यह BallTree एल्गोरिथ्म का उपयोग करेगा।

  • यदि आप kd_tree चुनते हैं, तो यह KDTree एल्गोरिथ्म का उपयोग करेगा।

  • यदि आप जानवर चुनते हैं, तो यह brute-force खोज एल्गोरिदम का उपयोग करेगा।

  • यदि आप ऑटो चुनते हैं, तो यह उस मूल्य के आधार पर सबसे उपयुक्त एल्गोरिथ्म तय करेगा जो हमने फिट () विधि से पारित किया है।

3

leaf_size - int, वैकल्पिक, डिफ़ॉल्ट = 30

इस पैरामीटर का मान निर्माण और क्वेरी की गति को प्रभावित कर सकता है। यह पेड़ को संग्रहीत करने के लिए आवश्यक स्मृति को भी प्रभावित करता है। यह पैरामीटर BallTree या KdTree एल्गोरिदम को पास किया गया है।

4

contamination - ऑटो या फ्लोट, वैकल्पिक, डिफ़ॉल्ट = ऑटो

यह डेटा सेट में आउटलेर का अनुपात प्रदान करता है। यदि हम इसे डिफ़ॉल्ट यानी ऑटो सेट करते हैं, तो यह मूल पेपर की तरह सीमा निर्धारित करेगा। यदि तैरने के लिए सेट किया जाता है, तो संदूषण की सीमा [0,0.5] की सीमा में होगी।

5

metric - स्ट्रिंग या कॉल करने योग्य, डिफ़ॉल्ट

यह दूरी की गणना के लिए उपयोग किए जाने वाले मीट्रिक का प्रतिनिधित्व करता है।

6

P - int, वैकल्पिक (डिफ़ॉल्ट = 2)

यह Minkowski मीट्रिक के लिए पैरामीटर है। P = 1 मैनहट्टन_डिस्टेंस यानी L1 का उपयोग करने के बराबर है, जबकि P = 2 euclidean_distance यानी L2 का उपयोग करने के बराबर है।

7

novelty - बूलियन, (डिफ़ॉल्ट = गलत)

डिफ़ॉल्ट रूप से, एलओएफ एल्गोरिथ्म का उपयोग बाह्य पहचान के लिए किया जाता है लेकिन इसका उपयोग नवीनता का पता लगाने के लिए किया जा सकता है यदि हम नवीनता = सत्य को निर्धारित करते हैं।

8

n_jobs - int या कोई नहीं, वैकल्पिक (डिफ़ॉल्ट = कोई नहीं)

यह फिट () और भविष्यवाणी () दोनों तरीकों के समानांतर चलने वाली नौकरियों की संख्या का प्रतिनिधित्व करता है।

गुण

निम्न तालिका में उपयोग की जाने वाली विशेषताएँ हैं sklearn.neighbors.LocalOutlierFactor विधि -

अनु क्रमांक विशेषताएँ और विवरण
1

negative_outlier_factor_ - सुन्न सरणी, आकार (n_samples)

प्रशिक्षण के नमूनों के विपरीत LOF प्रदान करना।

2

n_neighbors_ - पूर्णांक

यह पड़ोसियों की वास्तविक संख्या का उपयोग पड़ोसी प्रश्नों के लिए करता है।

3

offset_ - तैरना

इसका उपयोग कच्चे स्कोर से बाइनरी लेबल को परिभाषित करने के लिए किया जाता है।

Implementation Example

नीचे दी गई पायथन लिपि का उपयोग होगा sklearn.neighbors.LocalOutlierFactor हमारे डेटा सेट के अनुरूप किसी भी ऐरे से नेबर्सक्लासीफायर क्लास बनाने की विधि

from sklearn.neighbors import NearestNeighbors
samples = [[0., 0., 0.], [0., .5, 0.], [1., 1., .5]]
LOFneigh = NearestNeighbors(n_neighbors = 1, algorithm = "ball_tree",p=1)
LOFneigh.fit(samples)

Output

NearestNeighbors(
   algorithm = 'ball_tree', leaf_size = 30, metric='minkowski',
   metric_params = None, n_jobs = None, n_neighbors = 1, p = 1, radius = 1.0
)

Example

अब, हम इस निर्मित क्लासिफायर से पूछ सकते हैं कि कोठरी का बिंदु [0.5, 1., 1.5] है जो निम्नलिखित पायथन के उपयोग से है -

print(neigh.kneighbors([[.5, 1., 1.5]])

Output

(array([[1.7]]), array([[1]], dtype = int64))

वन-क्लास एसवीएम

Schölkopf et al। द्वारा शुरू की गई वन-क्लास SVM, अनचाहे आउटलाइर डिटेक्शन है। यह उच्च-आयामी डेटा में भी बहुत कुशल है और एक उच्च-आयामी वितरण के समर्थन का अनुमान लगाता है। में लागू किया गया हैSupport Vector Machines में मॉड्यूल Sklearn.svm.OneClassSVMवस्तु। सीमांत को परिभाषित करने के लिए, इसे कर्नेल की आवश्यकता होती है (ज्यादातर इसका उपयोग आरबीएफ होता है) और एक स्केलर पैरामीटर।

बेहतर समझ के लिए आइए हमारे डेटा के साथ फिट होते हैं svm.OneClassSVM वस्तु -

उदाहरण

from sklearn.svm import OneClassSVM
X = [[0], [0.89], [0.90], [0.91], [1]]
OSVMclf = OneClassSVM(gamma = 'scale').fit(X)

अब, हम इनपुट डेटा के लिए निम्न प्रकार से स्कोर प्राप्त कर सकते हैं -

OSVMclf.score_samples(X)

उत्पादन

array([1.12218594, 1.58645126, 1.58673086, 1.58645127, 1.55713767])