पीसीए: व्यवहार में इसका उपयोग कैसे करें और हुड के नीचे क्या है?
पीसीए (प्रिंसिपल कंपोनेंट एनालिसिस) सबसे सरल डायमेंशनलिटी रिडक्शन विधियों में से एक है। उन मामलों में बहुत आसान हो सकता है जहां बहु-आयामी डेटा को मूल डेटा आयाम की तुलना में एक छोटी सी जगह में दृष्टिगत रूप से मूल्यांकन करने की आवश्यकता होती है। या, उदाहरण के लिए, जब आप कुछ एमएल एल्गोरिथ्म में फीड किए गए भविष्यवक्ताओं की संख्या को जल्दी से कम करना चाहते हैं, लेकिन इस तरह से कि शेष भविष्यवक्ता मूल के विचरण के सबसे बड़े हिस्से (पढ़ें, जानकारी की सबसे बड़ी मात्रा को बचाएं) की व्याख्या करें। डेटा सेट।
यह लेख 2 खंडों में विभाजित है। पहले खंड में दिखाया जाएगा कि कृत्रिम डेटासेट पर अजगर और स्किकिट-लर्न का उपयोग करके पीसीए को कैसे लागू किया जा सकता है। दूसरा खंड दिखाएगा कि कैसे, कदम दर कदम, केवल एक पेंसिल और कागज के एक टुकड़े के साथ, वही काम करें जो विश्लेषणात्मक ढांचे करते हैं।
खंड 1 - पीसीए का लागू उपयोग
पीसीए किन मामलों में दृश्य दृष्टिकोण से उपयोगी है? उदाहरण के लिए, किसी मौजूदा डेटासेट के त्वरित ग्राफ़िकल विश्लेषण के लिए। मान लीजिए कि आपके पास एक परिकल्पना है कि आपके डेटासेट के कुछ नमूने किसी तरह कुछ चर के आधार पर अन्य नमूनों से भिन्न होने चाहिए। धोखाधड़ी वाले रिकॉर्ड वाले डेटासेट एक अच्छा उदाहरण हैं, क्योंकि धोखाधड़ी करने वालों का व्यवहार सामान्य लोगों के व्यवहार से स्पष्ट रूप से अलग होता है। ठीक है, मान लेते हैं कि हम किसी प्रकार की ऑनलाइन सेवा के मालिक हैं, जिसके माध्यम से ग्राहक कोई खरीदारी कर सकते हैं, जमा कर सकते हैं और पैसे निकाल सकते हैं - किसी प्रकार का ऑनलाइन बैंक। और मान लीजिए कि समय-समय पर ग्राहक खातों को उनके सच्चे मालिकों द्वारा दर्ज नहीं किया जाता है, बल्कि पीड़ितों के व्यक्तिगत खातों से जितना संभव हो उतना चोरी करने के लिए स्कैमर्स द्वारा दर्ज किया जाता है। अच्छा, दिलचस्प लगता है, है ना? लेकिन पीसीए का इससे क्या लेना-देना है?
मान लें कि हमारे पास निरंतर चरों के साथ एक बहुत बड़ा डेटा सेट है जो किसी तरह हमारे उपयोगकर्ताओं के व्यवहार की विशेषता बताता है। इन चरों में से कुछ सेकंड में लॉगिन से निकासी तक का समय दें; धन की निकासी के बाद खाते की शेष राशि का अनुपात धन की निकासी से पहले खाते की शेष राशि से; सत्र के दौरान आवेदन में देखे गए पृष्ठों की संख्या; क्लाइंट के पंजीकृत होने के बाद से कितने घंटे बीत चुके हैं, और 100 और बेतरतीब ढंग से उत्पन्न चर जो वास्तविक दुनिया में कुछ समझ में आ सकते हैं। यह बहुत अच्छा होगा यदि हम इन सभी चरों को एक ही समय में एक ही चार्ट पर प्लॉट कर सकें, लेकिन वास्तविक दुनिया में हम 3डी स्पेस तक सीमित हैं। इसलिए, हम एक समय में 3 से अधिक अलग-अलग चरों का विज़ुअल रूप से विश्लेषण नहीं कर सकते हैं।
पीसीए के साथ, हम एक नई समन्वय प्रणाली बना सकते हैं, अक्षों की आवश्यक संख्या का चयन कर सकते हैं और उन पर मौजूदा डेटासेट को प्रतिबिंबित कर सकते हैं। इस प्रकार, हम मूल डेटासेट को केवल 2 (उदाहरण के लिए) नए चरों के साथ एक नए डेटासेट में बदल सकते हैं जो भिन्नता के अधिकतम संभावित अनुपात की व्याख्या करेगा। और इसके अलावा, हम इसे द्वि-आयामी चार्ट पर आसानी से दर्शा सकते हैं। कभी-कभी यह आपको बिंदुओं के कुछ समूहों को देखने की अनुमति देता है, जो कुछ परिकल्पनाओं को बनाने में मदद करता है।
चूंकि हम डेटा उत्पन्न करने जा रहे हैं, हम इस बारे में कुछ अनुमान लगा सकते हैं कि धोखेबाजों को नियमित उपयोगकर्ताओं के प्रति कैसा व्यवहार करना चाहिए। सबसे अधिक संभावना है, किसी और के खाते में प्रवेश करने के बाद, धोखेबाज जितनी जल्दी हो सके सभी उपलब्ध निधियों को वापस लेने का प्रयास करेंगे ताकि स्वचालित पहचान एल्गोरिदम के अंतर्गत न आएं। इस धारणा के आधार पर, हम दो चर उत्पन्न कर सकते हैं: सेकंड_फ्रॉम_लॉगिन और अनुपात_बैलेंस:
डेटा विशेष रूप से उत्पन्न होता है ताकि रिकॉर्ड के पहले भाग में ऑफसेट शून्य के करीब हो, यह हमारी काल्पनिक धोखाधड़ी है
उन चरों के लिए जो आवेदन में देखे गए पृष्ठों की संख्या और ग्राहक के पंजीकृत होने के बाद से बीत चुके घंटों की संख्या का वर्णन करते हैं, हम उन्हें निरंतर चर के रूप में मानेंगे। उदाहरण के लिए, यदि देखे गए पृष्ठों की संख्या 2.134 है, तो इसका मतलब है कि तीसरे पृष्ठ को केवल 13.4% स्क्रॉल किया गया था। इन चरों के लिए, हम एक ही धारणा बनाएंगे कि उनके मूल्य धोखाधड़ी वर्ग और नियमित ग्राहकों के बीच भिन्न होने चाहिए:
शेष 100 चरों के संबंध में, मान लें कि सामान्य तौर पर वे धोखेबाजों और गैर-धोखाधड़ी करने वालों के बीच बिल्कुल भिन्न नहीं हो सकते हैं। इसलिए, हम उन्हें उसी वितरण से उत्पन्न करेंगे:
आइए उपलब्ध डेटा को 1 डेटाफ़्रेम में एकत्र करें और पंक्तियों के पहले भाग को कपटपूर्ण रिकॉर्ड के रूप में चिह्नित करें, जैसा कि हम ऊपर सहमत हुए हैं:
बढ़िया, हमारे पास 104 अलग-अलग निरंतर चर और 1 लेबल वाला डेटासेट है। अब हम उन्हें कम जगह में प्रदर्शित करना चाहते हैं। उदाहरण के लिए, एक सीधी रेखा पर या एक समतल पर, जितना संभव हो उतना उपयोगी जानकारी दर्शाने के लिए। अजगर और स्किकिट-लर्न की मदद से यह आसान है। इसके लिए बस इतना करना है कि पीसीए वर्ग का एक ऑब्जेक्ट बनाना है, जिसमें प्रमुख घटकों की संख्या निर्दिष्ट करना है जिसके द्वारा मूल डेटा सेट को संपीड़ित किया जाएगा। अर्थात्, यदि हम 1 घटक निर्दिष्ट करते हैं, तो सभी 104 चरों को इस तरह से संकुचित किया जाएगा जैसे कि 1 अक्ष पर प्रदर्शित किया जाना, अधिकतम संभव जानकारी को बनाए रखना; यदि हम 2 निर्दिष्ट करते हैं, तो 2 अक्षों पर और इसी तरह। घटकों का निर्माण कैसे किया जाता है और वास्तव में अंतरिक्ष को कैसे संकुचित किया जाता है, इसके पीछे के सभी गणित के साथ दूसरे खंड में समझाया जाएगा।
देखिए, इस विशेष मामले में, हम केवल 1-2 घटकों के आधार पर धोखाधड़ी करने वालों को नियमित ग्राहकों से अलग कर सकते हैं। ऐसा भी लगता है कि डेटा में बिल्कुल 2 क्लस्टर बनते हैं। तदनुसार, एक अच्छा बाइनरी क्लासिफायरियर बनाया जा सकता है। उपयोगी जानकारी, है ना? और हम कोड की कुछ पंक्तियों के साथ यह सब समझ गए।
अब आइए जानें कि 2 प्रमुख घटकों का उपयोग करके प्रसरण के कितने प्रतिशत की व्याख्या की गई है:
निर्मित पीसीए क्लास ऑब्जेक्ट के लिए समझाया_विचरण_अनुपात_ विशेषता संपूर्ण समझाया डेटा भिन्नता का प्रतिशत लौटाती है, जहां सूची तत्व की क्रमिक संख्या मुख्य घटक की संख्या है ।
इस प्रकार, लगभग 100% भिन्नता को केवल 2 घटकों द्वारा समझाया गया है। और, उदाहरण के लिए, एक वर्गीकरण मॉडल का निर्माण करते समय, हम मूल 104-आयामी डेटासेट के बजाय केवल 2-आयामी डेटासेट का उपयोग कर सकते हैं।
क्या पीसीए का उपयोग करते समय आपको 1–3 मुख्य घटकों तक सीमित रहने की आवश्यकता है? बिल्कुल नहीं। आपके डेटा में कुछ बुनियादी पैटर्न, यदि कोई हो, को समझने के लिए 1–3 घटकों की कल्पना करना सुविधाजनक है। हालाँकि, दृश्य विश्लेषण पीसीए के लिए एकमात्र उपयोग से बहुत दूर है। आप अंतरिक्ष को इस तरह से संपीड़ित कर सकते हैं कि आप अपनी सुविधाओं की न्यूनतम संख्या के साथ जितना संभव हो उतना व्याख्यात्मक विचरण रखें। इस मामले में, आप अपने एल्गोरिदम के प्रशिक्षण समय को कम कर देंगे।
डेटासेट के आधार पर, प्रमुख घटकों की संख्या बहुत भिन्न हो सकती है। आप अपने लिए बताए गए विचरण का आवश्यक अनुपात निर्धारित कर सकते हैं, उदाहरण के लिए, 90% या 95% और देखें कि स्थान कितना कम हो जाएगा।
अब, हम हाइपरपैरामीटर ट्यूनिंग के बिना 2 रैंडमफ़ॉरेस्ट एल्गोरिदम को प्रशिक्षित करेंगे। पहला मूल डेटा स्थान पर, दूसरा पीसीए की मदद से संकुचित स्थान पर। आइए प्रशिक्षण के समय, साथ ही अंतिम गुणवत्ता का मूल्यांकन करें:
हमने गुणवत्ता में थोड़ी कमी की, लेकिन प्रशिक्षण का समय 64% कम कर दिया। वास्तविक दुनिया में, अक्सर ऐसी परिस्थितियाँ होती हैं जहाँ आपको सीमित समय में कई अलग-अलग प्रोटोटाइप आज़माने की आवश्यकता होती है। ऐसी स्थितियों में, सीखने के समय को कम करना बहुत महत्वपूर्ण हो सकता है, खासकर अगर हम लगभग गुणवत्ता नहीं खोते हैं।
खंड 2- शुरुआत से पीसीए बनाना
इस खंड में, हम इस पद्धति के पीछे के गणित का उपयोग करके एक पीसीए कदम दर कदम बनाएंगे। मैं आपको दृढ़ता से सलाह देता हूं कि आप कागज का एक टुकड़ा और एक कलम लें, क्योंकि सब कुछ स्वयं हल करने से आप इस पद्धति में मौजूद तर्क में खुद को बेहतर तरीके से विसर्जित कर सकते हैं। मैं विधि के अंतर्ज्ञान को समझने के लिए इस वीडियो को 3Blue1Brown द्वारा देखने की भी सलाह देता हूं।
डेटा सेट के रूप में, हम दो-आयामी 10x2 मैट्रिक्स का उपयोग करेंगे जिसमें 2 वैक्टर x और y शामिल हैं:
आइए इस डेटा सेट को विमान पर दर्शाते हैं:
ब्लू क्रॉस पर ध्यान दें। यह वह बिंदु है जिसके निर्देशांक क्रमशः x और y के औसत हैं।
चरण 1 - डेटा को केंद्रित करना
डेटासेट को केंद्रित करने के लिए, आपको सदिश x और y का औसत मान 0 बनाना होगा, इसके लिए, प्रत्येक x[i] से आपको औसत x घटाना होगा, प्रत्येक y[i] से आपको औसत घटाना होगा वाई:
ब्लू क्रॉस पर ध्यान दें। केंद्रित होने पर, यह नारंगी क्रॉस के स्थान पर चला जाता है और समन्वय प्रणाली (0; 0) के मूल में हो जाता है। संबंधित बदलाव प्रत्येक नीले बिंदु द्वारा किया जाता है, नारंगी की जगह लेता है।
चरण 2 - सहप्रसरण मैट्रिक्स की गणना करें
सहप्रसरण मैट्रिक्स एक मैट्रिक्स है जहां प्रसरण मुख्य विकर्ण पर होते हैं, और माने गए चरों के बीच सहप्रसरण शेष कक्षों में होते हैं।
सहप्रसरण माने जाने वाले यादृच्छिक चरों के बीच रैखिक संबंध का एक माप है। एक रैखिक सहसंबंध की तरह, केवल इसके मान -1 से कम और 1 से अधिक हो सकते हैं।
सहप्रसरण की गणना निम्न सूत्र का उपयोग करके की जाती है, जहां n संबंधित स्तंभ की लंबाई है:
लेकिन चूँकि हमने पहले ही डेटा को केंद्रित कर लिया है, और औसत x और y 0 हैं, सूत्र को इस रूप में सरल किया गया है:
और सहप्रसरण मैट्रिक्स स्वयं इस तरह दिखेगा:
अजगर का उपयोग करना, सहप्रसरण मैट्रिक्स की गणना करना बहुत आसान है, बस एक फ़ंक्शन को कॉल करें:
लेकिन चूंकि हमारे पास सभी आवश्यक सूत्र और चर हैं, आइए यह सुनिश्चित करने के लिए मैन्युअल रूप से सभी की गणना करें कि यह ब्लैक बॉक्स बिल्कुल समझ से बाहर नहीं है जैसा कि यह लग सकता है:
मान समझौते में हैं। इसलिए हमने सुनिश्चित किया कि इसमें कोई जादू न हो।
चरण 3 - सहप्रसरण मैट्रिक्स के eigenvalues की गणना करें
सरल शब्दों में, जब हम एक सदिश द्वारा एक मैट्रिक्स को गुणा करते हैं, तो हम सदिश के स्थान पर एक रैखिक परिवर्तन लागू कर रहे हैं। इस तरह के परिवर्तन अलग-अलग हो सकते हैं: रोटेशन, स्केलिंग, विरूपण, आदि। सदिश, यह एक ही अक्ष पर रहता है, तो इस सदिश को आइजनवेक्टर कहा जाता है। और जिस गुणांक से इस सदिश की लंबाई को बढ़ाया गया था, उसे मैट्रिक्स का ईजेनवेल्यू कहा जाता है।
चैनल 3ब्लू1ब्राउन के पास इस अवधारणा की शानदार व्याख्या है। यहाँ मैं एक छोटे से उदाहरण के साथ संक्षेप में सार समझाने की कोशिश करूँगा:
हमारे पास मूल आकृति ABCD है, जिसे हम y अक्ष के साथ प्रतिबिम्बित करते हैं। परिणामस्वरूप, आकृति AB*C*D* का स्थान ले लेती है। जैसा कि आप देख सकते हैं, सदिश x उसी अक्ष पर बना रहा, केवल दिशा बदली (x* बन गया)। इसलिए, यह वेक्टर एक ईजेनवेक्टर है, और इस वेक्टर का ईजेनवैल्यू -1 होगा।
अब सदिश y और उसकी दर्पण छवि — y* को देखते हैं। जाहिर है, वे पूरी तरह से अलग-अलग अक्षों पर स्थित हैं। इसलिए, सदिश y इस रैखिक रूपांतरण का आइजनवेक्टर नहीं है।
eigenvectors और eigenvalues की गणना करने के लिए, आपको निम्न सूत्र का उपयोग करना चाहिए:
जहाँ A रैखिक परिवर्तन मैट्रिक्स है, वेक्टर x इस मैट्रिक्स का आइजनवेक्टर है, लैम्ब्डा आइजनवेक्टर x का आइगेनवैल्यू है।
पीसीए में, मैट्रिक्स ए सहप्रसरण मैट्रिक्स कोव है जिसे हमने चरण 2 में परिभाषित किया है, इसलिए हमारा सूत्र होगा:
इस समीकरण को हल करते हुए, हम सहप्रसरण मैट्रिक्स के eigenvalues पाते हैं:
इस मामले में, या तो वेक्टर x 0 के बराबर है (जो हमारे लिए दिलचस्प नहीं है, क्योंकि हम गैर-शून्य वैक्टर की तलाश कर रहे हैं), या मैट्रिक्स (cov-lambda*I) = 0 (और यह मामला वास्तव में क्या है ज़रुरत है)। एक मैट्रिक्स शून्य के बराबर हो सकता है जब उसका निर्धारक 0. के बराबर होता है और मैट्रिक्स का निर्धारक 0 के बराबर होता है जब मैट्रिक्स में आनुपातिक या शून्य पंक्तियाँ या स्तंभ होते हैं, जो मूल स्थान के संपीड़न को इंगित करता है। इस प्रकार:
इस द्विघात समीकरण को हल करने पर, हम इसके मूल ज्ञात करते हैं:
लैम्ब्डा1 = 1.3
लैम्ब्डा2 = 3.3
आइए गणनाओं को numpy के साथ जांचें:
बहुत बढ़िया, हमने लागू रैखिक परिवर्तन के आइगेनमान पाए हैं! अब, उनके आधार पर, हम स्वयं ईजेनवेक्टरों को खोजेंगे।
चरण 4 - सहप्रसरण मैट्रिक्स के eigenvectors खोजें
ईजेनवेक्टरों को खोजने के लिए, समीकरण में पाए गए आइगेनवैल्यूज़ को प्रतिस्थापित करना आवश्यक है, जिसे सूत्र 6 में लाल रंग में हाइलाइट किया गया है। परिणामी समीकरणों की प्रणालियों को एक-एक करके हल करते हुए, हम केवल लागू रैखिक परिवर्तन के आइजनवेक्टरों को खोजेंगे।
लैम्ब्डा 1 के लिए:
मान लीजिए x1 = 1, फिर:
लैम्ब्डा 2 के लिए इसे इसी तरह माना जाता है। गणना के दौरान, हम पाते हैं कि दूसरा ईजेनवेक्टर इसके बराबर होगा:
अब प्रत्येक eigenvectors को उसके मानदंड (लंबाई) से विभाजित किया जाना चाहिए। सदिश लंबाई की गणना निम्न सूत्र का उपयोग करके की जाती है:
सूत्र में प्रत्येक ईजेनवेक्टर के निर्देशांक को प्रतिस्थापित करते हुए, हम पाते हैं कि पहले वेक्टर का मान = 1.31 है, दूसरे वेक्टर का मान 1.55 है। प्रत्येक ईजेनवेक्टर को उसके मानदंड से विभाजित करने पर, हम पाते हैं कि पहले वेक्टर के सामान्यीकृत निर्देशांक हैं:
और दूसरे वेक्टर के सामान्यीकृत निर्देशांक हैं:
ईजेनवेक्टरों का मैट्रिक्स संबंधित ईजेनवैल्यू के घटने के अनुसार लिखा जाता है, इसलिए, हमारे मामले में, मैट्रिक्स इस तरह दिखेगा:
आइए सुनिश्चित करें कि numpy का उपयोग करके हमारी गणना सही है:
राउंडिंग एरर के लिए एडजस्ट किया गया, ये बिल्कुल वही वेक्टर हैं जिनकी हमने गणना की थी!
इस तथ्य से भ्रमित न हों कि हमारे वैक्टर -1 से गुणा किए गए प्रतीत होते हैं, क्योंकि वे बिल्कुल वही वैक्टर हैं, क्योंकि वे एक ही रेखा पर स्थित हैं। उन लोगों के लिए जो अधिक विस्तृत स्पष्टीकरण चाहते हैं, स्टैक ओवरफ्लो पर कई विषय हैं: लिंक 1 , लिंक 2 , लिंक 3 ।
चरण 5 - मूल स्थान को रूपांतरित करें
पाए गए प्रमुख घटकों पर मूल डेटा प्रदर्शित करने के लिए, ईजेनवेक्टरों के मैट्रिक्स द्वारा केंद्रित मूल मैट्रिक्स को गुणा करना आवश्यक है। इसके अलावा, eigenvectors के मैट्रिक्स में उतने ही कॉलम होने चाहिए जितने मुख्य घटक आप मूल डेटा प्रदर्शित करना चाहते हैं:
सत्यापित करें कि स्केलेर से पीसीए वर्ग का उपयोग करके हमारी गणना सही है:
राउंडिंग एरर को देखते हुए, हमें बिल्कुल वही मैट्रिक्स मिला जो sklearn PCA देता है।
उपसंहार
जैसा कि हमने देखा है, पीसीए का एक बहुत ही उपयोगी व्यावहारिक अनुप्रयोग है, और यह "ब्लैक बॉक्स" बिल्कुल नहीं है। सभी गणना चरण काफी सरल और समझने योग्य हैं और केवल सटीकता की आवश्यकता है