पीसीए: व्यवहार में इसका उपयोग कैसे करें और हुड के नीचे क्या है?

May 06 2023
पीसीए (प्रिंसिपल कंपोनेंट एनालिसिस) सबसे सरल डायमेंशनलिटी रिडक्शन विधियों में से एक है। उन मामलों में बहुत आसान हो सकता है जहां बहु-आयामी डेटा को मूल डेटा आयाम की तुलना में एक छोटी सी जगह में दृष्टिगत रूप से मूल्यांकन करने की आवश्यकता होती है।
Unsplash पर BoliviaInteligente द्वारा फोटो

पीसीए (प्रिंसिपल कंपोनेंट एनालिसिस) सबसे सरल डायमेंशनलिटी रिडक्शन विधियों में से एक है। उन मामलों में बहुत आसान हो सकता है जहां बहु-आयामी डेटा को मूल डेटा आयाम की तुलना में एक छोटी सी जगह में दृष्टिगत रूप से मूल्यांकन करने की आवश्यकता होती है। या, उदाहरण के लिए, जब आप कुछ एमएल एल्गोरिथ्म में फीड किए गए भविष्यवक्ताओं की संख्या को जल्दी से कम करना चाहते हैं, लेकिन इस तरह से कि शेष भविष्यवक्ता मूल के विचरण के सबसे बड़े हिस्से (पढ़ें, जानकारी की सबसे बड़ी मात्रा को बचाएं) की व्याख्या करें। डेटा सेट।

यह लेख 2 खंडों में विभाजित है। पहले खंड में दिखाया जाएगा कि कृत्रिम डेटासेट पर अजगर और स्किकिट-लर्न का उपयोग करके पीसीए को कैसे लागू किया जा सकता है। दूसरा खंड दिखाएगा कि कैसे, कदम दर कदम, केवल एक पेंसिल और कागज के एक टुकड़े के साथ, वही काम करें जो विश्लेषणात्मक ढांचे करते हैं।

खंड 1 - पीसीए का लागू उपयोग

पीसीए किन मामलों में दृश्य दृष्टिकोण से उपयोगी है? उदाहरण के लिए, किसी मौजूदा डेटासेट के त्वरित ग्राफ़िकल विश्लेषण के लिए। मान लीजिए कि आपके पास एक परिकल्पना है कि आपके डेटासेट के कुछ नमूने किसी तरह कुछ चर के आधार पर अन्य नमूनों से भिन्न होने चाहिए। धोखाधड़ी वाले रिकॉर्ड वाले डेटासेट एक अच्छा उदाहरण हैं, क्योंकि धोखाधड़ी करने वालों का व्यवहार सामान्य लोगों के व्यवहार से स्पष्ट रूप से अलग होता है। ठीक है, मान लेते हैं कि हम किसी प्रकार की ऑनलाइन सेवा के मालिक हैं, जिसके माध्यम से ग्राहक कोई खरीदारी कर सकते हैं, जमा कर सकते हैं और पैसे निकाल सकते हैं - किसी प्रकार का ऑनलाइन बैंक। और मान लीजिए कि समय-समय पर ग्राहक खातों को उनके सच्चे मालिकों द्वारा दर्ज नहीं किया जाता है, बल्कि पीड़ितों के व्यक्तिगत खातों से जितना संभव हो उतना चोरी करने के लिए स्कैमर्स द्वारा दर्ज किया जाता है। अच्छा, दिलचस्प लगता है, है ना? लेकिन पीसीए का इससे क्या लेना-देना है?

मान लें कि हमारे पास निरंतर चरों के साथ एक बहुत बड़ा डेटा सेट है जो किसी तरह हमारे उपयोगकर्ताओं के व्यवहार की विशेषता बताता है। इन चरों में से कुछ सेकंड में लॉगिन से निकासी तक का समय दें; धन की निकासी के बाद खाते की शेष राशि का अनुपात धन की निकासी से पहले खाते की शेष राशि से; सत्र के दौरान आवेदन में देखे गए पृष्ठों की संख्या; क्लाइंट के पंजीकृत होने के बाद से कितने घंटे बीत चुके हैं, और 100 और बेतरतीब ढंग से उत्पन्न चर जो वास्तविक दुनिया में कुछ समझ में आ सकते हैं। यह बहुत अच्छा होगा यदि हम इन सभी चरों को एक ही समय में एक ही चार्ट पर प्लॉट कर सकें, लेकिन वास्तविक दुनिया में हम 3डी स्पेस तक सीमित हैं। इसलिए, हम एक समय में 3 से अधिक अलग-अलग चरों का विज़ुअल रूप से विश्लेषण नहीं कर सकते हैं।

पीसीए के साथ, हम एक नई समन्वय प्रणाली बना सकते हैं, अक्षों की आवश्यक संख्या का चयन कर सकते हैं और उन पर मौजूदा डेटासेट को प्रतिबिंबित कर सकते हैं। इस प्रकार, हम मूल डेटासेट को केवल 2 (उदाहरण के लिए) नए चरों के साथ एक नए डेटासेट में बदल सकते हैं जो भिन्नता के अधिकतम संभावित अनुपात की व्याख्या करेगा। और इसके अलावा, हम इसे द्वि-आयामी चार्ट पर आसानी से दर्शा सकते हैं। कभी-कभी यह आपको बिंदुओं के कुछ समूहों को देखने की अनुमति देता है, जो कुछ परिकल्पनाओं को बनाने में मदद करता है।

चूंकि हम डेटा उत्पन्न करने जा रहे हैं, हम इस बारे में कुछ अनुमान लगा सकते हैं कि धोखेबाजों को नियमित उपयोगकर्ताओं के प्रति कैसा व्यवहार करना चाहिए। सबसे अधिक संभावना है, किसी और के खाते में प्रवेश करने के बाद, धोखेबाज जितनी जल्दी हो सके सभी उपलब्ध निधियों को वापस लेने का प्रयास करेंगे ताकि स्वचालित पहचान एल्गोरिदम के अंतर्गत न आएं। इस धारणा के आधार पर, हम दो चर उत्पन्न कर सकते हैं: सेकंड_फ्रॉम_लॉगिन और अनुपात_बैलेंस:

डेटा विशेष रूप से उत्पन्न होता है ताकि रिकॉर्ड के पहले भाग में ऑफसेट शून्य के करीब हो, यह हमारी काल्पनिक धोखाधड़ी है

चित्र 1 — सेकंड_से_लॉगिन और अनुपात_बैलेंस स्कैटरप्लॉट

उन चरों के लिए जो आवेदन में देखे गए पृष्ठों की संख्या और ग्राहक के पंजीकृत होने के बाद से बीत चुके घंटों की संख्या का वर्णन करते हैं, हम उन्हें निरंतर चर के रूप में मानेंगे। उदाहरण के लिए, यदि देखे गए पृष्ठों की संख्या 2.134 है, तो इसका मतलब है कि तीसरे पृष्ठ को केवल 13.4% स्क्रॉल किया गया था। इन चरों के लिए, हम एक ही धारणा बनाएंगे कि उनके मूल्य धोखाधड़ी वर्ग और नियमित ग्राहकों के बीच भिन्न होने चाहिए:

शेष 100 चरों के संबंध में, मान लें कि सामान्य तौर पर वे धोखेबाजों और गैर-धोखाधड़ी करने वालों के बीच बिल्कुल भिन्न नहीं हो सकते हैं। इसलिए, हम उन्हें उसी वितरण से उत्पन्न करेंगे:

आइए उपलब्ध डेटा को 1 डेटाफ़्रेम में एकत्र करें और पंक्तियों के पहले भाग को कपटपूर्ण रिकॉर्ड के रूप में चिह्नित करें, जैसा कि हम ऊपर सहमत हुए हैं:

चित्र 2 - सिंथेटिक डेटा की पहली 5 पंक्तियाँ

बढ़िया, हमारे पास 104 अलग-अलग निरंतर चर और 1 लेबल वाला डेटासेट है। अब हम उन्हें कम जगह में प्रदर्शित करना चाहते हैं। उदाहरण के लिए, एक सीधी रेखा पर या एक समतल पर, जितना संभव हो उतना उपयोगी जानकारी दर्शाने के लिए। अजगर और स्किकिट-लर्न की मदद से यह आसान है। इसके लिए बस इतना करना है कि पीसीए वर्ग का एक ऑब्जेक्ट बनाना है, जिसमें प्रमुख घटकों की संख्या निर्दिष्ट करना है जिसके द्वारा मूल डेटा सेट को संपीड़ित किया जाएगा। अर्थात्, यदि हम 1 घटक निर्दिष्ट करते हैं, तो सभी 104 चरों को इस तरह से संकुचित किया जाएगा जैसे कि 1 अक्ष पर प्रदर्शित किया जाना, अधिकतम संभव जानकारी को बनाए रखना; यदि हम 2 निर्दिष्ट करते हैं, तो 2 अक्षों पर और इसी तरह। घटकों का निर्माण कैसे किया जाता है और वास्तव में अंतरिक्ष को कैसे संकुचित किया जाता है, इसके पीछे के सभी गणित के साथ दूसरे खंड में समझाया जाएगा।

चित्र 3 - X 1 मुख्य घटक पर परिलक्षित होता है

चित्र 4 - X 2 मुख्य घटकों पर प्रतिबिंबित होता है

देखिए, इस विशेष मामले में, हम केवल 1-2 घटकों के आधार पर धोखाधड़ी करने वालों को नियमित ग्राहकों से अलग कर सकते हैं। ऐसा भी लगता है कि डेटा में बिल्कुल 2 क्लस्टर बनते हैं। तदनुसार, एक अच्छा बाइनरी क्लासिफायरियर बनाया जा सकता है। उपयोगी जानकारी, है ना? और हम कोड की कुछ पंक्तियों के साथ यह सब समझ गए।

अब आइए जानें कि 2 प्रमुख घटकों का उपयोग करके प्रसरण के कितने प्रतिशत की व्याख्या की गई है:

चित्र 5 - समझाया गया विचरण

निर्मित पीसीए क्लास ऑब्जेक्ट के लिए समझाया_विचरण_अनुपात_ विशेषता संपूर्ण समझाया डेटा भिन्नता का प्रतिशत लौटाती है, जहां सूची तत्व की क्रमिक संख्या मुख्य घटक की संख्या है

चित्र 6 — व्याख्या किए गए प्रसरण का योग

इस प्रकार, लगभग 100% भिन्नता को केवल 2 घटकों द्वारा समझाया गया है। और, उदाहरण के लिए, एक वर्गीकरण मॉडल का निर्माण करते समय, हम मूल 104-आयामी डेटासेट के बजाय केवल 2-आयामी डेटासेट का उपयोग कर सकते हैं।

क्या पीसीए का उपयोग करते समय आपको 1–3 मुख्य घटकों तक सीमित रहने की आवश्यकता है? बिल्कुल नहीं। आपके डेटा में कुछ बुनियादी पैटर्न, यदि कोई हो, को समझने के लिए 1–3 घटकों की कल्पना करना सुविधाजनक है। हालाँकि, दृश्य विश्लेषण पीसीए के लिए एकमात्र उपयोग से बहुत दूर है। आप अंतरिक्ष को इस तरह से संपीड़ित कर सकते हैं कि आप अपनी सुविधाओं की न्यूनतम संख्या के साथ जितना संभव हो उतना व्याख्यात्मक विचरण रखें। इस मामले में, आप अपने एल्गोरिदम के प्रशिक्षण समय को कम कर देंगे।

डेटासेट के आधार पर, प्रमुख घटकों की संख्या बहुत भिन्न हो सकती है। आप अपने लिए बताए गए विचरण का आवश्यक अनुपात निर्धारित कर सकते हैं, उदाहरण के लिए, 90% या 95% और देखें कि स्थान कितना कम हो जाएगा।

अब, हम हाइपरपैरामीटर ट्यूनिंग के बिना 2 रैंडमफ़ॉरेस्ट एल्गोरिदम को प्रशिक्षित करेंगे। पहला मूल डेटा स्थान पर, दूसरा पीसीए की मदद से संकुचित स्थान पर। आइए प्रशिक्षण के समय, साथ ही अंतिम गुणवत्ता का मूल्यांकन करें:

चित्र 7 - आरएफ पूर्ण डेटा आउटपुट

चित्र 8 — RF संपीडित डेटा आउटपुट

हमने गुणवत्ता में थोड़ी कमी की, लेकिन प्रशिक्षण का समय 64% कम कर दिया। वास्तविक दुनिया में, अक्सर ऐसी परिस्थितियाँ होती हैं जहाँ आपको सीमित समय में कई अलग-अलग प्रोटोटाइप आज़माने की आवश्यकता होती है। ऐसी स्थितियों में, सीखने के समय को कम करना बहुत महत्वपूर्ण हो सकता है, खासकर अगर हम लगभग गुणवत्ता नहीं खोते हैं।

खंड 2- शुरुआत से पीसीए बनाना

इस खंड में, हम इस पद्धति के पीछे के गणित का उपयोग करके एक पीसीए कदम दर कदम बनाएंगे। मैं आपको दृढ़ता से सलाह देता हूं कि आप कागज का एक टुकड़ा और एक कलम लें, क्योंकि सब कुछ स्वयं हल करने से आप इस पद्धति में मौजूद तर्क में खुद को बेहतर तरीके से विसर्जित कर सकते हैं। मैं विधि के अंतर्ज्ञान को समझने के लिए इस वीडियो को 3Blue1Brown द्वारा देखने की भी सलाह देता हूं।

डेटा सेट के रूप में, हम दो-आयामी 10x2 मैट्रिक्स का उपयोग करेंगे जिसमें 2 वैक्टर x और y शामिल हैं:

आइए इस डेटा सेट को विमान पर दर्शाते हैं:

चित्र 9 - एक समतल पर x और y

ब्लू क्रॉस पर ध्यान दें। यह वह बिंदु है जिसके निर्देशांक क्रमशः x और y के औसत हैं।

चरण 1 - डेटा को केंद्रित करना

डेटासेट को केंद्रित करने के लिए, आपको सदिश x और y का औसत मान 0 बनाना होगा, इसके लिए, प्रत्येक x[i] से आपको औसत x घटाना होगा, प्रत्येक y[i] से आपको औसत घटाना होगा वाई:

चित्र 10 — मूल और केंद्रित डेटा

ब्लू क्रॉस पर ध्यान दें। केंद्रित होने पर, यह नारंगी क्रॉस के स्थान पर चला जाता है और समन्वय प्रणाली (0; 0) के मूल में हो जाता है। संबंधित बदलाव प्रत्येक नीले बिंदु द्वारा किया जाता है, नारंगी की जगह लेता है।

चित्र 11 — मूल से केंद्रित डेटा तक

चरण 2 - सहप्रसरण मैट्रिक्स की गणना करें

सहप्रसरण मैट्रिक्स एक मैट्रिक्स है जहां प्रसरण मुख्य विकर्ण पर होते हैं, और माने गए चरों के बीच सहप्रसरण शेष कक्षों में होते हैं।

सहप्रसरण माने जाने वाले यादृच्छिक चरों के बीच रैखिक संबंध का एक माप है। एक रैखिक सहसंबंध की तरह, केवल इसके मान -1 से कम और 1 से अधिक हो सकते हैं।

सहप्रसरण की गणना निम्न सूत्र का उपयोग करके की जाती है, जहां n संबंधित स्तंभ की लंबाई है:

फॉर्मूला 1 - सहप्रसरण

लेकिन चूँकि हमने पहले ही डेटा को केंद्रित कर लिया है, और औसत x और y 0 हैं, सूत्र को इस रूप में सरल किया गया है:

सूत्र 2 - केंद्रित डेटा पर सहप्रसरण

और सहप्रसरण मैट्रिक्स स्वयं इस तरह दिखेगा:

सूत्र 3 - सहप्रसरण मैट्रिक्स

अजगर का उपयोग करना, सहप्रसरण मैट्रिक्स की गणना करना बहुत आसान है, बस एक फ़ंक्शन को कॉल करें:

चित्र 12 - अजगर का उपयोग करके परिकलित सहप्रसरण मैट्रिक्स

लेकिन चूंकि हमारे पास सभी आवश्यक सूत्र और चर हैं, आइए यह सुनिश्चित करने के लिए मैन्युअल रूप से सभी की गणना करें कि यह ब्लैक बॉक्स बिल्कुल समझ से बाहर नहीं है जैसा कि यह लग सकता है:

समीकरण 1

मान समझौते में हैं। इसलिए हमने सुनिश्चित किया कि इसमें कोई जादू न हो।

चरण 3 - सहप्रसरण मैट्रिक्स के eigenvalues ​​​​की गणना करें

सरल शब्दों में, जब हम एक सदिश द्वारा एक मैट्रिक्स को गुणा करते हैं, तो हम सदिश के स्थान पर एक रैखिक परिवर्तन लागू कर रहे हैं। इस तरह के परिवर्तन अलग-अलग हो सकते हैं: रोटेशन, स्केलिंग, विरूपण, आदि। सदिश, यह एक ही अक्ष पर रहता है, तो इस सदिश को आइजनवेक्टर कहा जाता है। और जिस गुणांक से इस सदिश की लंबाई को बढ़ाया गया था, उसे मैट्रिक्स का ईजेनवेल्यू कहा जाता है।

चैनल 3ब्लू1ब्राउन के पास इस अवधारणा की शानदार व्याख्या है। यहाँ मैं एक छोटे से उदाहरण के साथ संक्षेप में सार समझाने की कोशिश करूँगा:

चित्र 13 — समांतर चतुर्भुज परावर्तन

हमारे पास मूल आकृति ABCD है, जिसे हम y अक्ष के साथ प्रतिबिम्बित करते हैं। परिणामस्वरूप, आकृति AB*C*D* का स्थान ले लेती है। जैसा कि आप देख सकते हैं, सदिश x उसी अक्ष पर बना रहा, केवल दिशा बदली (x* बन गया)। इसलिए, यह वेक्टर एक ईजेनवेक्टर है, और इस वेक्टर का ईजेनवैल्यू -1 होगा।

अब सदिश y और उसकी दर्पण छवि — y* को देखते हैं। जाहिर है, वे पूरी तरह से अलग-अलग अक्षों पर स्थित हैं। इसलिए, सदिश y इस रैखिक रूपांतरण का आइजनवेक्टर नहीं है।

eigenvectors और eigenvalues ​​​​की गणना करने के लिए, आपको निम्न सूत्र का उपयोग करना चाहिए:

फॉर्मूला 4- ईजेनवेक्टर और ईजेनवैल्यू फॉर्मूला

जहाँ A रैखिक परिवर्तन मैट्रिक्स है, वेक्टर x इस मैट्रिक्स का आइजनवेक्टर है, लैम्ब्डा आइजनवेक्टर x का आइगेनवैल्यू है।

पीसीए में, मैट्रिक्स ए सहप्रसरण मैट्रिक्स कोव है जिसे हमने चरण 2 में परिभाषित किया है, इसलिए हमारा सूत्र होगा:

सूत्र 5— ईजेनवेक्टर और ईजेनवैल्यू सूत्र (2)

इस समीकरण को हल करते हुए, हम सहप्रसरण मैट्रिक्स के eigenvalues ​​​​पाते हैं:

सूत्र 6— विशेषता समीकरण

इस मामले में, या तो वेक्टर x 0 के बराबर है (जो हमारे लिए दिलचस्प नहीं है, क्योंकि हम गैर-शून्य वैक्टर की तलाश कर रहे हैं), या मैट्रिक्स (cov-lambda*I) = 0 (और यह मामला वास्तव में क्या है ज़रुरत है)। एक मैट्रिक्स शून्य के बराबर हो सकता है जब उसका निर्धारक 0. के बराबर होता है और मैट्रिक्स का निर्धारक 0 के बराबर होता है जब मैट्रिक्स में आनुपातिक या शून्य पंक्तियाँ या स्तंभ होते हैं, जो मूल स्थान के संपीड़न को इंगित करता है। इस प्रकार:

समीकरण 2

इस द्विघात समीकरण को हल करने पर, हम इसके मूल ज्ञात करते हैं:

लैम्ब्डा1 = 1.3

लैम्ब्डा2 = 3.3

आइए गणनाओं को numpy के साथ जांचें:

चित्र 14 - numpy के साथ परिकलित eigenvalues

बहुत बढ़िया, हमने लागू रैखिक परिवर्तन के आइगेनमान पाए हैं! अब, उनके आधार पर, हम स्वयं ईजेनवेक्टरों को खोजेंगे।

चरण 4 - सहप्रसरण मैट्रिक्स के eigenvectors खोजें

ईजेनवेक्टरों को खोजने के लिए, समीकरण में पाए गए आइगेनवैल्यूज़ को प्रतिस्थापित करना आवश्यक है, जिसे सूत्र 6 में लाल रंग में हाइलाइट किया गया है। परिणामी समीकरणों की प्रणालियों को एक-एक करके हल करते हुए, हम केवल लागू रैखिक परिवर्तन के आइजनवेक्टरों को खोजेंगे।

लैम्ब्डा 1 के लिए:

समीकरण 3

मान लीजिए x1 = 1, फिर:

ईजेनवेक्टर 1

लैम्ब्डा 2 के लिए इसे इसी तरह माना जाता है। गणना के दौरान, हम पाते हैं कि दूसरा ईजेनवेक्टर इसके बराबर होगा:

ईजेनवेक्टर 2

अब प्रत्येक eigenvectors को उसके मानदंड (लंबाई) से विभाजित किया जाना चाहिए। सदिश लंबाई की गणना निम्न सूत्र का उपयोग करके की जाती है:

फॉर्मूला 7 - एक वेक्टर का मानदंड

सूत्र में प्रत्येक ईजेनवेक्टर के निर्देशांक को प्रतिस्थापित करते हुए, हम पाते हैं कि पहले वेक्टर का मान = 1.31 है, दूसरे वेक्टर का मान 1.55 है। प्रत्येक ईजेनवेक्टर को उसके मानदंड से विभाजित करने पर, हम पाते हैं कि पहले वेक्टर के सामान्यीकृत निर्देशांक हैं:

ईजेनवेक्टर 1 (सामान्यीकृत)

और दूसरे वेक्टर के सामान्यीकृत निर्देशांक हैं:

ईजेनवेक्टर 2 (सामान्यीकृत)

ईजेनवेक्टरों का मैट्रिक्स संबंधित ईजेनवैल्यू के घटने के अनुसार लिखा जाता है, इसलिए, हमारे मामले में, मैट्रिक्स इस तरह दिखेगा:

ईजेनवेक्टरों का मैट्रिक्स

आइए सुनिश्चित करें कि numpy का उपयोग करके हमारी गणना सही है:

चित्र 15 - numpy द्वारा परिकलित eigenvectors

राउंडिंग एरर के लिए एडजस्ट किया गया, ये बिल्कुल वही वेक्टर हैं जिनकी हमने गणना की थी!

इस तथ्य से भ्रमित न हों कि हमारे वैक्टर -1 से गुणा किए गए प्रतीत होते हैं, क्योंकि वे बिल्कुल वही वैक्टर हैं, क्योंकि वे एक ही रेखा पर स्थित हैं। उन लोगों के लिए जो अधिक विस्तृत स्पष्टीकरण चाहते हैं, स्टैक ओवरफ्लो पर कई विषय हैं: लिंक 1 , लिंक 2 , लिंक 3 ।

चरण 5 - मूल स्थान को रूपांतरित करें

पाए गए प्रमुख घटकों पर मूल डेटा प्रदर्शित करने के लिए, ईजेनवेक्टरों के मैट्रिक्स द्वारा केंद्रित मूल मैट्रिक्स को गुणा करना आवश्यक है। इसके अलावा, eigenvectors के मैट्रिक्स में उतने ही कॉलम होने चाहिए जितने मुख्य घटक आप मूल डेटा प्रदर्शित करना चाहते हैं:

चित्र 16 - पीसीए एक्स हाथ से

सत्यापित करें कि स्केलेर से पीसीए वर्ग का उपयोग करके हमारी गणना सही है:

चित्र 17 - स्केलेरन के साथ पीसीए एक्स

राउंडिंग एरर को देखते हुए, हमें बिल्कुल वही मैट्रिक्स मिला जो sklearn PCA देता है।

उपसंहार

जैसा कि हमने देखा है, पीसीए का एक बहुत ही उपयोगी व्यावहारिक अनुप्रयोग है, और यह "ब्लैक बॉक्स" बिल्कुल नहीं है। सभी गणना चरण काफी सरल और समझने योग्य हैं और केवल सटीकता की आवश्यकता है