बिग डेटा एनालिटिक्स - त्वरित गाइड

पिछले एक दशक में जिस डेटा की मात्रा को डील करना है, वह अकल्पनीय स्तर तक पहुंच गया है, और साथ ही, डेटा स्टोरेज की कीमत व्यवस्थित रूप से कम हो गई है। निजी कंपनियां और अनुसंधान संस्थान अपने उपयोगकर्ताओं के इंटरैक्शन, व्यवसाय, सोशल मीडिया और मोबाइल फोन और ऑटोमोबाइल जैसे उपकरणों से सेंसर के बारे में डेटा की टेराबाइट्स पर कब्जा करते हैं। इस युग की चुनौती डेटा के इस समुद्र का बोध कराना है। यह कहाँ हैbig data analytics चित्र में आता है।

बिग डेटा एनालिटिक्स में बड़े पैमाने पर विभिन्न स्रोतों से डेटा एकत्र करना शामिल है, इसे इस तरह से मून करें कि यह विश्लेषकों द्वारा उपभोग किए जाने के लिए उपलब्ध हो जाए और अंत में संगठन व्यवसाय के लिए उपयोगी डेटा उत्पादों को वितरित करें।

बड़ी मात्रा में असंरचित कच्चे डेटा को परिवर्तित करने की प्रक्रिया, संगठनों के लिए उपयोगी डेटा उत्पाद के लिए विभिन्न स्रोतों से प्राप्त बिग डेटा एनालिटिक्स का मूल रूप है।

पारंपरिक डेटा खनन जीवन चक्र

किसी संगठन द्वारा आवश्यक कार्य को व्यवस्थित करने और बिग डेटा से स्पष्ट अंतर्दृष्टि प्रदान करने के लिए एक ढांचा प्रदान करने के लिए, इसे विभिन्न चरणों के साथ एक चक्र के रूप में सोचना उपयोगी है। यह किसी भी तरह से रैखिक नहीं है, जिसका अर्थ है कि सभी चरण एक-दूसरे से संबंधित हैं। इस चक्र में अधिक पारंपरिक डेटा खनन चक्र के साथ सतही समानताएं हैं जैसा कि वर्णित हैCRISP methodology

CRISP-DM कार्यप्रणाली

CRISP-DM methodologyजो डेटा माइनिंग के लिए क्रॉस इंडस्ट्री स्टैंडर्ड प्रोसेस के लिए खड़ा है, एक ऐसा चक्र है जो आमतौर पर उपयोग किए जाने वाले दृष्टिकोणों का वर्णन करता है जो डेटा खनन विशेषज्ञ पारंपरिक बीआई खनन में समस्याओं से निपटने के लिए उपयोग करते हैं। यह अभी भी पारंपरिक बीआई डेटा खनन टीमों में उपयोग किया जा रहा है।

निम्नलिखित दृष्टांत पर एक नज़र डालें। यह चक्र के प्रमुख चरणों को दिखाता है जैसा कि सीआरआईएसपी-डीएम पद्धति द्वारा वर्णित है और उनका परस्पर संबंध कैसे है।

1996 में CRISP-DM की परिकल्पना की गई थी और अगले वर्ष, यह ESPRIT फंडिंग पहल के तहत एक यूरोपीय संघ परियोजना के रूप में चल रही थी। इस परियोजना का नेतृत्व पांच कंपनियों ने किया था: एसपीएसएस, टेराडाटा, डेमलर एजी, एनसीआर कॉर्पोरेशन और ओएचआरए (एक बीमा कंपनी)। परियोजना को अंततः SPSS में शामिल किया गया था। कार्यप्रणाली अत्यंत विस्तृत है कि डेटा खनन परियोजना को कैसे निर्दिष्ट किया जाना चाहिए।

आइए अब CRISP-DM जीवन चक्र में शामिल प्रत्येक चरण पर थोड़ा और जानें -

  • Business Understanding- यह प्रारंभिक चरण एक व्यावसायिक दृष्टिकोण से परियोजना के उद्देश्यों और आवश्यकताओं को समझने पर केंद्रित है, और फिर इस ज्ञान को डेटा खनन समस्या की परिभाषा में परिवर्तित कर रहा है। एक प्रारंभिक योजना उद्देश्यों को प्राप्त करने के लिए डिज़ाइन की गई है। एक निर्णय मॉडल, विशेष रूप से निर्णय मॉडल और अंकन मानक का उपयोग करके निर्मित एक का उपयोग किया जा सकता है।

  • Data Understanding - डेटा समझ का चरण एक प्रारंभिक डेटा संग्रह के साथ शुरू होता है और डेटा से परिचित होने के लिए, डेटा की गुणवत्ता की समस्याओं की पहचान करने, डेटा में पहली अंतर्दृष्टि की खोज करने के लिए या छिपी जानकारी के लिए परिकल्पना बनाने के लिए दिलचस्प सबसेट का पता लगाने के लिए गतिविधियों के साथ आगे बढ़ता है।

  • Data Preparation- डेटा तैयारी चरण प्रारंभिक कच्चे डेटा से अंतिम डेटासेट (डेटा जो मॉडलिंग टूल (एस)) में खिलाया जाएगा) के निर्माण के लिए सभी गतिविधियों को कवर करता है। डेटा तैयारी कार्य कई बार किए जाने की संभावना है, और किसी भी निर्धारित क्रम में नहीं। कार्य में तालिका, रिकॉर्ड और विशेषता चयन के साथ-साथ मॉडलिंग टूल के लिए डेटा का रूपांतरण और सफाई शामिल है।

  • Modeling- इस चरण में, विभिन्न मॉडलिंग तकनीकों को चुना जाता है और लागू किया जाता है और उनके मापदंडों को इष्टतम मूल्यों पर कैलिब्रेट किया जाता है। आमतौर पर, समान डेटा खनन समस्या प्रकार के लिए कई तकनीकें होती हैं। कुछ तकनीकों में डेटा के रूप में विशिष्ट आवश्यकताएं हैं। इसलिए, अक्सर डेटा तैयारी चरण पर वापस जाने की आवश्यकता होती है।

  • Evaluation- परियोजना में इस स्तर पर, आपने एक मॉडल (या मॉडल) बनाया है जो डेटा विश्लेषण के दृष्टिकोण से उच्च गुणवत्ता वाला प्रतीत होता है। मॉडल की अंतिम तैनाती के लिए आगे बढ़ने से पहले, मॉडल का अच्छी तरह से मूल्यांकन करना और मॉडल के निर्माण के लिए निष्पादित चरणों की समीक्षा करना महत्वपूर्ण है, यह सुनिश्चित करने के लिए कि यह व्यावसायिक उद्देश्यों को ठीक से प्राप्त करता है।

    एक महत्वपूर्ण उद्देश्य यह निर्धारित करना है कि क्या कोई महत्वपूर्ण व्यवसाय मुद्दा है जिसे पर्याप्त रूप से नहीं माना गया है। इस चरण के अंत में, डेटा खनन परिणामों के उपयोग पर एक निर्णय पर पहुंचा जाना चाहिए।

  • Deployment- मॉडल का निर्माण आमतौर पर परियोजना का अंत नहीं है। यहां तक ​​कि अगर मॉडल का उद्देश्य डेटा के ज्ञान को बढ़ाना है, तो प्राप्त ज्ञान को ग्राहक के लिए उपयोगी तरीके से व्यवस्थित और प्रस्तुत करने की आवश्यकता होगी।

    आवश्यकताओं के आधार पर, परिनियोजन चरण एक रिपोर्ट उत्पन्न करने के रूप में या एक दोहराए जाने योग्य डेटा स्कोरिंग (जैसे खंड आवंटन) या डेटा खनन प्रक्रिया को लागू करने के रूप में जटिल हो सकता है।

कई मामलों में, यह ग्राहक होगा, न कि डेटा विश्लेषक, जो तैनाती के चरणों को पूरा करेगा। भले ही विश्लेषक मॉडल को चित्रित करता है, लेकिन ग्राहक के लिए उन क्रियाओं को समझना महत्वपूर्ण है जिन्हें वास्तव में बनाए गए मॉडल का उपयोग करने के लिए बाहर ले जाने की आवश्यकता होगी।

SEMMA पद्धति

SEMMA डेटा माइनिंग मॉडलिंग के लिए एसएएस द्वारा विकसित एक अन्य कार्यप्रणाली है। इसका अर्थ हैSपर्याप्त, Eएक्सप्लोर, Modify, Mओडेल, और Asses। यहाँ इसके चरणों का संक्षिप्त विवरण दिया गया है -

  • Sample- प्रक्रिया डेटा सैंपलिंग से शुरू होती है, जैसे, मॉडलिंग के लिए डेटासेट का चयन करना। डेटासेट पुनः प्राप्त करने के लिए पर्याप्त जानकारी रखने के लिए पर्याप्त बड़ा होना चाहिए, फिर भी कुशलता से उपयोग करने के लिए पर्याप्त छोटा है। यह चरण डेटा विभाजन से भी संबंधित है।

  • Explore - यह चरण डेटा विज़ुअलाइज़ेशन की मदद से चरों के बीच प्रत्याशित और अप्रत्याशित संबंधों और असामान्यताओं की खोज करके डेटा की समझ को कवर करता है।

  • Modify - संशोधित चरण में डेटा मॉडलिंग के लिए तैयारी में चर का चयन, निर्माण और परिवर्तन करने के तरीके शामिल हैं।

  • Model - मॉडल चरण में, मॉडल बनाने के लिए तैयार चर पर विभिन्न मॉडलिंग (डेटा माइनिंग) तकनीकों को लागू करने पर ध्यान केंद्रित किया गया है जो संभवतः वांछित परिणाम प्रदान करते हैं।

  • Assess - मॉडलिंग परिणामों के मूल्यांकन से निर्मित मॉडलों की विश्वसनीयता और उपयोगिता का पता चलता है।

CRISM-DM और SEMMA के बीच मुख्य अंतर यह है कि SEMMA मॉडलिंग पहलू पर ध्यान केंद्रित करता है, जबकि CRISP-DM मॉडलिंग से पहले चक्र के चरणों को अधिक महत्व देता है जैसे कि डेटा की समस्या को हल करने के लिए, डेटा को समझने और समझने के लिए। इनपुट के रूप में उपयोग किया जाता है, उदाहरण के लिए, मशीन लर्निंग एल्गोरिदम।

बिग डेटा लाइफ साइकिल

आज के बड़े डेटा संदर्भ में, पिछले दृष्टिकोण या तो अधूरे हैं या उप-रूपी हैं। उदाहरण के लिए, SEMMA पद्धति पूरी तरह से डेटा संग्रह और विभिन्न डेटा स्रोतों के प्रीप्रोसेसिंग की उपेक्षा करती है। ये चरण सामान्य रूप से एक सफल बड़े डेटा प्रोजेक्ट में अधिकांश कार्य का गठन करते हैं।

एक बड़ा डेटा एनालिटिक्स चक्र निम्नलिखित चरण द्वारा वर्णित किया जा सकता है -

  • व्यावसायिक समस्या परिभाषा
  • Research
  • मानव संसाधन मूल्यांकन
  • आंकड़ा अधिग्रहण
  • डाटा मुंगिंग
  • आधार सामग्री भंडारण
  • अन्वेषणात्मक डेटा विश्लेषण
  • मॉडलिंग और मूल्यांकन के लिए डेटा तैयारी
  • Modeling
  • Implementation

इस खंड में, हम बड़े डेटा जीवन चक्र के इन चरणों में से प्रत्येक पर कुछ प्रकाश फेंकेंगे।

व्यावसायिक समस्या परिभाषा

यह पारंपरिक बीआई और बड़े डेटा एनालिटिक्स जीवन चक्र में एक सामान्य बिंदु है। आम तौर पर यह समस्या को परिभाषित करने और एक संगठन के लिए कितना संभावित लाभ हो सकता है इसका सही मूल्यांकन करने के लिए एक बड़ी डेटा परियोजना का एक गैर-तुच्छ चरण है। इसका उल्लेख करना स्पष्ट प्रतीत होता है, लेकिन इसका मूल्यांकन किया जाना चाहिए कि परियोजना के अपेक्षित लाभ और लागत क्या हैं।

अनुसंधान

विश्लेषण करें कि अन्य कंपनियों ने एक ही स्थिति में क्या किया है। इसमें उन समाधानों की तलाश शामिल है जो आपकी कंपनी के लिए उचित हैं, हालांकि इसमें उन संसाधनों और आवश्यकताओं के लिए अन्य समाधानों का पालन करना शामिल है जो आपकी कंपनी के पास हैं। इस चरण में, भविष्य के चरणों के लिए एक कार्यप्रणाली को परिभाषित किया जाना चाहिए।

मानव संसाधन मूल्यांकन

एक बार समस्या को परिभाषित करने के बाद, यह विश्लेषण करना जारी रखना उचित है कि क्या वर्तमान कर्मचारी परियोजना को सफलतापूर्वक पूरा करने में सक्षम है। पारंपरिक बीआई टीमें सभी चरणों में एक इष्टतम समाधान देने में सक्षम नहीं हो सकती हैं, इसलिए परियोजना शुरू करने से पहले इस पर विचार किया जाना चाहिए कि क्या परियोजना का एक हिस्सा आउटसोर्स करने या अधिक लोगों को नियुक्त करने की आवश्यकता है।

आंकड़ा अधिग्रहण

यह खंड एक बड़े डेटा जीवन चक्र में महत्वपूर्ण है; यह परिभाषित करता है कि परिणामी डेटा उत्पाद को वितरित करने के लिए किस प्रकार के प्रोफाइल की आवश्यकता होगी। डेटा एकत्र करना प्रक्रिया का एक गैर-तुच्छ चरण है; इसमें आम तौर पर विभिन्न स्रोतों से असंरचित डेटा एकत्र करना शामिल है। एक उदाहरण देने के लिए, यह एक वेबसाइट से समीक्षा प्राप्त करने के लिए क्रॉलर लिखना शामिल कर सकता है। इसमें पाठ के साथ काम करना शामिल है, शायद विभिन्न भाषाओं में आम तौर पर महत्वपूर्ण मात्रा में पूरा होने की आवश्यकता होती है।

डाटा मुंगिंग

एक बार डेटा पुनर्प्राप्त करने के बाद, उदाहरण के लिए, वेब से, इसे एक आसान-उपयोग प्रारूप में संग्रहीत किया जाना चाहिए। समीक्षाओं के उदाहरणों के साथ जारी रखने के लिए, मान लें कि डेटा को विभिन्न साइटों से पुनर्प्राप्त किया जाता है जहां प्रत्येक में डेटा का एक अलग प्रदर्शन होता है।

मान लीजिए कि एक डेटा स्रोत सितारों में रेटिंग के संदर्भ में समीक्षा देता है, इसलिए प्रतिक्रिया चर के लिए मानचित्रण के रूप में इसे पढ़ना संभव है y ∈ {1, 2, 3, 4, 5}। एक अन्य डेटा स्रोत दो एरो सिस्टम का उपयोग करके समीक्षा करता है, एक अप वोटिंग के लिए और दूसरा डाउन वोटिंग के लिए। यह फॉर्म का एक प्रतिक्रिया चर होगाy ∈ {positive, negative}

दोनों डेटा स्रोतों को संयोजित करने के लिए, इन दो प्रतिक्रिया अभ्यावेदन को समतुल्य बनाने के लिए एक निर्णय लेना होगा। इसमें पहले डेटा स्रोत प्रतिक्रिया प्रतिनिधित्व को दूसरे रूप में परिवर्तित करना शामिल हो सकता है, एक स्टार को नकारात्मक और पांच सितारों को सकारात्मक माना जा सकता है। इस प्रक्रिया में अक्सर अच्छी गुणवत्ता के साथ बड़े समय के आवंटन की आवश्यकता होती है।

आधार सामग्री भंडारण

डेटा संसाधित होने के बाद, इसे कभी-कभी किसी डेटाबेस में संग्रहीत करने की आवश्यकता होती है। बड़ी डेटा प्रौद्योगिकियां इस बिंदु के बारे में बहुत सारे विकल्प प्रदान करती हैं। सबसे आम विकल्प भंडारण के लिए Hadoop फ़ाइल सिस्टम का उपयोग करना है जो उपयोगकर्ताओं को SQL का एक सीमित संस्करण प्रदान करता है, जिसे HIVE क्वेरी भाषा के रूप में जाना जाता है। यह अधिकांश विश्लेषिकी कार्य को उसी तरह से करने की अनुमति देता है जैसे कि उपयोगकर्ता के दृष्टिकोण से पारंपरिक बीआई डेटा वेयरहाउस में किया जाएगा। माना जाने वाला अन्य स्टोरेज विकल्प MongoDB, Redis और SPARK हैं।

चक्र का यह चरण विभिन्न संसाधनों को लागू करने की उनकी क्षमताओं के संदर्भ में मानव संसाधन ज्ञान से संबंधित है। पारंपरिक डेटा वेयरहाउस के संशोधित संस्करण अभी भी बड़े पैमाने पर अनुप्रयोगों में उपयोग किए जा रहे हैं। उदाहरण के लिए, टेराडाटा और आईबीएम SQL डेटाबेस प्रदान करते हैं जो डेटा के टेराबाइट्स को संभाल सकते हैं; पोस्टग्रेएसक्यूएल और मायएससी जैसे ओपन सोर्स समाधान अभी भी बड़े पैमाने पर अनुप्रयोगों के लिए उपयोग किए जा रहे हैं।

भले ही क्लाइंट की तरफ से बैकग्राउंड में अलग-अलग स्टोरेज काम करने के तरीके में अंतर हो, लेकिन ज्यादातर समाधान SQL API प्रदान करते हैं। इसलिए SQL की अच्छी समझ होना अभी भी बड़े डेटा एनालिटिक्स के लिए एक महत्वपूर्ण कौशल है।

इस चरण में एक प्राथमिकता सबसे महत्वपूर्ण विषय लगती है, व्यवहार में, यह सच नहीं है। यह एक आवश्यक चरण भी नहीं है। एक बड़े डेटा समाधान को लागू करना संभव है जो वास्तविक समय के डेटा के साथ काम कर रहा है, इसलिए इस मामले में, हमें केवल मॉडल को विकसित करने और फिर इसे वास्तविक समय में लागू करने के लिए डेटा इकट्ठा करने की आवश्यकता है। इसलिए डेटा को औपचारिक रूप से संग्रहीत करने की आवश्यकता नहीं होगी।

अन्वेषणात्मक डेटा विश्लेषण

एक बार जब डेटा को साफ कर लिया जाता है और इसे इस तरह से संग्रहित किया जाता है कि अंतर्दृष्टि इससे पुनर्प्राप्त की जा सकती है, तो डेटा अन्वेषण चरण अनिवार्य है। इस चरण का उद्देश्य डेटा को समझना है, यह आमतौर पर सांख्यिकीय तकनीकों के साथ किया जाता है और डेटा की साजिश भी करता है। यह मूल्यांकन करने के लिए एक अच्छा चरण है कि क्या समस्या की परिभाषा समझ में आती है या संभव है।

मॉडलिंग और मूल्यांकन के लिए डेटा तैयारी

इस चरण में पहले से पुनर्प्राप्त किए गए साफ किए गए डेटा को फिर से आकार देना और लापता मानों के प्रतिरूपण, बाहरी पहचान, सामान्यीकरण, सुविधा निष्कर्षण और सुविधा चयन के लिए सांख्यिकीय प्रीप्रोसेसिंग का उपयोग करना शामिल है।

मोडलिंग

पूर्व चरण में प्रशिक्षण और परीक्षण के लिए कई डेटासेट का उत्पादन किया जाना चाहिए, उदाहरण के लिए, एक पूर्वानुमान मॉडल। इस चरण में विभिन्न मॉडलों की कोशिश करना और हाथ में व्यावसायिक समस्या को हल करने के लिए तत्पर रहना शामिल है। व्यवहार में, यह आमतौर पर वांछित है कि मॉडल व्यवसाय में कुछ अंतर्दृष्टि देगा। अंत में, मॉडल का सबसे अच्छा मॉडल या संयोजन एक बाएं-आउट डेटासेट पर इसके प्रदर्शन का मूल्यांकन करता है।

कार्यान्वयन

इस चरण में, विकसित किए गए डेटा उत्पाद को कंपनी के डेटा पाइपलाइन में लागू किया जाता है। इसमें एक मान्यकरण योजना स्थापित करना शामिल है, जबकि डेटा उत्पाद काम कर रहा है, ताकि इसके प्रदर्शन को ट्रैक किया जा सके। उदाहरण के लिए, एक पूर्वानुमान मॉडल को लागू करने के मामले में, इस चरण में मॉडल को नए डेटा पर लागू करना और प्रतिक्रिया उपलब्ध होने के बाद, मॉडल का मूल्यांकन करना शामिल होगा।

कार्यप्रणाली के संदर्भ में, बड़े डेटा विश्लेषण प्रायोगिक डिजाइन के पारंपरिक सांख्यिकीय दृष्टिकोण से काफी भिन्न होते हैं। एनालिटिक्स की शुरुआत डेटा से होती है। आम तौर पर हम प्रतिक्रिया को समझाने के लिए डेटा को एक तरह से मॉडल करते हैं। इस दृष्टिकोण का उद्देश्य प्रतिक्रिया व्यवहार की भविष्यवाणी करना है या यह समझना है कि इनपुट चर एक प्रतिक्रिया से कैसे संबंधित हैं। आम तौर पर सांख्यिकीय प्रयोगात्मक डिजाइनों में, एक प्रयोग विकसित किया जाता है और डेटा परिणामस्वरूप प्राप्त होता है। यह एक तरह से डेटा उत्पन्न करने की अनुमति देता है जिसका उपयोग सांख्यिकीय मॉडल द्वारा किया जा सकता है, जहां कुछ धारणाएं स्वतंत्रता, सामान्यता और यादृच्छिकता जैसे धारण करती हैं।

बड़े डेटा एनालिटिक्स में, हमें डेटा के साथ प्रस्तुत किया जाता है। हम एक प्रयोग डिजाइन नहीं कर सकते हैं जो हमारे पसंदीदा सांख्यिकीय मॉडल को पूरा करता है। एनालिटिक्स के बड़े पैमाने के अनुप्रयोगों में, बड़ी मात्रा में काम (आमतौर पर प्रयास का 80%) की आवश्यकता केवल डेटा को साफ करने के लिए होती है, इसलिए इसका उपयोग मशीन लर्निंग मॉडल द्वारा किया जा सकता है।

हमारे पास वास्तविक बड़े पैमाने पर अनुप्रयोगों का पालन करने के लिए एक अद्वितीय पद्धति नहीं है। व्यवसाय की समस्या को परिभाषित करने के बाद, कार्यप्रणाली का उपयोग करने के लिए एक शोध चरण की आवश्यकता होती है। हालांकि सामान्य दिशानिर्देशों का उल्लेख किया जाना प्रासंगिक है और लगभग सभी समस्याओं पर लागू होता है।

बड़े डेटा एनालिटिक्स में सबसे महत्वपूर्ण कार्यों में से एक है statistical modeling, जिसका अर्थ है पर्यवेक्षित और असुरक्षित वर्गीकरण या प्रतिगमन समस्याएं। एक बार जब डेटा को साफ और प्रीप्रोसेस किया जाता है, तो मॉडलिंग के लिए उपलब्ध है, उचित हानि मैट्रिक्स के साथ विभिन्न मॉडलों का मूल्यांकन करने में ध्यान रखा जाना चाहिए और फिर मॉडल लागू होने के बाद, आगे के मूल्यांकन और परिणामों की रिपोर्ट की जानी चाहिए। प्रेडिक्टिव मॉडलिंग में एक आम नुकसान सिर्फ मॉडल लागू करना और उसके प्रदर्शन को मापना नहीं है।

जैसा कि बड़े डेटा जीवन चक्र में उल्लेख किया गया है, डेटा उत्पाद जो एक बड़े डेटा उत्पाद को विकसित करने से उत्पन्न होते हैं, उनमें से अधिकांश मामलों में निम्नलिखित में से कुछ हैं -

  • Machine learning implementation - यह एक वर्गीकरण एल्गोरिथ्म, एक प्रतिगमन मॉडल या एक विभाजन मॉडल हो सकता है।

  • Recommender system - उद्देश्य एक ऐसी प्रणाली विकसित करना है जो उपयोगकर्ता के व्यवहार के आधार पर विकल्पों की सिफारिश करता है। Netflix इस डेटा उत्पाद का एक विशिष्ट उदाहरण है, जहां उपयोगकर्ताओं की रेटिंग के आधार पर अन्य फिल्मों की सिफारिश की जाती है।

  • Dashboard- व्यवसाय को आम तौर पर समग्र डेटा की कल्पना करने के लिए उपकरणों की आवश्यकता होती है। एक डैशबोर्ड इस डेटा को सुलभ बनाने के लिए एक ग्राफिकल तंत्र है।

  • Ad-Hoc analysis - आम तौर पर व्यावसायिक क्षेत्रों में प्रश्न, परिकल्पना या मिथक होते हैं, जिनका डेटा के साथ तदर्थ विश्लेषण करने पर उत्तर दिया जा सकता है।

बड़े संगठनों में, एक बड़ी डेटा परियोजना को सफलतापूर्वक विकसित करने के लिए, इस परियोजना का प्रबंधन करने की आवश्यकता होती है। इसमें आम तौर पर परियोजना के व्यावसायिक लाभों को दिखाने का एक तरीका शामिल होता है। हमारे पास किसी परियोजना के लिए प्रायोजक खोजने की समस्या का एक अनूठा समाधान नहीं है, लेकिन कुछ दिशानिर्देश नीचे दिए गए हैं -

  • जाँच करें कि कौन और कहाँ अन्य परियोजनाओं के प्रायोजक हैं जो आपके हितों के समान हैं।

  • प्रमुख प्रबंधन पदों में व्यक्तिगत संपर्क रखने से मदद मिलती है, इसलिए यदि परियोजना आशाजनक है तो किसी भी संपर्क को ट्रिगर किया जा सकता है।

  • आपके प्रोजेक्ट से किसे फायदा होगा? एक बार प्रोजेक्ट ट्रैक पर आने के बाद आपका ग्राहक कौन होगा?

  • एक सरल, स्पष्ट, और बाहर निकलने का प्रस्ताव विकसित करें और इसे अपने संगठन के प्रमुख खिलाड़ियों के साथ साझा करें।

किसी परियोजना के लिए प्रायोजकों को खोजने का सबसे अच्छा तरीका समस्या को समझना है और इसके लागू होने के बाद परिणामी डेटा उत्पाद क्या होगा। यह समझ बड़ी डेटा परियोजना के महत्व के प्रबंधन को आश्वस्त करने में एक बढ़त देगा।

एक डेटा एनालिस्ट की रिपोर्टिंग ओरिएंटेड प्रोफाइल होती है, जिसमें SQL का इस्तेमाल करके पारंपरिक डेटा वेयरहाउस से डेटा निकालने और उसका विश्लेषण करने का अनुभव होता है। उनके कार्य आम तौर पर या तो डेटा भंडारण के पक्ष में होते हैं या सामान्य व्यावसायिक परिणामों की रिपोर्टिंग में। डेटा वेयरहाउसिंग किसी भी तरह से सरल नहीं है, यह सिर्फ एक डेटा वैज्ञानिक के लिए अलग है।

कई संगठन बाजार में सक्षम डेटा वैज्ञानिकों को खोजने के लिए कड़ी मेहनत करते हैं। हालांकि, भावी डेटा विश्लेषकों का चयन करना और उन्हें डेटा वैज्ञानिक बनने के लिए प्रासंगिक कौशल सिखाना एक अच्छा विचार है। यह किसी भी तरह से एक तुच्छ कार्य नहीं है और सामान्य रूप से मात्रात्मक क्षेत्र में मास्टर डिग्री करने वाले व्यक्ति को शामिल करेगा, लेकिन यह निश्चित रूप से एक व्यवहार्य विकल्प है। बुनियादी कौशल सक्षम डेटा विश्लेषक नीचे सूचीबद्ध होना चाहिए -

  • व्यापार की समझ
  • एसक्यूएल प्रोग्रामिंग
  • रिपोर्ट डिजाइन और कार्यान्वयन
  • डैशबोर्ड का विकास

डेटा साइंटिस्ट की भूमिका आम तौर पर प्रेडिक्टिव मॉडलिंग, डेवलपमेंट सेगमेंट एल्गोरिदम, रिकमेंडर सिस्टम, ए / बी टेस्टिंग फ्रेमवर्क और अक्सर रॉ अनस्ट्रक्चर्ड डेटा के साथ काम करने जैसे कार्यों से जुड़ी होती है।

उनके काम की प्रकृति गणित, अनुप्रयुक्त सांख्यिकी और प्रोग्रामिंग की गहरी समझ की मांग करती है। डेटा विश्लेषक और डेटा वैज्ञानिक के बीच कुछ कौशल सामान्य हैं, उदाहरण के लिए, डेटाबेस को क्वेरी करने की क्षमता। दोनों डेटा का विश्लेषण करते हैं, लेकिन डेटा वैज्ञानिक के निर्णय से किसी संगठन में अधिक प्रभाव पड़ सकता है।

यहां उन कौशलों का एक सेट है जो एक डेटा वैज्ञानिक को सामान्य रूप से करने की आवश्यकता होती है -

  • एक सांख्यिकीय पैकेज में प्रोग्रामिंग जैसे: आर, पायथन, एसएएस, एसपीएसएस या जूलिया
  • विभिन्न स्रोतों से डेटा को साफ करने, निकालने और खोजने में सक्षम
  • सांख्यिकीय मॉडलों का अनुसंधान, डिजाइन और कार्यान्वयन
  • गहन सांख्यिकीय, गणितीय और कंप्यूटर विज्ञान ज्ञान

बड़े डेटा एनालिटिक्स में, लोग आमतौर पर डेटा आर्किटेक्ट के साथ डेटा वैज्ञानिक की भूमिका को भ्रमित करते हैं। वास्तव में, अंतर काफी सरल है। एक डेटा आर्किटेक्ट उपकरण को परिभाषित करता है और डेटा को आर्किटेक्चर में संग्रहीत किया जाएगा, जबकि एक डेटा वैज्ञानिक इस आर्किटेक्चर का उपयोग करता है। बेशक, एक डेटा वैज्ञानिक को नए उपकरणों को स्थापित करने में सक्षम होना चाहिए, अगर तदर्थ परियोजनाओं के लिए आवश्यक हो, लेकिन बुनियादी ढांचे की परिभाषा और डिजाइन उनके कार्य का हिस्सा नहीं होना चाहिए।

इस ट्यूटोरियल के माध्यम से, हम एक प्रोजेक्ट विकसित करेंगे। इस ट्यूटोरियल में प्रत्येक बाद का अध्याय मिनी-प्रोजेक्ट अनुभाग में बड़ी परियोजना के एक हिस्से से संबंधित है। यह एक लागू ट्यूटोरियल अनुभाग माना जाता है जो वास्तविक दुनिया की समस्या को उजागर करेगा। इस मामले में, हम परियोजना की समस्या की परिभाषा के साथ शुरू करेंगे।

परियोजना विवरण

इस परियोजना का उद्देश्य इनपुट के माध्यम से अपने पाठ्यक्रम vitae (CV) पाठ का उपयोग करके लोगों के प्रति घंटे के वेतन की भविष्यवाणी करने के लिए मशीन लर्निंग मॉडल विकसित करना होगा।

ऊपर परिभाषित रूपरेखा का उपयोग करना, समस्या को परिभाषित करना सरल है। हम X = {x 1 , x 2 ,…, x n } को उपयोगकर्ताओं के CV के रूप में परिभाषित कर सकते हैं , जहां प्रत्येक सुविधा सबसे सरल तरीके से संभव हो सकती है, यह शब्द जितनी बार दिखाई देता है। तब प्रतिक्रिया वास्तविक मूल्य है, हम डॉलर में व्यक्तियों के प्रति घंटे के वेतन की भविष्यवाणी करने की कोशिश कर रहे हैं।

ये दो विचार यह निष्कर्ष निकालने के लिए पर्याप्त हैं कि प्रस्तुत समस्या को एक पर्यवेक्षित प्रतिगमन एल्गोरिथ्म के साथ हल किया जा सकता है।

समस्या की परिभाषा

Problem Definitionसंभवतः बड़े डेटा एनालिटिक्स पाइपलाइन में सबसे जटिल और भारी उपेक्षित चरणों में से एक है। समस्या को परिभाषित करने के लिए डेटा उत्पाद हल करेगा, अनुभव अनिवार्य है। अधिकांश डेटा वैज्ञानिक उम्मीदवारों को इस चरण में बहुत कम या कोई अनुभव नहीं है।

अधिकांश बड़ी डेटा समस्याओं को निम्नलिखित तरीकों से वर्गीकृत किया जा सकता है -

  • पर्यवेक्षित वर्गीकरण
  • पर्यवेक्षित प्रतिगमन
  • अशिक्षित शिक्षा
  • रैंक करना सीखना

आइए अब हम इन चार अवधारणाओं के बारे में अधिक जानें।

पर्यवेक्षित वर्गीकरण

X = {x 1 , x 2 , ..., x n } सुविधाओं के एक मैट्रिक्स को देखते हुए हम y = {c 1 , c 2 , ..., c n } के रूप में परिभाषित विभिन्न वर्गों की भविष्यवाणी करने के लिए एक मॉडल M विकसित करते हैं । उदाहरण के लिए: किसी बीमा कंपनी में ग्राहकों के लेन-देन संबंधी डेटा को देखते हुए, एक मॉडल विकसित करना संभव है जो भविष्यवाणी करेगा कि ग्राहक मंथन करेगा या नहीं। उत्तरार्द्ध एक द्विआधारी वर्गीकरण समस्या है, जहां दो वर्ग या लक्ष्य चर हैं: मंथन और मंथन नहीं।

अन्य समस्याओं में एक से अधिक वर्ग की भविष्यवाणी करना शामिल है, हम अंक पहचान करने में रुचि रख सकते हैं, इसलिए प्रतिक्रिया वेक्टर को इस प्रकार परिभाषित किया जाएगा: y = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9} , अत्याधुनिक मॉडल कन्वेन्शनल न्यूरल नेटवर्क होगा और फीचर्स के मैट्रिक्स को इमेज के पिक्सल के रूप में परिभाषित किया जाएगा।

पर्यवेक्षित प्रतिगमन

इस मामले में, समस्या की परिभाषा पिछले उदाहरण के समान है; अंतर प्रतिक्रिया पर निर्भर करता है। एक प्रतिगमन समस्या में, प्रतिक्रिया y reg,, इसका मतलब है कि प्रतिक्रिया वास्तविक मूल्य है। उदाहरण के लिए, हम एक मॉडल विकसित कर सकते हैं जो व्यक्तियों के प्रति घंटे के वेतन की भविष्यवाणी करने के लिए उनके सीवी को प्रदान करता है।

अनसुनी लर्निंग

प्रबंधन अक्सर नई अंतर्दृष्टि के लिए प्यासा होता है। विपणन विभाग विभिन्न खंडों के लिए उत्पादों को विकसित करने के लिए सेगमेंटेशन मॉडल इस अंतर्दृष्टि प्रदान कर सकते हैं। एल्गोरिदम के बारे में सोचने के बजाय एक विभाजन मॉडल विकसित करने के लिए एक अच्छा तरीका उन विशेषताओं का चयन करना है जो वांछित विभाजन के लिए प्रासंगिक हैं।

उदाहरण के लिए, एक दूरसंचार कंपनी में, अपने सेलफोन के उपयोग से ग्राहकों को प्रभावित करना दिलचस्प है। इसमें ऐसी अवहेलना करने वाली सुविधाएँ शामिल होंगी जिनका विभाजन उद्देश्य से कोई लेना-देना नहीं है और इसमें केवल वे ही शामिल हैं। इस स्थिति में, यह एक महीने में उपयोग किए जाने वाले एसएमएस की संख्या, इनबाउंड और आउटबाउंड मिनटों की संख्या आदि के रूप में सुविधाओं का चयन करेगा।

रैंक के लिए सीखना

इस समस्या को एक प्रतिगमन समस्या के रूप में माना जा सकता है, लेकिन इसकी विशेष विशेषताएं हैं और एक अलग उपचार के योग्य हैं। समस्या में उन दस्तावेज़ों का एक संग्रह शामिल है जिन्हें हम एक क्वेरी द्वारा दिए गए सबसे प्रासंगिक आदेश को खोजने के लिए चाहते हैं। एक पर्यवेक्षित शिक्षण एल्गोरिथ्म को विकसित करने के लिए, यह एक क्रमबद्ध करने के लिए आवश्यक है कि एक क्वेरी को देखते हुए कितना प्रासंगिक है।

यह ध्यान रखना प्रासंगिक है कि पर्यवेक्षित शिक्षण एल्गोरिथ्म को विकसित करने के लिए, प्रशिक्षण डेटा को लेबल करना आवश्यक है। इसका मतलब है कि एक मॉडल को प्रशिक्षित करने के लिए, उदाहरण के लिए, किसी छवि से अंकों को पहचानना, हमें उदाहरण के लिए महत्वपूर्ण मात्रा को हाथ से लेबल करना होगा। ऐसी वेब सेवाएँ हैं जो इस प्रक्रिया को गति दे सकती हैं और आमतौर पर इस कार्य के लिए उपयोग की जाती हैं जैसे कि amazon मैकेनिकल टर्क। यह साबित होता है कि अधिक डेटा प्रदान करने पर लर्निंग एल्गोरिदम उनके प्रदर्शन में सुधार करते हैं, इसलिए पर्यवेक्षित शिक्षण में उदाहरणों का एक सभ्य राशि लेबल करना व्यावहारिक रूप से अनिवार्य है।

बिग डेटा चक्र में डेटा संग्रह सबसे महत्वपूर्ण भूमिका निभाता है। इंटरनेट विभिन्न विषयों के लिए डेटा के लगभग असीमित स्रोत प्रदान करता है। इस क्षेत्र का महत्व व्यवसाय के प्रकार पर निर्भर करता है, लेकिन पारंपरिक उद्योग बाहरी डेटा के विविध स्रोत प्राप्त कर सकते हैं और अपने लेन-देन के डेटा के साथ उन लोगों को जोड़ सकते हैं।

उदाहरण के लिए, मान लें कि हम एक ऐसी प्रणाली का निर्माण करना चाहते हैं जो रेस्तरां की सिफारिश करे। पहला कदम डेटा इकट्ठा करना होगा, इस मामले में, विभिन्न वेबसाइटों से रेस्तरां की समीक्षा करें और उन्हें डेटाबेस में संग्रहीत करें। जैसा कि हम कच्चे पाठ में रुचि रखते हैं, और एनालिटिक्स के लिए इसका उपयोग करेंगे, यह प्रासंगिक नहीं है जहां मॉडल विकसित करने के लिए डेटा संग्रहीत किया जाएगा। यह बड़े डेटा मुख्य प्रौद्योगिकियों के साथ विरोधाभासी लग सकता है, लेकिन एक बड़े डेटा एप्लिकेशन को लागू करने के लिए, हमें बस इसे वास्तविक समय में काम करने की आवश्यकता है।

ट्विटर मिनी प्रोजेक्ट

एक बार समस्या को परिभाषित करने के बाद, निम्न चरण डेटा एकत्र करना है। निम्नलिखित मिनीप्रोजेक्ट विचार वेब से डेटा एकत्र करने और इसे मशीन लर्निंग मॉडल में उपयोग करने के लिए संरचित करने पर काम करना है। हम आर प्रोग्रामिंग भाषा का उपयोग करते हुए ट्विटर रेस्ट एपीआई से कुछ ट्वीट एकत्र करेंगे।

सबसे पहले एक ट्विटर अकाउंट बनाएं और फिर निर्देशों का पालन करें twitteRपैकेज विग्नट एक ट्विटर डेवलपर खाता बनाने के लिए। यह उन निर्देशों का सारांश है -

  • के लिए जाओ https://twitter.com/apps/new और लॉग इन करें।

  • मूल जानकारी भरने के बाद, "सेटिंग" टैब पर जाएं और "पढ़ें, लिखें और सीधे संदेशों तक पहुंचें" चुनें।

  • ऐसा करने के बाद सेव बटन पर क्लिक करना सुनिश्चित करें

  • "विवरण" टैब में, अपने उपभोक्ता कुंजी और उपभोक्ता रहस्य पर ध्यान दें

  • आपके R सत्र में, आप API कुंजी और API गुप्त मानों का उपयोग करेंगे

  • अंत में निम्नलिखित स्क्रिप्ट चलाएँ। यह स्थापित करेगाtwitteR पैकेज गितुब पर अपने भंडार से।

install.packages(c("devtools", "rjson", "bit64", "httr"))  

# Make sure to restart your R session at this point 
library(devtools) 
install_github("geoffjentry/twitteR")

हम डेटा प्राप्त करने में रुचि रखते हैं जहां स्ट्रिंग "बिग मैक" शामिल है और यह पता लगाना है कि इस बारे में कौन से विषय हैं। ऐसा करने के लिए, पहला चरण ट्विटर से डेटा एकत्र कर रहा है। नीचे ट्विटर से आवश्यक डेटा एकत्र करने के लिए हमारी आर स्क्रिप्ट है। यह कोड bda / part1 / collect_data / collect_data_twitter.R फ़ाइल में भी उपलब्ध है।

rm(list = ls(all = TRUE)); gc() # Clears the global environment
library(twitteR)
Sys.setlocale(category = "LC_ALL", locale = "C")

### Replace the xxx’s with the values you got from the previous instructions

# consumer_key = "xxxxxxxxxxxxxxxxxxxx"
# consumer_secret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

# access_token = "xxxxxxxxxx-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

# access_token_secret= "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

# Connect to twitter rest API
setup_twitter_oauth(consumer_key, consumer_secret, access_token, access_token_secret)

# Get tweets related to big mac
tweets <- searchTwitter(’big mac’, n = 200, lang = ’en’)
df <- twListToDF(tweets)

# Take a look at the data
head(df)

# Check which device is most used
sources <- sapply(tweets, function(x) x$getStatusSource())
sources <- gsub("</a>", "", sources)
sources <- strsplit(sources, ">")
sources <- sapply(sources, function(x) ifelse(length(x) > 1, x[2], x[1]))
source_table = table(sources)
source_table = source_table[source_table > 1]
freq = source_table[order(source_table, decreasing = T)]
as.data.frame(freq)

#                       Frequency
# Twitter for iPhone       71
# Twitter for Android      29
# Twitter Web Client       25
# recognia                 20

डेटा एकत्र होने के बाद, हमारे पास सामान्य रूप से विभिन्न विशेषताओं के साथ विविध डेटा स्रोत होते हैं। इन डेटा स्रोतों को सजातीय बनाने के लिए सबसे तात्कालिक कदम होगा और हमारे डेटा उत्पाद का विकास जारी रखना। हालाँकि, यह डेटा के प्रकार पर निर्भर करता है। हमें अपने आप से पूछना चाहिए कि क्या डेटा को होमोजेनाइज करना व्यावहारिक है।

हो सकता है कि डेटा स्रोत पूरी तरह से अलग हों, और जानकारी का नुकसान बड़ा होगा यदि स्रोत होमोजिनेटेड होंगे। इस मामले में, हम विकल्पों के बारे में सोच सकते हैं। क्या एक डेटा स्रोत मुझे एक प्रतिगमन मॉडल और दूसरा एक वर्गीकरण मॉडल बनाने में मदद कर सकता है? क्या केवल जानकारी खो देने के बजाय हमारे लाभ पर कार्य करना संभव है? इन निर्णयों को लेना विश्लेषणात्मक को रोचक और चुनौतीपूर्ण बनाता है।

समीक्षाओं के मामले में, प्रत्येक डेटा स्रोत के लिए एक भाषा होना संभव है। फिर, हमारे पास दो विकल्प हैं -

  • Homogenization- इसमें विभिन्न भाषाओं को उस भाषा में अनुवाद करना शामिल है जहां हमारे पास अधिक डेटा है। अनुवाद सेवाओं की गुणवत्ता स्वीकार्य है, लेकिन अगर हम एक एपीआई के साथ भारी मात्रा में डेटा का अनुवाद करना चाहते हैं, तो लागत महत्वपूर्ण होगी। इस कार्य के लिए सॉफ्टवेयर उपकरण उपलब्ध हैं, लेकिन वह भी महंगा होगा।

  • Heterogenization- क्या प्रत्येक भाषा के लिए एक समाधान विकसित करना संभव होगा? जैसा कि एक कॉर्पस की भाषा का पता लगाना सरल है, हम प्रत्येक भाषा के लिए एक सलाहकार विकसित कर सकते हैं। इसमें प्रत्येक अनुशंसाकर्ता को उपलब्ध भाषाओं की मात्रा के अनुसार ट्यूनिंग के संदर्भ में अधिक कार्य शामिल होगा, लेकिन यदि हमारे पास कुछ भाषाएँ उपलब्ध हैं तो निश्चित रूप से एक व्यवहार्य विकल्प है।

ट्विटर मिनी प्रोजेक्ट

वर्तमान मामले में हमें पहले असंरचित डेटा को साफ करने की आवश्यकता है और फिर उस पर मॉडलिंग विषयों को लागू करने के लिए इसे डेटा मैट्रिक्स में परिवर्तित करना होगा। सामान्य तौर पर, जब ट्विटर से डेटा प्राप्त होता है, तो कई ऐसे पात्र होते हैं जिन्हें हम उपयोग करने में रुचि नहीं रखते हैं, कम से कम डेटा क्लींजिंग प्रक्रिया के पहले चरण में।

उदाहरण के लिए, ट्वीट्स प्राप्त करने के बाद हमें ये अजीब चरित्र मिलते हैं: "<ed> <U + 00A0> <U + 00BD> <ed> <U + 00B8> <U + 008B>"। ये संभवतः इमोटिकॉन्स हैं, इसलिए डेटा को साफ करने के लिए, हम निम्नलिखित स्क्रिप्ट का उपयोग करके उन्हें हटा देंगे। यह कोड bda / part1 / collect_data / क्लीनिंग_data.R फ़ाइल में भी उपलब्ध है।

rm(list = ls(all = TRUE)); gc() # Clears the global environment
source('collect_data_twitter.R')
# Some tweets
head(df$text)

[1] "I’m not a big fan of turkey but baked Mac &
cheese <ed><U+00A0><U+00BD><ed><U+00B8><U+008B>"
[2] "@Jayoh30 Like no special sauce on a big mac. HOW"
### We are interested in the text - Let’s clean it!

# We first convert the encoding of the text from latin1 to ASCII
df$text <- sapply(df$text,function(row) iconv(row, "latin1", "ASCII", sub = ""))

# Create a function to clean tweets
clean.text <- function(tx) {
  tx <- gsub("htt.{1,20}", " ", tx, ignore.case = TRUE)
  tx = gsub("[^#[:^punct:]]|@|RT", " ", tx, perl = TRUE, ignore.case = TRUE)
  tx = gsub("[[:digit:]]", " ", tx, ignore.case = TRUE)
  tx = gsub(" {1,}", " ", tx, ignore.case = TRUE)
  tx = gsub("^\\s+|\\s+$", " ", tx, ignore.case = TRUE) return(tx) } clean_tweets <- lapply(df$text, clean.text)

# Cleaned tweets
head(clean_tweets)
[1] " WeNeedFeminlsm MAC s new make up line features men woc and big girls "
[1] " TravelsPhoto What Happens To Your Body One Hour After A Big Mac "

डेटा साफ़ करने वाली मिनी परियोजना का अंतिम चरण है साफ किया हुआ पाठ जिसे हम एक मैट्रिक्स में बदल सकते हैं और एक एल्गोरिथ्म को लागू कर सकते हैं। में संग्रहीत पाठ सेclean_tweets सदिश हम आसानी से इसे शब्दों के थैले में बदल सकते हैं मैट्रिक्स और एक अप्रकाशित लर्निंग एल्गोरिदम लागू कर सकते हैं।

बड़े डेटा एनालिटिक्स में रिपोर्टिंग बहुत महत्वपूर्ण है। प्रत्येक संगठन को अपने निर्णय लेने की प्रक्रिया का समर्थन करने के लिए सूचना का एक नियमित प्रावधान होना चाहिए। यह कार्य सामान्य रूप से SQL और ETL (एक्सट्रैक्ट, ट्रांसफर और लोड) अनुभव के साथ डेटा विश्लेषकों द्वारा नियंत्रित किया जाता है।

इस कार्य के प्रभारी टीम के पास संगठन के विभिन्न क्षेत्रों में बड़े डेटा एनालिटिक्स विभाग में उत्पादित जानकारी को फैलाने की जिम्मेदारी है।

निम्न उदाहरण दर्शाता है कि डेटा के सारांश का क्या अर्थ है। फ़ोल्डर पर नेविगेट करेंbda/part1/summarize_data और फ़ोल्डर के अंदर, खोलें summarize_data.Rprojडबल क्लिक करके फ़ाइल। फिर, खोलेंsummarize_data.R स्क्रिप्ट और कोड पर एक नज़र डालें, और प्रस्तुत स्पष्टीकरण का पालन करें।

# Install the following packages by running the following code in R. 
pkgs = c('data.table', 'ggplot2', 'nycflights13', 'reshape2') 
install.packages(pkgs)

ggplot2पैकेज डेटा विज़ुअलाइज़ेशन के लिए बहुत अच्छा है। data.table पैकेज तेज और मेमोरी कुशल संक्षेपण करने के लिए एक शानदार विकल्प है R। एक हालिया बेंचमार्क दिखाता है कि यह उससे भी तेज हैpandas, अजगर पुस्तकालय समान कार्यों के लिए उपयोग किया जाता है।

निम्नलिखित कोड का उपयोग करके डेटा को देखें। यह कोड भी उपलब्ध हैbda/part1/summarize_data/summarize_data.Rproj फ़ाइल।

library(nycflights13) 
library(ggplot2) 
library(data.table) 
library(reshape2)  

# Convert the flights data.frame to a data.table object and call it DT 
DT <- as.data.table(flights)  

# The data has 336776 rows and 16 columns 
dim(DT)  

# Take a look at the first rows 
head(DT) 

#   year    month  day   dep_time  dep_delay  arr_time  arr_delay  carrier 
# 1: 2013     1     1      517       2         830         11       UA 
# 2: 2013     1     1      533       4         850         20       UA 
# 3: 2013     1     1      542       2         923         33       AA 
# 4: 2013     1     1      544      -1        1004        -18       B6 
# 5: 2013     1     1      554      -6         812        -25       DL 
# 6: 2013     1     1      554      -4         740         12       UA  

#     tailnum  flight  origin   dest    air_time   distance    hour   minute 
# 1:  N14228   1545     EWR      IAH      227        1400       5       17 
# 2:  N24211   1714     LGA      IAH      227        1416       5       33 
# 3:  N619AA   1141     JFK      MIA      160        1089       5       42 
# 4:  N804JB    725     JFK      BQN      183        1576       5       44 
# 5:  N668DN    461     LGA      ATL      116        762        5       54 
# 6:  N39463   1696     EWR      ORD      150        719        5       54

निम्न कोड में डेटा संक्षेपण का एक उदाहरण है।

### Data Summarization
# Compute the mean arrival delay  
DT[, list(mean_arrival_delay = mean(arr_delay, na.rm = TRUE))] 
#        mean_arrival_delay 
# 1:           6.895377  
# Now, we compute the same value but for each carrier 
mean1 = DT[, list(mean_arrival_delay = mean(arr_delay, na.rm = TRUE)), 
   by = carrier] 
print(mean1) 
#      carrier    mean_arrival_delay 
# 1:      UA          3.5580111 
# 2:      AA          0.3642909 
# 3:      B6          9.4579733 
# 4:      DL          1.6443409 
# 5:      EV         15.7964311 
# 6:      MQ         10.7747334 
# 7:      US          2.1295951 
# 8:      WN          9.6491199 
# 9:      VX          1.7644644 
# 10:     FL         20.1159055 
# 11:     AS         -9.9308886 
# 12:     9E          7.3796692
# 13:     F9         21.9207048 
# 14:     HA         -6.9152047 
# 15:     YV         15.5569853 
# 16:     OO         11.9310345

# Now let’s compute to means in the same line of code 
mean2 = DT[, list(mean_departure_delay = mean(dep_delay, na.rm = TRUE), 
   mean_arrival_delay = mean(arr_delay, na.rm = TRUE)), 
   by = carrier] 
print(mean2) 

#       carrier    mean_departure_delay   mean_arrival_delay 
# 1:      UA            12.106073          3.5580111 
# 2:      AA             8.586016          0.3642909 
# 3:      B6            13.022522          9.4579733 
# 4:      DL             9.264505          1.6443409 
# 5:      EV            19.955390         15.7964311 
# 6:      MQ            10.552041         10.7747334 
# 7:      US             3.782418          2.1295951 
# 8:      WN            17.711744          9.6491199 
# 9:      VX            12.869421          1.7644644 
# 10:     FL            18.726075         20.1159055 
# 11:     AS             5.804775         -9.9308886 
# 12:     9E            16.725769          7.3796692 
# 13:     F9            20.215543         21.9207048 
# 14:     HA             4.900585         -6.9152047 
# 15:     YV            18.996330         15.5569853 
# 16:     OO            12.586207         11.9310345

### Create a new variable called gain 
# this is the difference between arrival delay and departure delay 
DT[, gain:= arr_delay - dep_delay]  

# Compute the median gain per carrier 
median_gain = DT[, median(gain, na.rm = TRUE), by = carrier] 
print(median_gain)

Exploratory data analysisजॉन टके (1977) द्वारा विकसित एक अवधारणा है जिसमें आंकड़ों के एक नए परिप्रेक्ष्य शामिल हैं। टके का विचार था कि पारंपरिक आंकड़ों में, डेटा को रेखांकन के रूप में नहीं खोजा जा रहा था, बस परिकल्पनाओं का परीक्षण करने के लिए उपयोग किया जा रहा था। एक उपकरण विकसित करने का पहला प्रयास स्टैनफोर्ड में किया गया था, परियोजना को प्राइम 9 कहा गया था । उपकरण नौ आयामों में डेटा की कल्पना करने में सक्षम था, इसलिए यह डेटा का एक बहुभिन्नरूपी परिप्रेक्ष्य प्रदान करने में सक्षम था।

हाल के दिनों में, खोजपूर्ण डेटा विश्लेषण बहुत जरूरी है और इसे बड़े डेटा एनालिटिक्स जीवन चक्र में शामिल किया गया है। एक संगठन में अंतर्दृष्टि खोजने और इसे प्रभावी ढंग से संवाद करने में सक्षम होने की क्षमता मजबूत ईडीए क्षमताओं के साथ भर जाती है।

टके के विचारों के आधार पर, बेल लैब्स ने विकसित किया S programming languageआँकड़े करने के लिए एक इंटरैक्टिव इंटरफ़ेस प्रदान करने के लिए। S का विचार एक आसान उपयोग की भाषा के साथ व्यापक चित्रमय क्षमताएं प्रदान करना था। आज की दुनिया में, बिग डेटा के संदर्भ में,R उस पर आधारित है S प्रोग्रामिंग भाषा एनालिटिक्स के लिए सबसे लोकप्रिय सॉफ्टवेयर है।

निम्नलिखित कार्यक्रम खोजपूर्ण डेटा विश्लेषण के उपयोग को दर्शाता है।

निम्नलिखित खोजपूर्ण डेटा विश्लेषण का एक उदाहरण है। यह कोड भी उपलब्ध हैpart1/eda/exploratory_data_analysis.R फ़ाइल।

library(nycflights13) 
library(ggplot2) 
library(data.table) 
library(reshape2)  

# Using the code from the previous section 
# This computes the mean arrival and departure delays by carrier. 
DT <- as.data.table(flights) 
mean2 = DT[, list(mean_departure_delay = mean(dep_delay, na.rm = TRUE), 
   mean_arrival_delay = mean(arr_delay, na.rm = TRUE)), 
   by = carrier]  

# In order to plot data in R usign ggplot, it is normally needed to reshape the data 
# We want to have the data in long format for plotting with ggplot 
dt = melt(mean2, id.vars = ’carrier’)  

# Take a look at the first rows 
print(head(dt))  

# Take a look at the help for ?geom_point and geom_line to find similar examples 
# Here we take the carrier code as the x axis 
# the value from the dt data.table goes in the y axis 

# The variable column represents the color 
p = ggplot(dt, aes(x = carrier, y = value, color = variable, group = variable)) +
   geom_point() + # Plots points 
   geom_line() + # Plots lines 
   theme_bw() + # Uses a white background 
   labs(list(title = 'Mean arrival and departure delay by carrier', 
      x = 'Carrier', y = 'Mean delay')) 
print(p)  

# Save the plot to disk 
ggsave('mean_delay_by_carrier.png', p,  
   width = 10.4, height = 5.07)

कोड को इस तरह के रूप में एक छवि का उत्पादन करना चाहिए -

डेटा को समझने के लिए, यह कल्पना करने के लिए अक्सर उपयोगी होता है। आम तौर पर बिग डेटा अनुप्रयोगों में, ब्याज सिर्फ सुंदर भूखंड बनाने के बजाय अंतर्दृष्टि खोजने में निर्भर करता है। भूखंडों का उपयोग करके डेटा को समझने के लिए विभिन्न दृष्टिकोणों के उदाहरण निम्नलिखित हैं।

उड़ानों के आंकड़ों का विश्लेषण शुरू करने के लिए, हम जाँच कर सकते हैं कि क्या संख्यात्मक चर के बीच संबंध हैं। यह कोड भी उपलब्ध हैbda/part1/data_visualization/data_visualization.R फ़ाइल।

# Install the package corrplot by running
install.packages('corrplot')  

# then load the library 
library(corrplot)  

# Load the following libraries  
library(nycflights13) 
library(ggplot2) 
library(data.table) 
library(reshape2)  

# We will continue working with the flights data 
DT <- as.data.table(flights)  
head(DT) # take a look  

# We select the numeric variables after inspecting the first rows. 
numeric_variables = c('dep_time', 'dep_delay',  
   'arr_time', 'arr_delay', 'air_time', 'distance')

# Select numeric variables from the DT data.table 
dt_num = DT[, numeric_variables, with = FALSE]  

# Compute the correlation matrix of dt_num 
cor_mat = cor(dt_num, use = "complete.obs")  

print(cor_mat) 
### Here is the correlation matrix 
#              dep_time   dep_delay   arr_time   arr_delay    air_time    distance 
# dep_time   1.00000000  0.25961272 0.66250900  0.23230573 -0.01461948 -0.01413373 
# dep_delay  0.25961272  1.00000000 0.02942101  0.91480276 -0.02240508 -0.02168090 
# arr_time   0.66250900  0.02942101 1.00000000  0.02448214  0.05429603  0.04718917 
# arr_delay  0.23230573  0.91480276 0.02448214  1.00000000 -0.03529709 -0.06186776 
# air_time  -0.01461948 -0.02240508 0.05429603 -0.03529709  1.00000000  0.99064965 
# distance  -0.01413373 -0.02168090 0.04718917 -0.06186776  0.99064965  1.00000000  

# We can display it visually to get a better understanding of the data 
corrplot.mixed(cor_mat, lower = "circle", upper = "ellipse")  

# save it to disk 
png('corrplot.png') 
print(corrplot.mixed(cor_mat, lower = "circle", upper = "ellipse")) 
dev.off()

यह कोड निम्नलिखित सहसंबंध मैट्रिक्स दृश्य उत्पन्न करता है -

हम प्लॉट में देख सकते हैं कि डेटासेट में कुछ चर के बीच एक मजबूत संबंध है। उदाहरण के लिए, आगमन में देरी और प्रस्थान विलंब अत्यधिक सहसंबद्ध लगता है। हम इसे देख सकते हैं क्योंकि दीर्घवृत्त दोनों चर के बीच एक लगभग रैखिक संबंध दिखाता है, हालांकि, इस परिणाम से कारण का पता लगाना सरल नहीं है।

हम यह नहीं कह सकते हैं कि जैसे दो चर परस्पर संबंधित होते हैं, एक का दूसरे पर प्रभाव पड़ता है। इसके अलावा, हम प्लॉट को हवा के समय और दूरी के बीच एक मजबूत सहसंबंध में पाते हैं, जो कि अधिक दूरी के साथ उम्मीद करना उचित है, उड़ान समय बढ़ सकता है।

हम डेटा का अविभाज्य विश्लेषण भी कर सकते हैं। वितरणों की कल्पना करने का एक सरल और प्रभावी तरीका हैbox-plots। निम्न कोड दर्शाता है कि ggplot2 लाइब्रेरी का उपयोग करके बॉक्स-प्लॉट्स और ट्रेली चार्ट का उत्पादन कैसे किया जाता है। यह कोड भी उपलब्ध हैbda/part1/data_visualization/boxplots.R फ़ाइल।

source('data_visualization.R') 
### Analyzing Distributions using box-plots  
# The following shows the distance as a function of the carrier 

p = ggplot(DT, aes(x = carrier, y = distance, fill = carrier)) + # Define the carrier 
   in the x axis and distance in the y axis 
   geom_box-plot() + # Use the box-plot geom 
   theme_bw() + # Leave a white background - More in line with tufte's 
      principles than the default 
   guides(fill = FALSE) + # Remove legend 
   labs(list(title = 'Distance as a function of carrier', # Add labels 
      x = 'Carrier', y = 'Distance')) 
p   
# Save to disk 
png(‘boxplot_carrier.png’) 
print(p) 
dev.off()   

# Let's add now another variable, the month of each flight 
# We will be using facet_wrap for this 
p = ggplot(DT, aes(carrier, distance, fill = carrier)) + 
   geom_box-plot() + 
   theme_bw() + 
   guides(fill = FALSE) +  
   facet_wrap(~month) + # This creates the trellis plot with the by month variable
   labs(list(title = 'Distance as a function of carrier by month', 
      x = 'Carrier', y = 'Distance')) 
p   
# The plot shows there aren't clear differences between distance in different months  

# Save to disk 
png('boxplot_carrier_by_month.png') 
print(p) 
dev.off()

यह खंड उपयोगकर्ताओं को आर प्रोग्रामिंग भाषा से परिचित कराने के लिए समर्पित है। आर को क्रेन वेबसाइट से डाउनलोड किया जा सकता है । विंडोज उपयोगकर्ताओं के लिए, rtools और rstudio IDE को स्थापित करना उपयोगी है ।

पीछे सामान्य अवधारणा R सी, सी ++, और फोरट्रान जैसे संकलित भाषाओं में विकसित अन्य सॉफ़्टवेयर के लिए एक इंटरफ़ेस के रूप में सेवा करने और उपयोगकर्ता को डेटा का विश्लेषण करने के लिए एक इंटरैक्टिव उपकरण देने के लिए है।

पुस्तक ज़िप फ़ाइल के फ़ोल्डर में नेविगेट करें bda/part2/R_introduction और खोलें R_introduction.Rprojफ़ाइल। यह एक RStudio सत्र खोलेगा। फिर 01_vectors.R फ़ाइल खोलें। स्क्रिप्ट लाइन को लाइन से चलाएं और कोड में टिप्पणियों का पालन करें। सीखने के लिए एक और उपयोगी विकल्प सिर्फ कोड टाइप करना है, इससे आपको आर सिंटैक्स की आदत हो जाएगी। R में कमेंट्स # सिंबल के साथ लिखे गए हैं।

पुस्तक में आर कोड चलाने के परिणामों को प्रदर्शित करने के लिए, कोड का मूल्यांकन करने के बाद, परिणाम आर रिटर्न पर टिप्पणी की जाती है। इस तरह, आप पुस्तक में कोड पेस्ट कर सकते हैं और आर में सीधे इसके वर्गों की कोशिश कर सकते हैं।

# Create a vector of numbers 
numbers = c(1, 2, 3, 4, 5) 
print(numbers) 

# [1] 1 2 3 4 5  
# Create a vector of letters 
ltrs = c('a', 'b', 'c', 'd', 'e') 
# [1] "a" "b" "c" "d" "e"  

# Concatenate both  
mixed_vec = c(numbers, ltrs) 
print(mixed_vec) 
# [1] "1" "2" "3" "4" "5" "a" "b" "c" "d" "e"

आइए विश्लेषण करें कि पिछले कोड में क्या हुआ था। हम देख सकते हैं कि संख्याओं के साथ और अक्षरों के साथ वैक्टर बनाना संभव है। हमें R को यह बताने की आवश्यकता नहीं थी कि हम पहले से किस प्रकार का डेटा टाइप चाहते थे। अंत में, हम संख्याओं और अक्षरों दोनों के साथ एक वेक्टर बनाने में सक्षम थे। वेक्टर मिश्रित_vec ने वर्णों में संख्याओं को समेटा है, हम इसे यह देखते हुए देख सकते हैं कि मूल्यों को उद्धरण के अंदर कैसे छापा जाता है।

निम्न कोड फ़ंक्शन वर्ग द्वारा लौटाए गए अनुसार विभिन्न प्रकार के वैक्टर के डेटा प्रकार को दर्शाता है। किसी वस्तु से "पूछताछ" करने के लिए वर्ग फ़ंक्शन का उपयोग करना आम है, उससे पूछते हुए कि उसकी कक्षा क्या है।

### Evaluate the data types using class

### One dimensional objects 
# Integer vector 
num = 1:10 
class(num) 
# [1] "integer"  

# Numeric vector, it has a float, 10.5 
num = c(1:10, 10.5) 
class(num) 
# [1] "numeric"  

# Character vector 
ltrs = letters[1:10] 
class(ltrs) 
# [1] "character"  

# Factor vector 
fac = as.factor(ltrs) 
class(fac) 
# [1] "factor"

R द्वि-आयामी वस्तुओं का भी समर्थन करता है। निम्नलिखित कोड में, आर: मैट्रिक्स और डेटा.फ्रेम में उपयोग किए जाने वाले दो सबसे लोकप्रिय डेटा संरचनाओं के उदाहरण हैं।

# Matrix
M = matrix(1:12, ncol = 4) 
#      [,1] [,2] [,3] [,4] 
# [1,]    1    4    7   10 
# [2,]    2    5    8   11 
# [3,]    3    6    9   12 
lM = matrix(letters[1:12], ncol = 4) 
#     [,1] [,2] [,3] [,4] 
# [1,] "a"  "d"  "g"  "j"  
# [2,] "b"  "e"  "h"  "k"  
# [3,] "c"  "f"  "i"  "l"   

# Coerces the numbers to character 
# cbind concatenates two matrices (or vectors) in one matrix 
cbind(M, lM) 
#     [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] 
# [1,] "1"  "4"  "7"  "10" "a"  "d"  "g"  "j"  
# [2,] "2"  "5"  "8"  "11" "b"  "e"  "h"  "k"  
# [3,] "3"  "6"  "9"  "12" "c"  "f"  "i"  "l"   

class(M) 
# [1] "matrix" 
class(lM) 
# [1] "matrix"  

# data.frame 
# One of the main objects of R, handles different data types in the same object.  
# It is possible to have numeric, character and factor vectors in the same data.frame  

df = data.frame(n = 1:5, l = letters[1:5]) 
df 
#   n l 
# 1 1 a 
# 2 2 b 
# 3 3 c 
# 4 4 d 
# 5 5 e

जैसा कि पिछले उदाहरण में दिखाया गया है, एक ही ऑब्जेक्ट में विभिन्न डेटा प्रकारों का उपयोग करना संभव है। सामान्य तौर पर, यह कैसे डेटा डेटाबेस में प्रस्तुत किया जाता है, डेटा का एपीआई हिस्सा पाठ या चरित्र वैक्टर और अन्य संख्यात्मक होता है। यह निर्धारित करना विश्लेषक का काम है कि कौन सा सांख्यिकीय डेटा टाइप करना है और फिर उसके लिए सही R डेटा प्रकार का उपयोग करें। आंकड़ों में हम सामान्य रूप से विचार करते हैं कि चर निम्न प्रकार के हैं -

  • Numeric
  • नाममात्र या श्रेणीबद्ध
  • Ordinal

R में, एक वेक्टर निम्न वर्ग का हो सकता है -

  • न्यूमेरिक - पूर्णांक
  • Factor
  • फैक्टर का आदेश दिया

R प्रत्येक सांख्यिकीय प्रकार के चर के लिए एक डेटा प्रकार प्रदान करता है। आदेशित कारक को शायद ही कभी उपयोग किया जाता है, लेकिन फ़ंक्शन कारक द्वारा बनाया जा सकता है, या ऑर्डर किया जा सकता है।

निम्न अनुभाग अनुक्रमण की अवधारणा को मानता है। यह एक बहुत ही सामान्य ऑपरेशन है, और किसी वस्तु के अनुभागों का चयन करने और उनमें परिवर्तन करने की समस्या से संबंधित है।

# Let's create a data.frame
df = data.frame(numbers = 1:26, letters) 
head(df) 
#      numbers  letters 
# 1       1       a 
# 2       2       b 
# 3       3       c 
# 4       4       d 
# 5       5       e 
# 6       6       f 

# str gives the structure of a data.frame, it’s a good summary to inspect an object 
str(df) 
#   'data.frame': 26 obs. of  2 variables: 
#   $ numbers: int 1 2 3 4 5 6 7 8 9 10 ... # $ letters: Factor w/ 26 levels "a","b","c","d",..: 1 2 3 4 5 6 7 8 9 10 ...  

# The latter shows the letters character vector was coerced as a factor. 
# This can be explained by the stringsAsFactors = TRUE argumnet in data.frame 
# read ?data.frame for more information  

class(df) 
# [1] "data.frame"  

### Indexing
# Get the first row 
df[1, ] 
#     numbers  letters 
# 1       1       a  

# Used for programming normally - returns the output as a list 
df[1, , drop = TRUE] 
# $numbers # [1] 1 # # $letters 
# [1] a 
# Levels: a b c d e f g h i j k l m n o p q r s t u v w x y z  

# Get several rows of the data.frame 
df[5:7, ] 
#      numbers  letters 
# 5       5       e 
# 6       6       f 
# 7       7       g  

### Add one column that mixes the numeric column with the factor column 
df$mixed = paste(df$numbers, df$letters, sep = ’’) str(df) # 'data.frame': 26 obs. of 3 variables: # $ numbers: int  1 2 3 4 5 6 7 8 9 10 ...
# $ letters: Factor w/ 26 levels "a","b","c","d",..: 1 2 3 4 5 6 7 8 9 10 ... # $ mixed  : chr  "1a" "2b" "3c" "4d" ...  

### Get columns 
# Get the first column 
df[, 1]  
# It returns a one dimensional vector with that column  

# Get two columns 
df2 = df[, 1:2] 
head(df2)  

#      numbers  letters 
# 1       1       a 
# 2       2       b 
# 3       3       c 
# 4       4       d 
# 5       5       e 
# 6       6       f  

# Get the first and third columns 
df3 = df[, c(1, 3)] 
df3[1:3, ]  

#      numbers  mixed 
# 1       1     1a
# 2       2     2b 
# 3       3     3c  

### Index columns from their names 
names(df) 
# [1] "numbers" "letters" "mixed"   
# This is the best practice in programming, as many times indeces change, but 
variable names don’t 
# We create a variable with the names we want to subset 
keep_vars = c("numbers", "mixed") 
df4 = df[, keep_vars]  

head(df4) 
#      numbers  mixed 
# 1       1     1a 
# 2       2     2b 
# 3       3     3c 
# 4       4     4d 
# 5       5     5e 
# 6       6     6f  

### subset rows and columns 
# Keep the first five rows 
df5 = df[1:5, keep_vars] 
df5 

#      numbers  mixed 
# 1       1     1a 
# 2       2     2b
# 3       3     3c 
# 4       4     4d 
# 5       5     5e  

# subset rows using a logical condition 
df6 = df[df$numbers < 10, keep_vars] 
df6 

#      numbers  mixed 
# 1       1     1a 
# 2       2     2b 
# 3       3     3c 
# 4       4     4d 
# 5       5     5e 
# 6       6     6f 
# 7       7     7g 
# 8       8     8h 
# 9       9     9i

SQL संरचित क्वेरी भाषा के लिए है। यह पारंपरिक डेटा गोदामों और बड़ी डेटा प्रौद्योगिकियों में डेटाबेस से डेटा निकालने के लिए सबसे व्यापक रूप से इस्तेमाल की जाने वाली भाषाओं में से एक है। एसक्यूएल की मूल बातें प्रदर्शित करने के लिए हम उदाहरण के साथ काम करेंगे। भाषा पर ध्यान देने के लिए, हम R के अंदर SQL का उपयोग करेंगे। SQL कोड लिखने के संदर्भ में यह ठीक उसी तरह है जैसे एक डेटाबेस में किया जाएगा।

एसक्यूएल का मूल तीन कथन हैं: सेलेक्ट, FROM और WHERE। निम्न उदाहरण SQL के सबसे आम उपयोग मामलों का उपयोग करते हैं। फ़ोल्डर पर नेविगेट करेंbda/part2/SQL_introduction और खोलें SQL_introduction.Rprojफ़ाइल। फिर 01_select.R script खोलें। R में SQL कोड लिखने के लिए हमें इनस्टॉल करना होगाsqldf निम्नलिखित कोड में दिखाया गया है।

# Install the sqldf package
install.packages('sqldf')  

# load the library 
library('sqldf') 
library(nycflights13)  

# We will be working with the fligths dataset in order to introduce SQL  

# Let’s take a look at the table 
str(flights) 
# Classes 'tbl_d', 'tbl' and 'data.frame': 336776 obs. of  16 variables: 

# $ year     : int  2013 2013 2013 2013 2013 2013 2013 2013 2013 2013 ... 
# $ month : int 1 1 1 1 1 1 1 1 1 1 ... # $ day      : int  1 1 1 1 1 1 1 1 1 1 ... 
# $ dep_time : int 517 533 542 544 554 554 555 557 557 558 ... # $ dep_delay: num  2 4 2 -1 -6 -4 -5 -3 -3 -2 ... 
# $ arr_time : int 830 850 923 1004 812 740 913 709 838 753 ... # $ arr_delay: num  11 20 33 -18 -25 12 19 -14 -8 8 ...
# $ carrier : chr "UA" "UA" "AA" "B6" ... # $ tailnum  : chr  "N14228" "N24211" "N619AA" "N804JB" ... 
# $ flight : int 1545 1714 1141 725 461 1696 507 5708 79 301 ... # $ origin   : chr  "EWR" "LGA" "JFK" "JFK" ... 
# $ dest : chr "IAH" "IAH" "MIA" "BQN" ... # $ air_time : num  227 227 160 183 116 150 158 53 140 138 ... 
# $ distance : num 1400 1416 1089 1576 762 ... # $ hour     : num  5 5 5 5 5 5 5 5 5 5 ... 
# $ minute   : num  17 33 42 44 54 54 55 57 57 58 ...

चयनित कथन का उपयोग तालिकाओं से स्तंभों को प्राप्त करने और उन पर गणना करने के लिए किया जाता है। सरलतम चयन कथन का प्रदर्शन किया जाता हैej1। हम नए वैरिएबल भी बना सकते हैं जैसा कि इसमें दिखाया गया हैej2

### SELECT statement
ej1 = sqldf(" 
   SELECT  
   dep_time 
   ,dep_delay 
   ,arr_time 
   ,carrier 
   ,tailnum 
   FROM 
   flights
")  

head(ej1) 
#    dep_time   dep_delay  arr_time  carrier  tailnum 
# 1      517         2      830      UA       N14228 
# 2      533         4      850      UA       N24211 
# 3      542         2      923      AA       N619AA 
# 4      544        -1     1004      B6       N804JB 
# 5      554        -6      812      DL       N668DN 
# 6      554        -4      740      UA       N39463  

# In R we can use SQL with the sqldf function. It works exactly the same as in 
a database 

# The data.frame (in this case flights) represents the table we are querying 
and goes in the FROM statement  
# We can also compute new variables in the select statement using the syntax: 

# old_variables as new_variable 
ej2 = sqldf(" 
   SELECT 
   arr_delay - dep_delay as gain, 
   carrier 
   FROM 
   flights
")  

ej2[1:5, ] 
#    gain   carrier 
# 1    9      UA 
# 2   16      UA 
# 3   31      AA 
# 4  -17      B6 
# 5  -19      DL

एसक्यूएल के सबसे आम इस्तेमाल की जाने वाली विशेषताओं में से एक है बयान द्वारा समूह। यह दूसरे चर के विभिन्न समूहों के लिए एक संख्यात्मक मान की गणना करने की अनुमति देता है। स्क्रिप्ट खोलें 02_group_by.R।

### GROUP BY      

# Computing the average 
ej3 = sqldf(" 
  SELECT 
   avg(arr_delay) as mean_arr_delay, 
   avg(dep_delay) as mean_dep_delay, 
   carrier 
   FROM 
   flights 
   GROUP BY 
   carrier 
")  

#    mean_arr_delay   mean_dep_delay carrier 
# 1       7.3796692      16.725769      9E 
# 2       0.3642909       8.586016      AA 
# 3      -9.9308886       5.804775      AS 
# 4       9.4579733      13.022522      B6 
# 5       1.6443409       9.264505      DL 
# 6      15.7964311      19.955390      EV 
# 7      21.9207048      20.215543      F9 
# 8      20.1159055      18.726075      FL 
# 9      -6.9152047       4.900585      HA 
# 10     10.7747334      10.552041      MQ
# 11     11.9310345      12.586207      OO 
# 12      3.5580111      12.106073      UA 
# 13      2.1295951       3.782418      US 
# 14      1.7644644      12.869421      VX 
# 15      9.6491199      17.711744      WN 
# 16     15.5569853      18.996330      YV  

# Other aggregations 
ej4 = sqldf(" 
   SELECT 
   avg(arr_delay) as mean_arr_delay, 
   min(dep_delay) as min_dep_delay, 
   max(dep_delay) as max_dep_delay, 
   carrier 
   FROM  
   flights 
   GROUP BY 
   carrier 
")  

# We can compute the minimun, mean, and maximum values of a numeric value 
ej4 
#      mean_arr_delay    min_dep_delay   max_dep_delay   carrier 
# 1       7.3796692           -24           747          9E 
# 2       0.3642909           -24          1014          AA 
# 3      -9.9308886           -21           225          AS 
# 4       9.4579733           -43           502          B6
# 5       1.6443409           -33           960         DL 
# 6      15.7964311           -32           548         EV 
# 7      21.9207048           -27           853         F9 
# 8      20.1159055           -22           602         FL 
# 9      -6.9152047           -16          1301         HA 
# 10     10.7747334           -26          1137         MQ 
# 11     11.9310345           -14           154         OO 
# 12      3.5580111           -20           483         UA 
# 13      2.1295951           -19           500         US 
# 14      1.7644644           -20           653         VX 
# 15      9.6491199           -13           471         WN 
# 16     15.5569853           -16           387         YV  

### We could be also interested in knowing how many observations each carrier has  
ej5 = sqldf(" 
   SELECT 
   carrier, count(*) as count 
   FROM  
   flights 
   GROUP BY 
   carrier 
")  

ej5 
#      carrier  count 
# 1       9E    18460
# 2       AA   32729 
# 3       AS   714 
# 4       B6   54635 
# 5       DL   48110 
# 6       EV   54173 
# 7       F9   685 
# 8       FL   3260 
# 9       HA   342 
# 10      MQ   26397 
# 11      OO   32 
# 12      UA   58665 
# 13      US   20536 
# 14      VX   5162 
# 15      WN   12275 
# 16      YV   601

SQL का सबसे उपयोगी फीचर जॉइन है। एक जुड़ने का मतलब है कि हम दोनों तालिका के मूल्यों से मेल खाने के लिए एक कॉलम का उपयोग करके तालिका ए और तालिका बी को एक तालिका में जोड़ना चाहते हैं। व्यावहारिक रूप से, अलग-अलग प्रकार के जोड़ होते हैं, आरंभ करने के लिए ये सबसे उपयोगी होंगे: आंतरिक जुड़ाव और बाएं बाहरी जुड़ाव।

# Let’s create two tables: A and B to demonstrate joins.
A = data.frame(c1 = 1:4, c2 = letters[1:4]) 
B = data.frame(c1 = c(2,4,5,6), c2 = letters[c(2:5)])  

A 
# c1 c2 
# 1  a 
# 2  b 
# 3  c 
# 4  d  

B 
# c1 c2 
# 2  b 
# 4  c 
# 5  d 
# 6  e  

### INNER JOIN 
# This means to match the observations of the column we would join the tables by.   
inner = sqldf(" 
   SELECT 
   A.c1, B.c2 
   FROM 
   A INNER JOIN B 
   ON A.c1 = B.c1 
")  

# Only the rows that match c1 in both A and B are returned 
inner 
# c1 c2 
#  2  b 
#  4  c  

### LEFT OUTER JOIN
# the left outer join, sometimes just called left join will return the  
# first all the values of the column used from the A table  
left = sqldf(" 
  SELECT 
   A.c1, B.c2 
  FROM 
   A LEFT OUTER JOIN B 
   ON A.c1 = B.c1 
")  

# Only the rows that match c1 in both A and B are returned 
left 
#   c1    c2 
#    1  <NA> 
#    2    b 
#    3  <NA> 
#    4    c

डेटा का विश्लेषण करने के लिए पहला दृष्टिकोण नेत्रहीन विश्लेषण करना है। ऐसा करने के उद्देश्य सामान्य रूप से चरों के परिवर्तन और अविभाज्य विवरणों के बीच संबंधों का पता लगा रहे हैं। हम इन रणनीतियों को इस प्रकार विभाजित कर सकते हैं -

  • वस्तु के एक प्रकार विश्लेषण
  • बहुभिन्नरूपी विश्लेषण

Univariate Graphical Methods

Univariateएक सांख्यिकीय शब्द है। व्यवहार में, इसका मतलब है कि हम बाकी डेटा से स्वतंत्र रूप से एक चर का विश्लेषण करना चाहते हैं। यह कार्य कुशलता से करने की अनुमति देने वाले भूखंड हैं -

छोटे भूखंड

डिस्ट्रीब्यूशन की तुलना करने के लिए आमतौर पर बॉक्स-प्लॉट का इस्तेमाल किया जाता है। यदि वितरण के बीच अंतर हैं, तो यह नेत्रहीन निरीक्षण करने का एक शानदार तरीका है। हम देख सकते हैं कि क्या अलग-अलग कट के लिए हीरे की कीमत में अंतर है।

# We will be using the ggplot2 library for plotting
library(ggplot2)  
data("diamonds")  

# We will be using the diamonds dataset to analyze distributions of numeric variables 
head(diamonds) 

#    carat   cut       color  clarity  depth  table   price    x     y     z 
# 1  0.23    Ideal       E      SI2    61.5    55     326     3.95  3.98  2.43 
# 2  0.21    Premium     E      SI1    59.8    61     326     3.89  3.84  2.31 
# 3  0.23    Good        E      VS1    56.9    65     327     4.05  4.07  2.31 
# 4  0.29    Premium     I      VS2    62.4    58     334     4.20  4.23  2.63 
# 5  0.31    Good        J      SI2    63.3    58     335     4.34  4.35  2.75 
# 6  0.24    Very Good   J      VVS2   62.8    57     336     3.94  3.96  2.48 

### Box-Plots
p = ggplot(diamonds, aes(x = cut, y = price, fill = cut)) + 
   geom_box-plot() + 
   theme_bw() 
print(p)

हम साजिश में देख सकते हैं कि विभिन्न प्रकार के कट में हीरे की कीमत के वितरण में अंतर हैं।

हिस्टोग्राम

source('01_box_plots.R')

# We can plot histograms for each level of the cut factor variable using 
facet_grid 
p = ggplot(diamonds, aes(x = price, fill = cut)) + 
   geom_histogram() + 
   facet_grid(cut ~ .) + 
   theme_bw() 

p  
# the previous plot doesn’t allow to visuallize correctly the data because of 
the differences in scale 
# we can turn this off using the scales argument of facet_grid  

p = ggplot(diamonds, aes(x = price, fill = cut)) + 
   geom_histogram() + 
   facet_grid(cut ~ ., scales = 'free') + 
   theme_bw() 
p  

png('02_histogram_diamonds_cut.png') 
print(p) 
dev.off()

उपरोक्त कोड का आउटपुट निम्नानुसार होगा -

बहुभिन्नरूपी चित्रमय विधियाँ

खोजपूर्ण डेटा विश्लेषण में बहुभिन्नरूपी आलेखीय विधियाँ विभिन्न चरों के बीच संबंधों को खोजने का उद्देश्य रखती हैं। इसे पूरा करने के दो तरीके हैं जो आमतौर पर उपयोग किए जाते हैं: संख्यात्मक चर के सहसंबंध मैट्रिक्स की साजिश रचने या बस तितर बितर भूखंडों के मैट्रिक्स के रूप में कच्चे डेटा की साजिश रचने के लिए।

इसे प्रदर्शित करने के लिए, हम हीरे के डेटासेट का उपयोग करेंगे। कोड का पालन करने के लिए, स्क्रिप्ट खोलेंbda/part2/charts/03_multivariate_analysis.R

library(ggplot2)
data(diamonds) 

# Correlation matrix plots  
keep_vars = c('carat', 'depth', 'price', 'table') 
df = diamonds[, keep_vars]  
# compute the correlation matrix 
M_cor = cor(df) 

#          carat       depth      price      table 
# carat 1.00000000  0.02822431  0.9215913  0.1816175 
# depth 0.02822431  1.00000000 -0.0106474 -0.2957785 
# price 0.92159130 -0.01064740  1.0000000  0.1271339 
# table 0.18161755 -0.29577852  0.1271339  1.0000000  

# plots 
heat-map(M_cor)

कोड निम्न आउटपुट का उत्पादन करेगा -

यह एक सारांश है, यह हमें बताता है कि मूल्य और देखभाल के बीच एक मजबूत संबंध है, और अन्य चर के बीच ज्यादा नहीं है।

एक सहसंबंध मैट्रिक्स उपयोगी हो सकता है जब हमारे पास बड़ी संख्या में चर होते हैं, जिसमें कच्चे डेटा की साजिश रचने का मामला व्यावहारिक नहीं होगा। जैसा कि उल्लेख किया गया है, कच्चे डेटा को भी दिखाना संभव है -

library(GGally)
ggpairs(df)

हम प्लॉट में देख सकते हैं कि हीट-मैप में प्रदर्शित परिणाम की पुष्टि हो गई है, कीमत और कैरेट चर के बीच 0.922 सहसंबंध है।

बिखरे हुए मैट्रिक्स के (3, 1) सूचकांक में स्थित मूल्य-कैरेट स्कैप्लेट में इस रिश्ते की कल्पना करना संभव है।

विभिन्न प्रकार के उपकरण हैं जो डेटा वैज्ञानिक को प्रभावी ढंग से डेटा का विश्लेषण करने की अनुमति देते हैं। आम तौर पर डेटा विश्लेषण का इंजीनियरिंग पहलू डेटाबेस, डेटा वैज्ञानिक उपकरणों पर ध्यान केंद्रित करता है जो डेटा उत्पादों को लागू कर सकता है। निम्नलिखित अनुभाग सांख्यिकीय पैकेज डेटा वैज्ञानिक उपयोग पर सबसे अधिक बार ध्यान देने के साथ विभिन्न उपकरणों के लाभों पर चर्चा करता है।

आर प्रोग्रामिंग भाषा

R एक ओपन सोर्स प्रोग्रामिंग लैंग्वेज है जिसमें सांख्यिकीय विश्लेषण पर ध्यान दिया जाता है। यह सांख्यिकीय क्षमताओं के संदर्भ में एसएएस, एसपीएसएस जैसे वाणिज्यिक उपकरणों के साथ प्रतिस्पर्धात्मक है। इसे अन्य प्रोग्रामिंग भाषाओं जैसे C, C ++ या फोरट्रान के लिए एक इंटरफ़ेस माना जाता है।

आर का एक अन्य लाभ बड़ी संख्या में ओपन सोर्स लाइब्रेरी हैं जो उपलब्ध हैं। CRAN में 6000 से अधिक पैकेज हैं जिन्हें मुफ्त और इन में डाउनलोड किया जा सकता हैGithub विभिन्न प्रकार के R पैकेज उपलब्ध हैं।

प्रदर्शन के संदर्भ में, आर गहन संचालन के लिए धीमा है, बड़ी मात्रा में उपलब्ध पुस्तकालयों को देखते हुए कोड के धीमे भाग संकलित भाषाओं में लिखे गए हैं। लेकिन अगर आप ऐसे ऑपरेशन करने का इरादा कर रहे हैं जिनमें छोरों के लिए गहराई से लिखने की आवश्यकता है, तो आर आपका सबसे अच्छा विकल्प नहीं होगा। डेटा विश्लेषण उद्देश्य के लिए, इस तरह के रूप में अच्छा पुस्तकालय हैंdata.table, glmnet, ranger, xgboost, ggplot2, caret कि प्रोग्रामिंग भाषाओं को तेज करने के लिए एक अंतरफलक के रूप में R का उपयोग करने की अनुमति देता है

डेटा विश्लेषण के लिए पायथन

पायथन एक सामान्य प्रयोजन प्रोग्रामिंग भाषा है और इसमें डेटा विश्लेषण जैसे समर्पित पुस्तकालयों की एक महत्वपूर्ण संख्या है pandas, scikit-learn, theano, numpy तथा scipy

आर में जो उपलब्ध है, उनमें से अधिकांश पायथन में भी किया जा सकता है लेकिन हमने पाया है कि आर का उपयोग करना सरल है। यदि आप बड़े डेटासेट के साथ काम कर रहे हैं, तो आमतौर पर पायथन आर। से बेहतर विकल्प है। डेटा लाइन को लाइन से साफ करने और संसाधित करने के लिए पायथन का काफी प्रभावी ढंग से उपयोग किया जा सकता है। यह आर से संभव है, लेकिन यह स्क्रिप्टिंग कार्यों के लिए पायथन के रूप में कुशल नहीं है।

मशीन सीखने के लिए, scikit-learnएक अच्छा वातावरण है जिसमें एल्गोरिदम की एक बड़ी मात्रा उपलब्ध है जो एक समस्या के बिना मध्यम आकार के डेटासेट को संभाल सकती है। आर के समकक्ष पुस्तकालय (कैरेट) की तुलना में,scikit-learn एक क्लीनर और अधिक सुसंगत एपीआई है।

जूलिया

जूलिया तकनीकी कंप्यूटिंग के लिए एक उच्च स्तरीय, उच्च प्रदर्शन वाली गतिशील प्रोग्रामिंग भाषा है। इसका सिंटैक्स R या Python से काफी मिलता-जुलता है, इसलिए यदि आप पहले से R या Python के साथ काम कर रहे हैं, तो जूलिया में समान कोड लिखना काफी सरल होना चाहिए। भाषा काफी नई है और पिछले वर्षों में काफी बढ़ी है, इसलिए यह निश्चित रूप से एक विकल्प है।

हम जूलिया को ऐसे एल्गोरिदम के प्रोटोटाइप के लिए सिफारिश करेंगे जो कम्प्यूटेशनल रूप से गहन हैं जैसे कि तंत्रिका नेटवर्क। यह अनुसंधान के लिए एक महान उपकरण है। उत्पादन में एक मॉडल को लागू करने के संदर्भ में शायद पायथन के पास बेहतर विकल्प हैं। हालांकि, यह एक समस्या से कम होता जा रहा है क्योंकि वेब सेवाएं हैं जो आर, पायथन और जूलिया में मॉडल लागू करने की इंजीनियरिंग करती हैं।

सास

एसएएस एक व्यावसायिक भाषा है जो अभी भी व्यावसायिक बुद्धि के लिए उपयोग की जा रही है। इसकी एक आधार भाषा है जो उपयोगकर्ता को विभिन्न प्रकार के अनुप्रयोगों को प्रोग्राम करने की अनुमति देती है। इसमें काफी कुछ वाणिज्यिक उत्पाद शामिल हैं जो गैर-विशेषज्ञ उपयोगकर्ताओं को प्रोग्रामिंग की आवश्यकता के बिना तंत्रिका नेटवर्क लाइब्रेरी जैसे जटिल उपकरणों का उपयोग करने की क्षमता प्रदान करते हैं।

वाणिज्यिक उपकरणों के स्पष्ट नुकसान के अलावा, एसएएस बड़े डेटासेट के लिए अच्छी तरह से पैमाने पर नहीं है। यहां तक ​​कि मध्यम आकार के डेटासेट में एसएएस की समस्या होगी और सर्वर क्रैश हो जाएगा। केवल अगर आप छोटे डेटासेट के साथ काम कर रहे हैं और उपयोगकर्ता विशेषज्ञ डेटा वैज्ञानिक नहीं हैं, तो एसएएस की सिफारिश की जानी चाहिए। उन्नत उपयोगकर्ताओं के लिए, आर और पायथन एक अधिक उत्पादक वातावरण प्रदान करते हैं।

SPSS

SPSS, वर्तमान में सांख्यिकीय विश्लेषण के लिए IBM का एक उत्पाद है। इसका उपयोग ज्यादातर सर्वेक्षण डेटा का विश्लेषण करने और उन उपयोगकर्ताओं के लिए किया जाता है जो प्रोग्राम करने में सक्षम नहीं हैं, यह एक सभ्य विकल्प है। यह एसएएस के रूप में उपयोग करने के लिए शायद उतना ही सरल है, लेकिन एक मॉडल को लागू करने के मामले में, यह सरल है क्योंकि यह एक मॉडल को स्कोर करने के लिए एक SQL कोड प्रदान करता है। यह कोड सामान्य रूप से कुशल नहीं है, लेकिन यह एक शुरुआत है जबकि एसएएस प्रत्येक डेटाबेस के लिए मॉडल स्कोर करने वाले उत्पाद को अलग से बेचता है। छोटे डेटा और एक अनुभवहीन टीम के लिए, SPSS एक विकल्प है जो एसएएस जितना अच्छा है।

सॉफ्टवेयर हालांकि सीमित है, और अनुभवी उपयोगकर्ता आर या पायथन का उपयोग करके अधिक उत्पादक के आदेश होंगे।

मतलाब, ओक्टेव

अन्य उपकरण उपलब्ध हैं जैसे कि Matlab या इसका खुला स्रोत संस्करण (ऑक्टेव)। इन उपकरणों का उपयोग ज्यादातर शोध के लिए किया जाता है। क्षमताओं के संदर्भ में आर या पायथन मटलब या ऑक्टेव में उपलब्ध सभी कर सकते हैं। यह केवल उत्पाद का लाइसेंस खरीदने के लिए समझ में आता है यदि आप उस सहायता में रुचि रखते हैं जो वे प्रदान करते हैं।

डेटा का विश्लेषण करते समय, सांख्यिकीय दृष्टिकोण होना संभव है। बुनियादी विश्लेषण करने के लिए आवश्यक बुनियादी उपकरण हैं -

  • सहसंबंध विश्लेषण
  • भिन्नता का विश्लेषण
  • परिकल्पना परीक्षण

बड़े डेटासेट के साथ काम करते समय, इसमें कोई समस्या शामिल नहीं होती है क्योंकि ये विधियाँ सहसंबंध विश्लेषण के अपवाद के साथ कम्प्यूटेशनल रूप से गहन नहीं हैं। इस मामले में, नमूना लेना हमेशा संभव होता है और परिणाम मजबूत होना चाहिए।

सहसंबंध विश्लेषण

सहसंबंध विश्लेषण संख्यात्मक चर के बीच रैखिक संबंधों को खोजने का प्रयास करता है। यह विभिन्न परिस्थितियों में उपयोग किया जा सकता है। एक आम उपयोग खोजपूर्ण डेटा विश्लेषण है, पुस्तक के खंड 16.0.2 में इस दृष्टिकोण का एक मूल उदाहरण है। सबसे पहले, उल्लिखित उदाहरण में प्रयुक्त सहसंबंध मीट्रिक पर आधारित हैPearson coefficient। हालाँकि, सहसंबंध का एक और दिलचस्प मीट्रिक है जो आउटलेर्स से प्रभावित नहीं है। इस मीट्रिक को स्पीयरमैन सहसंबंध कहा जाता है।

spearman correlation मीट्रिक पियरसन विधि की तुलना में आउटलेर्स की उपस्थिति के लिए अधिक मजबूत है और डेटा के सामान्य रूप से वितरित नहीं होने पर संख्यात्मक चर के बीच रैखिक संबंधों का बेहतर अनुमान देता है।

library(ggplot2)

# Select variables that are interesting to compare pearson and spearman 
correlation methods. 
x = diamonds[, c('x', 'y', 'z', 'price')]  

# From the histograms we can expect differences in the correlations of both 
metrics.  
# In this case as the variables are clearly not normally distributed, the 
spearman correlation 

# is a better estimate of the linear relation among numeric variables. 
par(mfrow = c(2,2)) 
colnm = names(x) 
for(i in 1:4) { 
   hist(x[[i]], col = 'deepskyblue3', main = sprintf('Histogram of %s', colnm[i])) 
} 
par(mfrow = c(1,1))

निम्नलिखित आकृति में हिस्टोग्राम से हम दोनों मैट्रिक्स के सहसंबंधों में अंतर की उम्मीद कर सकते हैं। इस मामले में, चूंकि चर स्पष्ट रूप से सामान्य रूप से वितरित नहीं किए जाते हैं, इसलिए स्पीयरमैन सहसंबंध किसी भी सामान्य चर के बीच रैखिक संबंध का एक बेहतर अनुमान है।

आर में सहसंबंध की गणना करने के लिए, फ़ाइल खोलें bda/part2/statistical_methods/correlation/correlation.R यह कोड अनुभाग है।

## Correlation Matrix - Pearson and spearman
cor_pearson <- cor(x, method = 'pearson') 
cor_spearman <- cor(x, method = 'spearman')  

### Pearson Correlation 
print(cor_pearson) 
#            x          y          z        price 
# x      1.0000000  0.9747015  0.9707718  0.8844352 
# y      0.9747015  1.0000000  0.9520057  0.8654209 
# z      0.9707718  0.9520057  1.0000000  0.8612494 
# price  0.8844352  0.8654209  0.8612494  1.0000000  

### Spearman Correlation 
print(cor_spearman) 
#              x          y          z      price 
# x      1.0000000  0.9978949  0.9873553  0.9631961 
# y      0.9978949  1.0000000  0.9870675  0.9627188 
# z      0.9873553  0.9870675  1.0000000  0.9572323 
# price  0.9631961  0.9627188  0.9572323  1.0000000

ची-स्क्वाड टेस्ट

ची-स्क्वैयर परीक्षण हमें यह जांचने की अनुमति देता है कि क्या दो यादृच्छिक चर स्वतंत्र हैं। इसका अर्थ है कि प्रत्येक चर का प्रायिकता वितरण दूसरे को प्रभावित नहीं करता है। आर में परीक्षण का मूल्यांकन करने के लिए हमें एक आकस्मिक तालिका बनाने की आवश्यकता है, और फिर तालिका को पास करेंchisq.test R समारोह।

उदाहरण के लिए, आइए जाँच करें कि क्या चर के बीच कोई जुड़ाव है: हीरे के डेटासेट से कट और रंग। परीक्षण को औपचारिक रूप से परिभाषित किया गया है -

  • H0: वेरिएबल कट और डायमंड स्वतंत्र हैं
  • H1: वेरिएबल कट और डायमंड स्वतंत्र नहीं हैं

हम मान लेंगे कि उनके नाम से इन दो चर के बीच एक संबंध है, लेकिन परीक्षण एक उद्देश्य "नियम" कह सकता है कि यह परिणाम कितना महत्वपूर्ण है या नहीं।

निम्नलिखित कोड स्निपेट में, हमने पाया कि परीक्षण का पी-मूल्य 2.2e-16 है, यह व्यावहारिक रूप से लगभग शून्य है। फिर टेस्ट करने के बाद एMonte Carlo simulation, हमने पाया कि पी-वैल्यू 0.0004998 है जो अभी भी थ्रेशोल्ड 0.05 से काफी कम है। इस परिणाम का अर्थ है कि हम अशक्त परिकल्पना (H0) को अस्वीकार करते हैं, इसलिए हम चर मानते हैंcut तथा color स्वतंत्र नहीं हैं।

library(ggplot2)

# Use the table function to compute the contingency table 
tbl = table(diamonds$cut, diamonds$color) 
tbl  

#              D    E    F    G    H    I    J 
# Fair       163  224  312  314  303  175  119 
# Good       662  933  909  871  702  522  307 
# Very Good 1513 2400 2164 2299 1824 1204  678 
# Premium   1603 2337 2331 2924 2360 1428  808 
# Ideal     2834 3903 3826 4884 3115 2093  896  

# In order to run the test we just use the chisq.test function. 
chisq.test(tbl)  

# Pearson’s Chi-squared test 
# data:  tbl 
# X-squared = 310.32, df = 24, p-value < 2.2e-16
# It is also possible to compute the p-values using a monte-carlo simulation 
# It's needed to add the simulate.p.value = TRUE flag and the amount of 
simulations 
chisq.test(tbl, simulate.p.value = TRUE, B = 2000)  

# Pearson’s Chi-squared test with simulated p-value (based on 2000 replicates) 
# data:  tbl 
# X-squared = 310.32, df = NA, p-value = 0.0004998

टी परीक्षण

के विचार t-testमूल्यांकन करना है कि क्या सांख्यिक चर # वितरण में अंतर नाममात्र चर के विभिन्न समूहों के बीच है। इसे प्रदर्शित करने के लिए, मैं फैक्टर वेरिएबल कट के फेयर एंड आइडियल लेवल का चयन करूँगा, फिर हम उन दो समूहों के बीच एक न्यूमेरिकल वैरिएबल के मानों की तुलना करेंगे।

data = diamonds[diamonds$cut %in% c('Fair', 'Ideal'), ]

data$cut = droplevels.factor(data$cut) # Drop levels that aren’t used from the 
cut variable 
df1 = data[, c('cut', 'price')]  

# We can see the price means are different for each group 
tapply(df1$price, df1$cut, mean) 
# Fair    Ideal  
# 4358.758 3457.542

टी-परीक्षणों को आर के साथ लागू किया जाता है t.testसमारोह। T.test का सूत्र इंटरफ़ेस इसका उपयोग करने का सबसे सरल तरीका है, विचार यह है कि एक संख्यात्मक चर को समूह चर द्वारा समझाया गया है।

उदाहरण के लिए: t.test(numeric_variable ~ group_variable, data = data)। पिछले उदाहरण में, एnumeric_variable है price और यह group_variable है cut

सांख्यिकीय परिप्रेक्ष्य से, हम परीक्षण कर रहे हैं कि दो समूहों के बीच संख्यात्मक चर के वितरण में अंतर है या नहीं। औपचारिक रूप से परिकल्पना परीक्षण एक अशक्त (H0) परिकल्पना और एक वैकल्पिक परिकल्पना (H1) के साथ वर्णित है।

  • H0: फेयर और आइडियल ग्रुप के बीच प्राइस वैरिएबल के डिस्ट्रीब्यूशन में कोई अंतर नहीं हैं

  • H1 फेयर और आइडियल ग्रुप के बीच प्राइस वैरिएबल के डिस्ट्रीब्यूशन में अंतर हैं

निम्नलिखित कोड के साथ आर में निम्नलिखित लागू किया जा सकता है -

t.test(price ~ cut, data = data)

# Welch Two Sample t-test 
#  
# data:  price by cut 
# t = 9.7484, df = 1894.8, p-value < 2.2e-16 
# alternative hypothesis: true difference in means is not equal to 0 
# 95 percent confidence interval: 
#   719.9065 1082.5251 
# sample estimates: 
#   mean in group Fair mean in group Ideal  
#   4358.758            3457.542   

# Another way to validate the previous results is to just plot the 
distributions using a box-plot 
plot(price ~ cut, data = data, ylim = c(0,12000),  
   col = 'deepskyblue3')

हम जाँच कर सकते हैं कि पी-मान 0.05 से कम है या नहीं। यदि यह मामला है, तो हम वैकल्पिक परिकल्पना रखते हैं। इसका मतलब है कि हमने कटौती कारक के दो स्तरों के बीच कीमत के अंतर को पाया है। स्तरों के नाम से हम इस परिणाम की उम्मीद करेंगे, लेकिन हमें उम्मीद नहीं होगी कि फेल समूह में औसत मूल्य आदर्श समूह की तुलना में अधिक होगा। हम इसे प्रत्येक कारक के साधनों की तुलना करके देख सकते हैं।

plotकमांड एक ग्राफ का उत्पादन करता है जो मूल्य और कट चर के बीच संबंध दिखाता है। यह एक बॉक्स-प्लॉट है; हमने इस प्लॉट को खंड 16.0.1 में शामिल किया है, लेकिन यह मूल रूप से कट विश्लेषण के दो स्तरों के लिए मूल्य चर का वितरण दिखाता है।

भिन्नता का विश्लेषण

Variance (ANOVA) का विश्लेषण एक सांख्यिकीय मॉडल है जिसका उपयोग समूह वितरण के बीच के अंतर का विश्लेषण करने के लिए किया जाता है, प्रत्येक समूह के माध्य और विचरण की तुलना करके मॉडल रोनाल्ड फिशर द्वारा विकसित किया गया था। एनोवा कई समूहों के साधन समान हैं या नहीं, का एक सांख्यिकीय परीक्षण प्रदान करता है, और इसलिए दो से अधिक समूहों के लिए टी-परीक्षण को सामान्य करता है।

ANOVAs सांख्यिकीय महत्व के लिए तीन या अधिक समूहों की तुलना करने के लिए उपयोगी है क्योंकि कई दो-नमूना टी-परीक्षण करने से सांख्यिकीय प्रकार I त्रुटि होने की संभावना बढ़ जाएगी।

गणितीय स्पष्टीकरण प्रदान करने के संदर्भ में, परीक्षण को समझने के लिए निम्नलिखित की आवश्यकता है।

x ij = x + (x i - x) + (x ij - x)

यह निम्नलिखित मॉडल की ओर जाता है -

x ij = μ + α i + j ij

जहां μ भव्य माध्य है और α i ith समूह माध्य है। त्रुटि अवधि ij माना जाता है एक सामान्य वितरण से आईआईडी किया जाना है। परीक्षण की शून्य परिकल्पना यह है कि -

α 1 = α 2 = ... = α k

परीक्षण सांख्यिकीय कंप्यूटिंग के संदर्भ में, हमें दो मूल्यों की गणना करने की आवश्यकता है -

  • समूह अंतर के बीच वर्गों के योग -

$$SSD_B = \sum_{i}^{k} \sum_{j}^{n}(\bar{x_{\bar{i}}} - \bar{x})^2$$

  • समूहों के भीतर वर्गों की रकम

$$SSD_W = \sum_{i}^{k} \sum_{j}^{n}(\bar{x_{\bar{ij}}} - \bar{x_{\bar{i}}})^2$$

जहां SSD B के पास k SS 1 की स्वतंत्रता है और SSD W के पास N। k की स्वतंत्रता की डिग्री है। फिर हम प्रत्येक मीट्रिक के लिए माध्य चुकता अंतर को परिभाषित कर सकते हैं।

एमएस बी = एसएसडी बी / (के - 1)

एमएस डब्ल्यू = एसएसडी डब्ल्यू / (एन - के)

अंत में, एनोवा में परीक्षण सांख्यिकीय को उपरोक्त दो मात्राओं के अनुपात के रूप में परिभाषित किया गया है

एफ = एमएस बी / एमएस डब्ल्यू

जो कि and 1 और N of k स्वतंत्रता की डिग्री के साथ एक एफ-वितरण का अनुसरण करता है । यदि शून्य परिकल्पना सच है, तो F की संभावना लगभग 1 होगी। अन्यथा, समूह के बीच का मतलब वर्ग MSB बड़ा होने की संभावना है, जिसके परिणामस्वरूप एक बड़ा F मान होता है।

मूलतः, ANOVA कुल विचरण के दो स्रोतों की जाँच करता है और देखता है कि कौन सा भाग अधिक योगदान देता है। यही कारण है कि इसे विचरण का विश्लेषण कहा जाता है, हालांकि इरादा समूह साधनों की तुलना करना है।

आंकड़े की गणना के संदर्भ में, यह वास्तव में आर में करने के लिए सरल है। निम्नलिखित उदाहरण यह प्रदर्शित करेगा कि यह कैसे किया जाता है और परिणामों की साजिश करता है।

library(ggplot2)
# We will be using the mtcars dataset 

head(mtcars) 
#                    mpg  cyl disp  hp drat  wt  qsec   vs am  gear carb 
# Mazda RX4         21.0   6  160 110 3.90 2.620 16.46  0  1    4    4 
# Mazda RX4 Wag     21.0   6  160 110 3.90 2.875 17.02  0  1    4    4 
# Datsun 710        22.8   4  108  93 3.85 2.320 18.61  1  1    4    1 
# Hornet 4 Drive    21.4   6  258 110 3.08 3.215 19.44  1  0    3    1 
# Hornet Sportabout 18.7   8  360 175 3.15 3.440 17.02  0  0    3    2 
# Valiant           18.1   6  225 105 2.76 3.460 20.22  1  0    3    1  

# Let's see if there are differences between the groups of cyl in the mpg variable. 
data = mtcars[, c('mpg', 'cyl')]  
fit = lm(mpg ~ cyl, data = mtcars) 
anova(fit)  

# Analysis of Variance Table 
# Response: mpg 
#           Df Sum Sq Mean Sq F value    Pr(>F)     
# cyl        1 817.71  817.71  79.561 6.113e-10 *** 
# Residuals 30 308.33   10.28 
# Signif. codes:  0 *** 0.001 ** 0.01 * 0.05 . 
# Plot the distribution 
plot(mpg ~ as.factor(cyl), data = mtcars, col = 'deepskyblue3')

कोड निम्न आउटपुट का उत्पादन करेगा -

उदाहरण में हमें जो पी-मान मिलता है, वह 0.05 की तुलना में काफी छोटा होता है, इसलिए R इसे प्रदर्शित करने के लिए प्रतीक '***' को लौटाता है। इसका अर्थ है कि हम अशक्त परिकल्पना को अस्वीकार करते हैं और हमें mpg के बीच के विभिन्न समूहों के बीच अंतर का पता चलता हैcyl चर।

मशीन लर्निंग कंप्यूटर विज्ञान का एक उपक्षेत्र है जो पैटर्न मान्यता, कंप्यूटर दृष्टि, भाषण मान्यता, पाठ विश्लेषण जैसे कार्यों से संबंधित है और सांख्यिकी और गणितीय अनुकूलन के साथ एक मजबूत लिंक है। अनुप्रयोगों में खोज इंजन, स्पैम फ़िल्टरिंग, ऑप्टिकल कैरेक्टर रिकॉग्निशन (OCR) आदि का विकास शामिल है। डेटा माइनिंग, पैटर्न रिकग्निशन और स्टैटिस्टिकल लर्निंग के क्षेत्र के बीच की सीमाएँ स्पष्ट नहीं हैं और मूल रूप से सभी समान समस्याओं का उल्लेख करते हैं।

मशीन लर्निंग को दो प्रकार के कार्य में विभाजित किया जा सकता है -

  • पर्यवेक्षित अध्ययन
  • अनसुनी लर्निंग

पर्यवेक्षित अध्ययन

पर्यवेक्षित शिक्षण एक प्रकार की समस्या को संदर्भित करता है जहां मैट्रिक्स एक्स के रूप में परिभाषित एक इनपुट डेटा होता है और हम एक प्रतिक्रिया वाई की भविष्यवाणी करने में रुचि रखते हैं । जहाँ X = {x 1 , x 2 ,…, x n } में n भविष्यवाणियां हैं और जिसके दो मूल्य हैं y = {c 1 , c 2 }

एक उदाहरण अनुप्रयोग एक वेब उपयोगकर्ता की भविष्यवाणियों के रूप में जनसांख्यिकीय सुविधाओं का उपयोग करके विज्ञापनों पर क्लिक करने की संभावना का अनुमान लगाने के लिए होगा। इसे अक्सर दर (CTR) के माध्यम से क्लिक की भविष्यवाणी करने के लिए कहा जाता है। फिर y = {क्लिक करें, नहीं - क्लिक करें} और भविष्यवाणियों का इस्तेमाल किया गया आईपी पता हो सकता है, जिस दिन वह साइट में प्रवेश करता है, उपयोगकर्ता का शहर, अन्य सुविधाओं के बीच देश जो उपलब्ध हो सकता है।

अनसुनी लर्निंग

अनूपर्वाइज़्ड लर्निंग उन समूहों को खोजने की समस्या से निपटता है जो एक दूसरे से सीखने के लिए एक वर्ग के बिना समान हैं। भविष्यवक्ताओं से मानचित्रण सीखने के लिए कई समूह हैं जो प्रत्येक समूह में समान उदाहरण साझा करते हैं और एक दूसरे के साथ भिन्न हैं।

अनुपयोगी शिक्षा का एक उदाहरण अनुप्रयोग ग्राहक विभाजन है। उदाहरण के लिए, दूरसंचार उद्योग में उपयोगकर्ताओं को फोन पर दिए गए उपयोग के अनुसार खंड बनाना एक सामान्य कार्य है। इससे विपणन विभाग प्रत्येक समूह को एक अलग उत्पाद के साथ लक्षित कर सकेगा।

Naive Bayes, classifiers के निर्माण के लिए एक संभाव्य तकनीक है। अनुभवहीन बेयस क्लासिफायर की विशेषता धारणा यह है कि किसी विशेष विशेषता का मूल्य वर्ग चर को देखते हुए किसी भी अन्य विशेषता के मूल्य से स्वतंत्र है।

पहले बताई गई ओवरसिम्लीफाइड मान्यताओं के बावजूद, भोले बेयस क्लासिफायर के पास वास्तविक वास्तविक दुनिया की स्थितियों में अच्छे परिणाम हैं। भोले की खाड़ी का एक फायदा यह है कि वर्गीकरण के लिए आवश्यक मापदंडों का अनुमान लगाने के लिए केवल थोड़ी मात्रा में प्रशिक्षण डेटा की आवश्यकता होती है और क्लासिफायर को आकस्मिक रूप से प्रशिक्षित किया जा सकता है।

Naive Bayes एक सशर्त प्रायिकता मॉडल है: वर्गीकृत होने के लिए एक समस्या का उदाहरण दिया जाता है, जिसे वेक्टर द्वारा दर्शाया जाता है x= (x 1 ,…, x n ) कुछ n विशेषताओं (स्वतंत्र चर) का प्रतिनिधित्व करते हुए, यह K के प्रत्येक संभावित परिणामों या कक्षाओं के लिए इस उदाहरण की संभावनाओं को निर्दिष्ट करता है।

$$p(C_k|x_1,....., x_n)$$

उपरोक्त सूत्रीकरण के साथ समस्या यह है कि यदि सुविधाओं की संख्या n बड़ी है या यदि कोई सुविधा बड़ी संख्या में मान ले सकती है, तो संभावना तालिकाओं पर इस तरह के मॉडल को आधार बनाना संभव नहीं है। इसलिए हम इसे सरल बनाने के लिए मॉडल में सुधार करते हैं। बेयस प्रमेय का उपयोग करते हुए, सशर्त संभाव्यता को विघटित किया जा सकता है -

$$p(C_k|x) = \frac{p(C_k)p(x|C_k)}{p(x)}$$

इसका मतलब यह है कि उपरोक्त स्वतंत्रता मान्यताओं के तहत, वर्ग चर C पर सशर्त वितरण है -

$$p(C_k|x_1,....., x_n)\: = \: \frac{1}{Z}p(C_k)\prod_{i = 1}^{n}p(x_i|C_k)$$

जहाँ सबूत Z = p (x) एक स्केलिंग कारक है जो केवल x 1 ,…, x n पर निर्भर करता है, यह एक स्थिरांक है यदि फीचर वैरिएबल के मान ज्ञात हैं। एक सामान्य नियम यह है कि परिकल्पना को चुनना सबसे संभावित है; इसे अधिकतम पोस्टीरियर या एमएपी निर्णय नियम के रूप में जाना जाता है। इसी क्लासिफायरियर, बायस क्लासिफायर, वह फ़ंक्शन है जो एक क्लास लेबल असाइन करता है$\hat{y} = C_k$ कुछ के लिए निम्नानुसार है -

$$\hat{y} = argmax\: p(C_k)\prod_{i = 1}^{n}p(x_i|C_k)$$

आर में एल्गोरिथ्म को लागू करना एक सीधी प्रक्रिया है। निम्न उदाहरण दर्शाता है कि एक Naive Bayes क्लासिफायर ट्रेन कैसे करता है और इसे स्पैम फ़िल्टरिंग समस्या में भविष्यवाणी के लिए उपयोग करता है।

निम्नलिखित स्क्रिप्ट में उपलब्ध है bda/part3/naive_bayes/naive_bayes.R फ़ाइल।

# Install these packages 
pkgs = c("klaR", "caret", "ElemStatLearn") 
install.packages(pkgs)  
library('ElemStatLearn') 
library("klaR") 
library("caret")  

# Split the data in training and testing 
inx = sample(nrow(spam), round(nrow(spam) * 0.9)) 
train = spam[inx,] 
test = spam[-inx,]  

# Define a matrix with features, X_train 
# And a vector with class labels, y_train 
X_train = train[,-58] 
y_train = train$spam X_test = test[,-58] y_test = test$spam  
# Train the model 
nb_model = train(X_train, y_train, method = 'nb',  
   trControl = trainControl(method = 'cv', number = 3)) 

# Compute  
preds = predict(nb_model$finalModel, X_test)$class 
tbl = table(y_test, yhat = preds) 
sum(diag(tbl)) / sum(tbl) 
# 0.7217391

जैसा कि हम परिणाम से देख सकते हैं, Naive Bayes मॉडल की सटीकता 72% है। इसका मतलब है कि मॉडल 72% उदाहरणों को सही ढंग से वर्गीकृत करता है।

k- साधन क्लस्टरिंग का उद्देश्य n अवलोकन को k समूहों में विभाजित करना है जिसमें प्रत्येक अवलोकन निकटतम माध्य के साथ क्लस्टर के अंतर्गत आता है, जो क्लस्टर के प्रोटोटाइप के रूप में कार्य करता है। इससे डेटा स्थान का विभाजन वोरोनोई कोशिकाओं में होता है।

प्रेक्षणों के एक सेट (x 1 , x 2 ,…, x n ) को देखते हुए , जहाँ प्रत्येक अवलोकन एक d- आयामी वास्तविक सदिश है, k-mean clustering का उद्देश्य n टिप्पणियों को k समूहों में विभाजित करना है G = {G 1 , G 2 ,…, G k } ताकि वर्गों (WCSS) के भीतर-क्लस्टर योग को न्यूनतम किया जा सके -

$$argmin \: \sum_{i = 1}^{k} \sum_{x \in S_{i}}\parallel x - \mu_{i}\parallel ^2$$

बाद का फॉर्मूला ऑब्जेक्टिव फंक्शन को दर्शाता है जो कि k- मतलब क्लस्टीरिंग में इष्टतम प्रोटोटाइप को खोजने के लिए कम से कम किया जाता है। सूत्र का अंतर्ज्ञान यह है कि हम ऐसे समूहों को खोजना चाहेंगे जो एक-दूसरे के साथ भिन्न हों और प्रत्येक समूह का प्रत्येक सदस्य प्रत्येक समूह के अन्य सदस्यों के साथ समान हो।

निम्नलिखित उदाहरण दर्शाता है कि आर में k- साधन क्लस्टरिंग एल्गोरिदम को कैसे चलाना है।

library(ggplot2)
# Prepare Data 
data = mtcars  

# We need to scale the data to have zero mean and unit variance 
data <- scale(data)  

# Determine number of clusters 
wss <- (nrow(data)-1)*sum(apply(data,2,var)) 
for (i in 2:dim(data)[2]) { 
   wss[i] <- sum(kmeans(data, centers = i)$withinss) 
}  

# Plot the clusters 
plot(1:dim(data)[2], wss, type = "b", xlab = "Number of Clusters", 
   ylab = "Within groups sum of squares")

K के लिए एक अच्छा मूल्य खोजने के लिए, हम K के विभिन्न मानों के लिए वर्गों के योग के भीतर समूहों की साजिश कर सकते हैं। यह मीट्रिक सामान्य रूप से घट जाती है क्योंकि अधिक समूह जोड़े जाते हैं, हम एक बिंदु खोजना चाहेंगे, जहां समूहों के योग में कमी हो। चौकों की संख्या धीरे-धीरे कम होने लगती है। प्लॉट में, यह मान K = 6 द्वारा सर्वोत्तम रूप से दर्शाया गया है।

अब जब कि के मूल्य को परिभाषित किया गया है, तो उस मूल्य के साथ एल्गोरिथ्म को चलाने की आवश्यकता है।

# K-Means Cluster Analysis
fit <- kmeans(data, 5) # 5 cluster solution 

# get cluster means  
aggregate(data,by = list(fit$cluster),FUN = mean) 

# append cluster assignment 
data <- data.frame(data, fit$cluster)

चलो मैं मैं = 1 , मैं 2 , ..., मैं n आइटम कहा जाता है का एक सेट n द्विआधारी गुण हो। चलो डी = टी 1 , टी 2 , ..., टी मीटर लेनदेन डेटाबेस कहा जाता है का एक सेट हो। डी में प्रत्येक लेनदेन में एक अद्वितीय लेनदेन आईडी होता है और इसमें आइटम्स का सबसेट होता है। एक नियम को X ⇒ Y के रूप में परिभाषित किया जाता है जहां X, Y and I और X = Y = ∅ होता है।

आइटम के सेट (लघु आइटम-सेट के लिए) X और Y को नियम के बाएं (बाएं-हाथ-साइड या LHS) और परिणामी (राइट-हैंड-साइड या RHS) कहा जाता है।

अवधारणाओं को समझने के लिए, हम सुपरमार्केट डोमेन से एक छोटे से उदाहरण का उपयोग करते हैं। आइटम का सेट I = {दूध, ब्रेड, मक्खन, बीयर} है और आइटमों से युक्त एक छोटा डेटाबेस निम्नलिखित तालिका में दिखाया गया है।

लेनदेन आईडी आइटम
1 दूध, रोटी
2 रोटी मक्खन
3 बीयर
4 दूध, रोटी, मक्खन
5 रोटी मक्खन

सुपरमार्केट के लिए एक उदाहरण नियम {दूध, ब्रेड} ⇒ {मक्खन} हो सकता है जिसका अर्थ है कि यदि दूध और ब्रेड खरीदा जाता है, तो ग्राहक मक्खन भी खरीदते हैं। सभी संभव नियमों के सेट से दिलचस्प नियमों का चयन करने के लिए, महत्व और ब्याज के विभिन्न उपायों पर बाधाओं का उपयोग किया जा सकता है। सर्वोत्तम ज्ञात बाधाएं समर्थन और विश्वास पर न्यूनतम सीमाएं हैं।

किसी आइटम-सेट X का समर्थन दबाने (X) को डेटा सेट में लेन-देन के अनुपात के रूप में परिभाषित किया जाता है जिसमें आइटम-सेट होते हैं। तालिका 1 में उदाहरण डेटाबेस में, आइटम-सेट {दूध, ब्रेड} को 2/5 = 0.4 का समर्थन है क्योंकि यह सभी लेनदेन के 40% (5 में से 2 लेनदेन) में होता है। बार-बार होने वाले आइटम-सेट को अनिश्चित सीखने की समस्या के सरलीकरण के रूप में देखा जा सकता है।

एक नियम का विश्वास परिभाषित है (X ⇒ Y) = supp (X / Y) / supp (X)। उदाहरण के लिए, नियम {दूध, ब्रेड} ⇒ {बटर} का डेटाबेस 1 में तालिका में 0.2 / 0.4 = 0.5 का विश्वास है, जिसका अर्थ है कि दूध और ब्रेड वाले 50% लेनदेन के लिए नियम सही है। आत्मविश्वास की व्याख्या P (Y | X) की संभावना के अनुमान के रूप में की जा सकती है, इस शर्त के तहत लेन-देन में नियम का RHS खोजने की संभावना है कि इन लेनदेन में LHS भी शामिल है।

में स्थित स्क्रिप्ट में bda/part3/apriori.R लागू करने के लिए कोड apriori algorithm पाया जा सकता है।

# Load the library for doing association rules
# install.packages(’arules’) 
library(arules)  

# Data preprocessing 
data("AdultUCI") 
AdultUCI[1:2,]  
AdultUCI[["fnlwgt"]] <- NULL 
AdultUCI[["education-num"]] <- NULL  

AdultUCI[[ "age"]] <- ordered(cut(AdultUCI[[ "age"]], c(15,25,45,65,100)), 
   labels = c("Young", "Middle-aged", "Senior", "Old")) 
AdultUCI[[ "hours-per-week"]] <- ordered(cut(AdultUCI[[ "hours-per-week"]], 
   c(0,25,40,60,168)), labels = c("Part-time", "Full-time", "Over-time", "Workaholic")) 
AdultUCI[[ "capital-gain"]] <- ordered(cut(AdultUCI[[ "capital-gain"]], 
   c(-Inf,0,median(AdultUCI[[ "capital-gain"]][AdultUCI[[ "capitalgain"]]>0]),Inf)), 
   labels = c("None", "Low", "High")) 
AdultUCI[[ "capital-loss"]] <- ordered(cut(AdultUCI[[ "capital-loss"]], 
   c(-Inf,0, median(AdultUCI[[ "capital-loss"]][AdultUCI[[ "capitalloss"]]>0]),Inf)), 
   labels = c("none", "low", "high"))

एप्रीओरी एल्गोरिदम का उपयोग करके नियम बनाने के लिए, हमें एक लेनदेन मैट्रिक्स बनाने की आवश्यकता है। निम्न कोड दिखाता है कि यह कैसे करें R में।

# Convert the data into a transactions format
Adult <- as(AdultUCI, "transactions") 
Adult 
# transactions in sparse format with 
# 48842 transactions (rows) and 
# 115 items (columns)  

summary(Adult)  
# Plot frequent item-sets 
itemFrequencyPlot(Adult, support = 0.1, cex.names = 0.8)  

# generate rules 
min_support = 0.01 
confidence = 0.6 
rules <- apriori(Adult, parameter = list(support = min_support, confidence = confidence))

rules 
inspect(rules[100:110, ]) 
# lhs                             rhs                      support     confidence  lift
# {occupation = Farming-fishing} => {sex = Male}        0.02856148  0.9362416   1.4005486
# {occupation = Farming-fishing} => {race = White}      0.02831579  0.9281879   1.0855456
# {occupation = Farming-fishing} => {native-country     0.02671881  0.8758389   0.9759474
                                       = United-States}

डिसीज़न ट्री एक एल्गोरिथ्म है जिसका उपयोग वर्गीकरण या प्रतिगमन जैसी पर्यवेक्षित शिक्षण समस्याओं के लिए किया जाता है। एक निर्णय वृक्ष या एक वर्गीकरण वृक्ष एक ऐसा वृक्ष है जिसमें प्रत्येक आंतरिक (नॉनफ़्लफ़) नोड को एक इनपुट सुविधा के साथ लेबल किया जाता है। एक फीचर के साथ लेबल किए गए नोड से आने वाले आर्क को फीचर के प्रत्येक संभावित मान के साथ लेबल किया जाता है। पेड़ के प्रत्येक पत्ते को एक वर्ग या वर्गों पर संभाव्यता वितरण के साथ लेबल किया जाता है।

विशेषता मान परीक्षण के आधार पर सबसेट में सेट किए गए स्रोत को विभाजित करके एक पेड़ को "सीखा" जा सकता है। इस प्रक्रिया को प्रत्येक व्युत्पन्न उपसमुच्चय पर पुनरावर्ती तरीके से कहा जाता हैrecursive partitioning। पुनरावृत्ति तब पूर्ण होती है जब किसी नोड पर सबसेट के पास लक्ष्य चर के सभी समान मूल्य होते हैं, या जब विभाजन नहीं होता है तो भविष्यवाणियों में मूल्य जोड़ता है। निर्णय पेड़ों के शीर्ष-डाउन प्रेरण की यह प्रक्रिया एक लालची एल्गोरिथ्म का एक उदाहरण है, और यह निर्णय पेड़ों को सीखने के लिए सबसे आम रणनीति है।

डेटा माइनिंग में इस्तेमाल होने वाले निर्णय के पेड़ दो मुख्य प्रकार के होते हैं -

  • Classification tree - जब प्रतिक्रिया एक नाममात्र चर है, उदाहरण के लिए यदि कोई ईमेल स्पैम है या नहीं।

  • Regression tree - जब अनुमानित परिणाम को वास्तविक संख्या माना जा सकता है (उदाहरण के लिए एक श्रमिक का वेतन)।

निर्णय पेड़ एक सरल विधि है, और जैसे कुछ समस्याएं हैं। इस मुद्दे में से एक परिणामी मॉडल में उच्च विचरण है जो पेड़ों का निर्णय लेते हैं। इस समस्या को कम करने के लिए, निर्णय पेड़ों के कलाकारों की टुकड़ी विकसित की गई थी। वर्तमान में बड़े पैमाने पर उपयोग किए जाने वाले कलाकारों के दो समूह हैं -

  • Bagging decision trees- इन पेड़ों का उपयोग रिप्लेसमेंट के साथ बार-बार प्रशिक्षण डेटा को फिर से जमा करके और एक आम सहमति भविष्यवाणी के लिए पेड़ों को वोट करके कई निर्णय पेड़ों का निर्माण करने के लिए किया जाता है। इस एल्गोरिथम को यादृच्छिक वन कहा गया है।

  • Boosting decision trees- धीरे-धीरे बूस्टिंग कमजोर शिक्षार्थियों को जोड़ती है; इस मामले में, पेड़ों को एक मजबूत शिक्षार्थी के रूप में तय किया जाता है, एक पुनरावृत्त फैशन में। यह डेटा के लिए एक कमजोर पेड़ फिट बैठता है और पिछले मॉडल की त्रुटि को ठीक करने के लिए पुनरावृति कमजोर शिक्षार्थियों को फिट रखता है।

# Install the party package
# install.packages('party') 
library(party) 
library(ggplot2)  

head(diamonds) 
# We will predict the cut of diamonds using the features available in the 
diamonds dataset. 
ct = ctree(cut ~ ., data = diamonds) 

# plot(ct, main="Conditional Inference Tree") 
# Example output 
# Response:  cut  
# Inputs:  carat, color, clarity, depth, table, price, x, y, z  

# Number of observations:  53940  
#  
# 1) table <= 57; criterion = 1, statistic = 10131.878 
#   2) depth <= 63; criterion = 1, statistic = 8377.279 
#     3) table <= 56.4; criterion = 1, statistic = 226.423 
#       4) z <= 2.64; criterion = 1, statistic = 70.393 
#         5) clarity <= VS1; criterion = 0.989, statistic = 10.48 
#           6) color <= E; criterion = 0.997, statistic = 12.829 
#             7)*  weights = 82  
#           6) color > E  

#Table of prediction errors 
table(predict(ct), diamonds$cut) 
#            Fair  Good Very Good Premium Ideal 
# Fair       1388   171        17       0    14 
# Good        102  2912       499      26    27 
# Very Good    54   998      3334     249   355 
# Premium      44   711      5054   11915  1167 
# Ideal        22   114      3178    1601 19988 
# Estimated class probabilities 
probs = predict(ct, newdata = diamonds, type = "prob") 
probs = do.call(rbind, probs) 
head(probs)

लॉजिस्टिक रिग्रेशन एक क्लासिफिकेशन मॉडल है, जिसमें रिस्पॉन्स वेरिएबल श्रेणीबद्ध होता है। यह एक एल्गोरिथ्म है जो आँकड़ों से आता है और इसका उपयोग पर्यवेक्षित वर्गीकरण समस्याओं के लिए किया जाता है। लॉजिस्टिक रिग्रेशन में हम निम्नलिखित समीकरण में मापदंडों के वेक्टर we को ढूंढते हैं जो लागत फ़ंक्शन को कम करते हैं।

$$logit(p_i) = ln \left ( \frac{p_i}{1 - p_i} \right ) = \beta_0 + \beta_1x_{1,i} + ... + \beta_kx_{k,i}$$

निम्न कोड दर्शाता है कि आर में एक लॉजिस्टिक रिग्रेशन मॉडल को कैसे फिट किया जाए। हम यहां लॉजिस्टिक रिग्रेशन को प्रदर्शित करने के लिए स्पैम डेटासेट का उपयोग करेंगे, वही जिसका उपयोग नैवे बेस के लिए किया गया था।

सटीकता के संदर्भ में भविष्यवाणियों के परिणाम से, हम पाते हैं कि प्रतिगमन मॉडल टेस्ट सेट में 92.5% सटीकता प्राप्त करता है, जबकि नायव बेयस क्लासिफायर द्वारा प्राप्त 72% की तुलना में।

library(ElemStatLearn)
head(spam) 

# Split dataset in training and testing 
inx = sample(nrow(spam), round(nrow(spam) * 0.8)) 
train = spam[inx,] 
test = spam[-inx,]  

# Fit regression model 
fit = glm(spam ~ ., data = train, family = binomial()) 
summary(fit)  

# Call: 
#   glm(formula = spam ~ ., family = binomial(), data = train) 
#  

# Deviance Residuals:  
#   Min       1Q   Median       3Q      Max   
# -4.5172  -0.2039   0.0000   0.1111   5.4944
# Coefficients: 
# Estimate Std. Error z value Pr(>|z|)     
# (Intercept) -1.511e+00  1.546e-01  -9.772  < 2e-16 *** 
# A.1         -4.546e-01  2.560e-01  -1.776 0.075720 .   
# A.2         -1.630e-01  7.731e-02  -2.108 0.035043 *   
# A.3          1.487e-01  1.261e-01   1.179 0.238591     
# A.4          2.055e+00  1.467e+00   1.401 0.161153     
# A.5          6.165e-01  1.191e-01   5.177 2.25e-07 *** 
# A.6          7.156e-01  2.768e-01   2.585 0.009747 **  
# A.7          2.606e+00  3.917e-01   6.652 2.88e-11 *** 
# A.8          6.750e-01  2.284e-01   2.955 0.003127 **  
# A.9          1.197e+00  3.362e-01   3.559 0.000373 *** 
# Signif. codes:  0 *** 0.001 ** 0.01 * 0.05 . 0.1  1  

### Make predictions 
preds = predict(fit, test, type = ’response’) 
preds = ifelse(preds > 0.5, 1, 0) 
tbl = table(target = test$spam, preds) 
tbl 

#         preds 
# target    0   1 
# email   535  23 
# spam     46 316 
sum(diag(tbl)) / sum(tbl) 
# 0.925

टाइम सीरीज़ एक तिथि या टाइमस्टैम्प द्वारा अनुक्रमित श्रेणीबद्ध या संख्यात्मक चर के अवलोकन का एक क्रम है। समय श्रृंखला डेटा का एक स्पष्ट उदाहरण स्टॉक मूल्य का समय श्रृंखला है। निम्न तालिका में, हम समय श्रृंखला डेटा की बुनियादी संरचना देख सकते हैं। इस मामले में हर घंटे अवलोकन दर्ज किए जाते हैं।

समय-चिह्न शेयर की कीमत
2015-10-11 09:00:00 100
2015-10-11 10:00:00 110
2015-10-11 11:00:00 105
2015-10-11 12:00:00 90
2015-10-11 13:00:00 120

आम तौर पर, समय श्रृंखला विश्लेषण में पहला कदम श्रृंखला की साजिश है, यह आम तौर पर एक लाइन चार्ट के साथ किया जाता है।

समय श्रृंखला विश्लेषण का सबसे आम अनुप्रयोग डेटा के अस्थायी ढांचे का उपयोग करके एक संख्यात्मक मूल्य के भविष्य के मूल्यों का पूर्वानुमान है। इसका मतलब है, उपलब्ध टिप्पणियों का उपयोग भविष्य से मूल्यों की भविष्यवाणी करने के लिए किया जाता है।

डेटा के अस्थायी आदेश का तात्पर्य है कि पारंपरिक प्रतिगमन विधियाँ उपयोगी नहीं हैं। मजबूत पूर्वानुमान बनाने के लिए, हमें उन मॉडलों की आवश्यकता होती है जो डेटा के अस्थायी आदेश को ध्यान में रखते हैं।

टाइम सीरीज़ विश्लेषण के लिए सबसे व्यापक रूप से इस्तेमाल किया जाने वाला मॉडल कहा जाता है Autoregressive Moving Average(ARMA)। मॉडल में दो भाग होते हैं, aautoregressive (एआर) भाग और ए moving average(MA) भाग। मॉडल को आमतौर पर ARMA (p, q) मॉडल के रूप में संदर्भित किया जाता है जहां p ऑटोर्रिजिव भाग का क्रम है और q मूविंग एवरेज पार्ट का क्रम है।

ऑटोरेग्रेसिव मॉडल

एआर (पी) के क्रम पी के एक autoregressive मॉडल के रूप में पढ़ा जाता है। गणितीय रूप से इसे इस प्रकार लिखा जाता है -

$ $ X_t = c + \ sum_ {i = 1} ^ {P} \ phi_i X_ {t - i} + \ varepsilon_ {t} $$

जहाँ { parameters 1 ,…, } p } अनुमानित किए जाने वाले पैरामीटर हैं, c एक स्थिर है, और यादृच्छिक चर ε t सफेद शोर का प्रतिनिधित्व करता है। मापदंडों के मूल्यों पर कुछ अड़चनें आवश्यक हैं ताकि मॉडल स्थिर रहे।

सामान्य गति

अंकन एमए (q) क्रम q के औसत औसत मॉडल को संदर्भित करता है -

$ $ X_t = \ mu + \ varepsilon_t + \ sum_ {i = 1} ^ {q} \ theta_i \ varepsilon_ {t - i} $$

जहां θ 1 , ..., θ क्ष मॉडल के मापदंडों हैं, μ एक्स की उम्मीद है टी , और ε टी , ε टी - 1 , ..., सफेद शोर त्रुटि शब्द हैं।

ऑटोरेग्रेसिव मूविंग एवरेज

ARMA (पी, क्यू) मॉडल को जोड़ती है पी autoregressive नियम और क्ष चलती-औसत शर्तों। गणितीय रूप से मॉडल निम्नलिखित सूत्र के साथ व्यक्त किया गया है -

$ $ X_t = c + \ varepsilon_t + \ sum_ {i = 1} ^ {P} \ phi_iX_ {t - 1} + \ sum_ {i = 1} ^ {q} \ ata_i \ varepsilon_ {ti} $ $

हम देख सकते हैं कि ARMA (p, q) मॉडल AR (p) और MA (q) मॉडल का संयोजन है ।

मॉडल के कुछ अंतर्ज्ञान देने के लिए विचार है कि समीकरण के एआर हिस्सा एक्स के लिए मानकों को अनुमान लगाने के लिए करना चाहता है टी - मैं आदेश एक्स में चर के मूल्य की भविष्यवाणी करने में की टिप्पणियों टी । यह अंत में पिछले मूल्यों का एक भारित औसत है। एमए अनुभाग समान दृष्टिकोण का उपयोग करता है लेकिन पिछली टिप्पणियों की त्रुटि के साथ, i t - i । तो अंत में, मॉडल का परिणाम एक भारित औसत है।

निम्नलिखित कोड स्निपेट दर्शाता है कि आर में एक एआरएमए (पी, क्यू) कैसे लागू किया जाए ।

# install.packages("forecast")
library("forecast")  

# Read the data 
data = scan('fancy.dat') 
ts_data <- ts(data, frequency = 12, start = c(1987,1)) 
ts_data  
plot.ts(ts_data)

डेटा को प्लॉट करना आम तौर पर यह पता लगाने का पहला चरण है कि क्या डेटा में एक अस्थायी संरचना है। हम प्लॉट से देख सकते हैं कि प्रत्येक वर्ष के अंत में मजबूत स्पाइक्स हैं।

निम्न कोड डेटा के लिए एक ARMA मॉडल फिट बैठता है। यह मॉडल के कई संयोजन चलाता है और कम त्रुटि वाले का चयन करता है।

# Fit the ARMA model
fit = auto.arima(ts_data) 
summary(fit) 

# Series: ts_data  
# ARIMA(1,1,1)(0,1,1)[12]                     
#    Coefficients: 
#    ar1     ma1    sma1 
# 0.2401  -0.9013  0.7499 
# s.e.  0.1427   0.0709  0.1790 

#  
# sigma^2 estimated as 15464184:  log likelihood = -693.69 
# AIC = 1395.38   AICc = 1395.98   BIC = 1404.43 

# Training set error measures: 
#                 ME        RMSE      MAE        MPE        MAPE      MASE       ACF1 
# Training set   328.301  3615.374  2171.002  -2.481166  15.97302  0.4905797 -0.02521172

इस अध्याय में, हम पुस्तक के भाग 1 में बिखरे हुए डेटा का उपयोग करेंगे। डेटा में टेक्स्ट होता है जो फ्रीलांसरों के प्रोफाइल का वर्णन करता है, और प्रति घंटा की दर से वे USD में चार्ज कर रहे हैं। निम्नलिखित अनुभाग का विचार एक मॉडल को फिट करना है जिसने एक फ्रीलांसर के कौशल को दिया, हम इसके प्रति घंटे के वेतन की भविष्यवाणी करने में सक्षम हैं।

निम्न कोड दिखाता है कि कच्चे टेक्स्ट को कैसे परिवर्तित किया जाए कि इस मामले में उपयोगकर्ता के पास शब्दों के मैट्रिक्स के बैग में कौशल हो। इसके लिए हम t r नामक एक लाइब्रेरी का उपयोग करते हैं। इसका मतलब यह है कि कॉर्पस में प्रत्येक शब्द के लिए हम प्रत्येक चर की घटनाओं की मात्रा के साथ चर बनाते हैं।

library(tm)
library(data.table)  

source('text_analytics/text_analytics_functions.R') 
data = fread('text_analytics/data/profiles.txt') 
rate = as.numeric(data$rate) 
keep = !is.na(rate) 
rate = rate[keep]  

### Make bag of words of title and body 
X_all = bag_words(data$user_skills[keep]) 
X_all = removeSparseTerms(X_all, 0.999) 
X_all 

# <<DocumentTermMatrix (documents: 389, terms: 1422)>> 
#   Non-/sparse entries: 4057/549101 
# Sparsity           : 99% 
# Maximal term length: 80 
# Weighting          : term frequency - inverse document frequency (normalized) (tf-idf) 

### Make a sparse matrix with all the data 
X_all <- as_sparseMatrix(X_all)

अब जब हमारे पास एक स्पार्स मैट्रिक्स के रूप में प्रतिनिधित्व किया गया पाठ है तो हम एक मॉडल फिट कर सकते हैं जो एक विरल समाधान देगा। इस मामले के लिए एक अच्छा विकल्प LASSO (कम से कम पूर्ण संकोचन और चयन ऑपरेटर) का उपयोग कर रहा है। यह एक प्रतिगमन मॉडल है जो लक्ष्य का अनुमान लगाने के लिए सबसे अधिक प्रासंगिक सुविधाओं का चयन करने में सक्षम है।

train_inx = 1:200
X_train = X_all[train_inx, ] 
y_train = rate[train_inx]  
X_test = X_all[-train_inx, ] 
y_test = rate[-train_inx]  

# Train a regression model 
library(glmnet) 
fit <- cv.glmnet(x = X_train, y = y_train,  
   family = 'gaussian', alpha = 1,  
   nfolds = 3, type.measure = 'mae') 
plot(fit)  

# Make predictions 
predictions = predict(fit, newx = X_test) 
predictions = as.vector(predictions[,1]) 
head(predictions)  

# 36.23598 36.43046 51.69786 26.06811 35.13185 37.66367 
# We can compute the mean absolute error for the test data 
mean(abs(y_test - predictions)) 
# 15.02175

अब हमारे पास एक मॉडल है जो कौशल का एक सेट दिया गया है जो एक फ्रीलांसर के प्रति घंटा वेतन का अनुमान लगाने में सक्षम है। यदि अधिक डेटा एकत्र किया जाता है, तो मॉडल के प्रदर्शन में सुधार होगा, लेकिन इस पाइपलाइन को लागू करने का कोड समान होगा।

ऑनलाइन लर्निंग मशीन लर्निंग का एक उपक्षेत्र है जो बड़े पैमाने पर डेटासेट के लिए पर्यवेक्षित शिक्षण मॉडल को स्केल करने की अनुमति देता है। मूल विचार यह है कि किसी मॉडल को फिट करने के लिए हमें सभी डेटा को पढ़ने की आवश्यकता नहीं है, हमें केवल एक बार में प्रत्येक उदाहरण को पढ़ने की आवश्यकता है।

इस मामले में, हम दिखाएंगे कि लॉजिस्टिक रिग्रेशन का उपयोग करके ऑनलाइन लर्निंग एल्गोरिथम को कैसे लागू किया जाए। जैसा कि अधिकांश पर्यवेक्षित शिक्षण एल्गोरिदम में, एक लागत कार्य है जिसे कम से कम किया जाता है। लॉजिस्टिक रिग्रेशन में, लागत फ़ंक्शन को निम्न के रूप में परिभाषित किया गया है -

$ $ J (\ theta) \: = \: \ frac {-1} {m} \ left [\ sum_ {i = 1} ^ {m} y ^ {(i)} लॉग (h _ {\ theta} () x ^ {(i)})) + (1 - y ^ {(i)}) लॉग (1 - h _ {\ थीटा} (x ^ {(i)}) \ right] $ $

जहां जम्मू (θ) लागत समारोह और का प्रतिनिधित्व करता है θ (x) का प्रतिनिधित्व करता है परिकल्पना। लॉजिस्टिक रिग्रेशन के मामले में इसे निम्न सूत्र से परिभाषित किया गया है -

$ $ h_ \ the थीटा (x) = \ frac {1} {1 + e ^ {\ थीटा ^ T x}}

अब जब हमने लागत फ़ंक्शन को परिभाषित किया है तो हमें इसे कम से कम करने के लिए एक एल्गोरिथ्म खोजने की आवश्यकता है। इसे प्राप्त करने के लिए सबसे सरल एल्गोरिथ्म को स्टोचैस्टिक ग्रेडिएंट वंश कहा जाता है। लॉजिस्टिक प्रतिगमन मॉडल के भार के लिए एल्गोरिथ्म का अद्यतन नियम निम्नानुसार परिभाषित किया गया है -

$ $ \ theta_j: = \ theta_j - \ Alpha (h_ \ theta (x) - y) x $ $

निम्नलिखित एल्गोरिथ्म के कई कार्यान्वयन हैं, लेकिन वोवपाल वैबिट लाइब्रेरी में लागू किया गया अब तक का सबसे अधिक विकसित है। पुस्तकालय बड़े पैमाने पर प्रतिगमन मॉडल के प्रशिक्षण की अनुमति देता है और कम मात्रा में रैम का उपयोग करता है। रचनाकारों के स्वयं के शब्दों में इसे इस प्रकार वर्णित किया गया है: "Vowpal Wabbit (VW) परियोजना एक तेज़ आउट-ऑफ-कोर लर्निंग सिस्टम है जो Microsoft रिसर्च और (पहले) Yahoo-Research द्वारा प्रायोजित है।"

हम एक से टाइटैनिक डेटासेट के साथ काम करेंगे kaggleमुकाबला। मूल डेटा में पाया जा सकता हैbda/part3/vwफ़ोल्डर। यहाँ, हमारे पास दो फाइलें हैं -

  • हमारे पास प्रशिक्षण डेटा (train_titanic.csv), और है
  • नए पूर्वानुमान (test_titanic.csv) बनाने के लिए अनलिस्टेड डेटा।

सीएसवी प्रारूप को परिवर्तित करने के लिए vowpal wabbit इनपुट प्रारूप का उपयोग करें csv_to_vowpal_wabbit.pyअजगर की पटकथा। आपको स्पष्ट रूप से इसके लिए अजगर स्थापित करने की आवश्यकता होगी। पर नेविगेट करेंbda/part3/vw फ़ोल्डर, टर्मिनल खोलें और निम्नलिखित कमांड निष्पादित करें -

python csv_to_vowpal_wabbit.py

ध्यान दें कि इस खंड के लिए, यदि आप विंडोज़ का उपयोग कर रहे हैं, तो आपको यूनिक्स कमांड लाइन को स्थापित करने की आवश्यकता होगी, उसके लिए cygwin वेबसाइट दर्ज करें।

टर्मिनल खोलें और फ़ोल्डर में भी bda/part3/vw और निम्नलिखित कमांड निष्पादित करें -

vw train_titanic.vw -f model.vw --binary --passes 20 -c -q ff --sgd --l1 
0.00000001 --l2 0.0000001 --learning_rate 0.5 --loss_function logistic

आइए हम इस बात का खंडन करें कि प्रत्येक के तर्क क्या हैं vw call माध्यम।

  • -f model.vw - इसका मतलब है कि हम बाद में भविष्यवाणियां करने के लिए model.vw फ़ाइल में मॉडल को सहेज रहे हैं

  • --binary - -1,1 लेबल के साथ बाइनरी वर्गीकरण के रूप में रिपोर्ट नुकसान

  • --passes 20 - वेट सीखने के लिए डेटा का इस्तेमाल 20 बार किया जाता है

  • -c - कैशे फाइल बनाएं

  • -q ff - f नाम स्थान में द्विघात सुविधाओं का उपयोग करें

  • --sgd - नियमित / क्लासिक / सरल स्टोकेस्टिक ग्रेडिएंट डिसेंट अपडेट का उपयोग करें, यानी, नॉनएडेप्टिव, नॉन-नॉर्मलाइज्ड और नॉन-इनवेरिएंट।

  • --l1 --l2 - एल 1 और एल 2 मानक नियमितीकरण

  • --learning_rate 0.5 - अद्यतन दर αas को नियम नियम सूत्र में परिभाषित किया गया है

निम्न कोड कमांड लाइन में प्रतिगमन मॉडल को चलाने के परिणाम दिखाता है। परिणामों में, हमें औसत लॉग-लॉस और एल्गोरिथ्म प्रदर्शन की एक छोटी रिपोर्ट मिलती है।

-loss_function logistic
creating quadratic features for pairs: ff  
using l1 regularization = 1e-08 
using l2 regularization = 1e-07 

final_regressor = model.vw 
Num weight bits = 18 
learning rate = 0.5 
initial_t = 1 
power_t = 0.5 
decay_learning_rate = 1 
using cache_file = train_titanic.vw.cache 
ignoring text input in favor of cache input 
num sources = 1 

average    since         example   example  current  current  current 
loss       last          counter   weight    label   predict  features 
0.000000   0.000000          1      1.0    -1.0000   -1.0000       57 
0.500000   1.000000          2      2.0     1.0000   -1.0000       57 
0.250000   0.000000          4      4.0     1.0000    1.0000       57 
0.375000   0.500000          8      8.0    -1.0000   -1.0000       73 
0.625000   0.875000         16     16.0    -1.0000    1.0000       73 
0.468750   0.312500         32     32.0    -1.0000   -1.0000       57 
0.468750   0.468750         64     64.0    -1.0000    1.0000       43 
0.375000   0.281250        128    128.0     1.0000   -1.0000       43 
0.351562   0.328125        256    256.0     1.0000   -1.0000       43 
0.359375   0.367188        512    512.0    -1.0000    1.0000       57 
0.274336   0.274336       1024   1024.0    -1.0000   -1.0000       57 h 
0.281938   0.289474       2048   2048.0    -1.0000   -1.0000       43 h 
0.246696   0.211454       4096   4096.0    -1.0000   -1.0000       43 h 
0.218922   0.191209       8192   8192.0     1.0000    1.0000       43 h 

finished run 
number of examples per pass = 802 
passes used = 11 
weighted example sum = 8822 
weighted label sum = -2288 
average loss = 0.179775 h 
best constant = -0.530826 
best constant’s loss = 0.659128 
total feature number = 427878

अब हम इसका उपयोग कर सकते हैं model.vw हमने नए डेटा के साथ भविष्यवाणियों को बनाने के लिए प्रशिक्षित किया।

vw -d test_titanic.vw -t -i model.vw -p predictions.txt

पिछली कमांड में उत्पन्न भविष्यवाणियां [0, 1] श्रेणी के बीच फिट होने के लिए सामान्यीकृत नहीं हैं। ऐसा करने के लिए, हम सिग्मॉइड ट्रांसफॉर्मेशन का उपयोग करते हैं।

# Read the predictions
preds = fread('vw/predictions.txt')  

# Define the sigmoid function 
sigmoid = function(x) { 
   1 / (1 + exp(-x)) 
} 
probs = sigmoid(preds[[1]])  

# Generate class labels 
preds = ifelse(probs > 0.5, 1, 0) 
head(preds) 
# [1] 0 1 0 0 1 0