सॉफ्टवेयर मापन डेटा का विश्लेषण
प्रासंगिक डेटा एकत्र करने के बाद, हमें इसका उचित तरीके से विश्लेषण करना होगा। विश्लेषण तकनीक चुनने के लिए विचार करने के लिए तीन प्रमुख आइटम हैं।
- डेटा की प्रकृति
- प्रयोग का उद्देश्य
- रचना विवेचन
डेटा की प्रकृति
डेटा का विश्लेषण करने के लिए, हमें डेटा द्वारा दर्शाई गई बड़ी आबादी के साथ-साथ उस डेटा के वितरण को भी देखना चाहिए।
नमूनाकरण, जनसंख्या और डेटा वितरण
नमूनाकरण एक बड़ी आबादी से डेटा का एक सेट चुनने की प्रक्रिया है। नमूना आंकड़े प्रयोगात्मक विषयों के समूह से प्राप्त उपायों का वर्णन और सारांश करते हैं।
जनसंख्या पैरामीटर उन मानों का प्रतिनिधित्व करते हैं जो सभी संभावित विषयों को मापा जाने पर प्राप्त किए जाएंगे।
जनसंख्या या नमूने को केंद्रीय प्रवृत्ति के उपायों जैसे कि माध्य, मध्य और विधा और फैलाव के उपायों जैसे विचलन और मानक विचलन द्वारा वर्णित किया जा सकता है। डेटा के कई सेट सामान्य रूप से वितरित किए जाते हैं जैसा कि निम्नलिखित ग्राफ में दिखाया गया है।
जैसा कि ऊपर दिखाया गया है, माध्य के बारे में डेटा समान रूप से वितरित किया जाएगा। जो एक सामान्य वितरण की महत्वपूर्ण विशेषताएं है।
अन्य वितरण भी मौजूद हैं जहां डेटा को तिरछा किया जाता है ताकि अन्य की तुलना में मीन के एक तरफ अधिक डेटा बिंदु हों। उदाहरण के लिए: यदि अधिकांश डेटा माध्य के बाईं ओर मौजूद है, तो हम कह सकते हैं कि वितरण बाईं ओर तिरछा है।
प्रयोग का उद्देश्य
आम तौर पर, प्रयोग किए जाते हैं -
- एक सिद्धांत की पुष्टि करने के लिए
- एक रिश्ते का पता लगाने के लिए
इनमें से प्रत्येक को प्राप्त करने के लिए, उद्देश्य को परिकल्पना के रूप में औपचारिक रूप से व्यक्त किया जाना चाहिए, और विश्लेषण को सीधे परिकल्पना को संबोधित करना चाहिए।
एक सिद्धांत की पुष्टि करने के लिए
एक सिद्धांत की सच्चाई का पता लगाने के लिए जांच को डिजाइन किया जाना चाहिए। सिद्धांत आमतौर पर कहता है कि किसी निश्चित विधि, उपकरण, या तकनीक के उपयोग से विषयों पर एक विशेष प्रभाव पड़ता है, जिससे यह किसी अन्य की तुलना में बेहतर होता है।
डेटा के दो मामलों पर विचार किया जाना है: normal data तथा non-normal data।
यदि डेटा एक सामान्य वितरण से है और उसकी तुलना करने के लिए दो समूह हैं, तो छात्र के परीक्षण का उपयोग विश्लेषण के लिए किया जा सकता है। यदि तुलना करने के लिए दो से अधिक समूह हैं, तो एफ-सांख्यिकी नामक विचरण परीक्षण के एक सामान्य विश्लेषण का उपयोग किया जा सकता है।
यदि डेटा गैर-सामान्य है, तो क्रूसकल-वालिस परीक्षण का उपयोग करके डेटा का विश्लेषण किया जा सकता है।
एक रिश्ते का पता लगाने के लिए
जांच को एक चर या कई चर का वर्णन करने वाले डेटा बिंदुओं के बीच संबंध निर्धारित करने के लिए डिज़ाइन किया गया है।
एक रिश्ते के बारे में सवालों के जवाब देने के लिए तीन तकनीकें हैं: बॉक्स प्लॉट, स्कैटर प्लॉट और सहसंबंध विश्लेषण।
ए box plot डेटा के एक समूह की सीमा का सारांश प्रस्तुत कर सकता है।
ए scatter plot दो चर के बीच संबंध का प्रतिनिधित्व करता है।
Correlation analysis दो विशेषताओं के बीच एक सच्चा संबंध है या नहीं, इसकी पुष्टि करने के लिए सांख्यिकीय तरीकों का उपयोग करता है।
सामान्य रूप से वितरित मूल्यों के लिए, उपयोग करें Pearson Correlation Coefficient यह जांचने के लिए कि दोनों चर अत्यधिक सहसंबद्ध हैं या नहीं।
गैर-सामान्य डेटा के लिए, डेटा को रैंक करें और उपयोग करें Spearman Rank Correlation Coefficientएसोसिएशन के एक उपाय के रूप में। गैर-सामान्य डेटा के लिए एक और उपाय हैKendall robust correlation coefficient, जो डेटा बिंदुओं के जोड़े के बीच संबंधों की जांच करता है और एक आंशिक सहसंबंध की पहचान कर सकता है।
यदि रैंकिंग में बड़ी संख्या में बंधे मूल्य हैं, तो ए chi-squared testएक आकस्मिक मेज पर चर के बीच संघ का परीक्षण करने के लिए इस्तेमाल किया जा सकता है। इसी तरह,linear regression चर के बीच संबंधों का वर्णन करने के लिए एक समीकरण उत्पन्न करने के लिए इस्तेमाल किया जा सकता है।
दो से अधिक चर के लिए, multivariate regression इस्तेमाल किया जा सकता है।
रचना विवेचन
विश्लेषण तकनीकों को चुनते समय जांच के डिजाइन पर विचार किया जाना चाहिए। उसी समय, विश्लेषण की जटिलता चुने हुए डिजाइन को प्रभावित कर सकती है। एकाधिक समूह दो समूहों के साथ छात्र के टी-टेस्ट के बजाय एफ-सांख्यिकी का उपयोग करते हैं।
जटिल फैक्टरियल डिज़ाइन के लिए दो से अधिक कारकों के साथ, संघ और महत्व के अधिक परिष्कृत परीक्षण की आवश्यकता होती है।
सांख्यिकीय तकनीकों का उपयोग दूसरों पर चर के एक सेट के प्रभाव के लिए, या समय या सीखने के प्रभावों की भरपाई के लिए किया जा सकता है।