टेक्स्ट फ़ंक्शंस के साथ डेटा की सफाई
डेटा जो आपको विभिन्न स्रोतों से प्राप्त होता है, कई विश्लेषण के लिए तैयार फॉर्म में नहीं होता है। इस अध्याय में, आप समझेंगे कि विश्लेषण के लिए पाठ के रूप में आपके डेटा को कैसे तैयार किया जाए।
प्रारंभ में, आपको डेटा को साफ़ करने की आवश्यकता है। डेटा सफाई में पाठ से अवांछित वर्णों को निकालना शामिल है। इसके बाद, आपको उस डेटा की संरचना करने की आवश्यकता है जिस रूप में आपको आगे के विश्लेषण की आवश्यकता है। आप ऐसा ही कर सकते हैं -
- पाठ कार्यों के साथ आवश्यक पाठ पैटर्न ढूँढना।
- पाठ से डेटा मान निकालना।
- पाठ कार्यों के साथ डेटा स्वरूपण।
- पाठ कार्यों के साथ डेटा संचालन निष्पादित करना।
पाठ से अवांछित वर्ण हटाना
जब आप किसी अन्य एप्लिकेशन से डेटा आयात करते हैं, तो इसमें गैर-वर्ण वाले वर्ण और / या अतिरिक्त स्थान हो सकते हैं। अतिरिक्त स्थान हो सकते हैं -
- प्रमुख स्थान, और / या
- शब्दों के बीच अतिरिक्त रिक्त स्थान।
यदि आप ऐसे डेटा को सॉर्ट या विश्लेषण करते हैं, तो आपको गलत परिणाम मिलेंगे।
निम्नलिखित उदाहरण पर विचार करें -
यह कच्चा डेटा है जो आपने उत्पाद की जानकारी पर प्राप्त किया है जिसमें उत्पाद आईडी, उत्पाद विवरण और मूल्य शामिल हैं। चरित्र "|" प्रत्येक पंक्ति में फ़ील्ड को अलग करता है।
जब आप इस डेटा को एक्सेल वर्कशीट में आयात करते हैं, तो यह निम्नानुसार दिखता है -
जैसा कि आप देखते हैं, पूरा डेटा एक ही कॉलम में है। डेटा विश्लेषण करने के लिए आपको इस डेटा की संरचना करने की आवश्यकता है। हालाँकि, शुरू में आपको डेटा साफ़ करने की आवश्यकता है।
आपको किसी भी गैर-वर्ण वाले वर्ण और अतिरिक्त स्थान को निकालने की आवश्यकता है जो डेटा में मौजूद हो सकते हैं। आप इस उद्देश्य के लिए CLEAN फ़ंक्शन और TRIM फ़ंक्शन का उपयोग कर सकते हैं।
क्र.सं. | समारोह विवरण |
---|---|
1। | CLEAN पाठ से सभी गैर-वर्णों को हटा देता है |
2। | TRIM पाठ से रिक्त स्थान निकालता है |
- कक्ष C3 - C11 का चयन करें।
- टाइप करें = TRIM (CLEAN (B3)) और फिर CTRL + Enter दबाएँ।
सूत्र C3 - C11 कोशिकाओं में भरा जाता है।
परिणाम निम्नानुसार होगा -
टेक्स्ट फंक्शंस के साथ आवश्यक टेक्स्ट पैटर्न खोजना
अपने डेटा की संरचना करने के लिए, आपको कुछ निश्चित पाठ पैटर्न मिलान करने पड़ सकते हैं जिसके आधार पर आप डेटा मान निकाल सकते हैं। इस उद्देश्य के लिए उपयोगी कुछ पाठ कार्य हैं -
क्र.सं. | समारोह विवरण |
---|---|
1। | EXACT यह देखने के लिए जाँच करता है कि क्या दो पाठ मान समान हैं |
2। | FIND एक पाठ मान को दूसरे के भीतर (केस-संवेदी) पाता है |
3। | SEARCH एक पाठ मान को दूसरे के भीतर पाता है (केस-संवेदी नहीं) |
पाठ से डेटा मान निकालना
आपको संरचना बनाने के लिए पाठ से आवश्यक डेटा निकालने की आवश्यकता है। उपरोक्त उदाहरण में, कहते हैं, आपको डेटा को तीन कॉलमों में रखने की आवश्यकता है - ProductID, Product_Description और Price।
आप निम्न तरीकों में से एक में डेटा निकाल सकते हैं -
- स्तंभ विज़ार्ड में कनवर्ट पाठ के साथ डेटा मान निकाल रहा है
- टेक्स्ट फंक्शंस के साथ डेटा वैल्यू निकालना
- फ्लैश भरने के साथ डेटा मान निकालना
स्तंभ विज़ार्ड में कनवर्ट पाठ के साथ डेटा मान निकाल रहा है
आप उपयोग कर सकते हैं Convert Text to Columns Wizard यदि आपके फ़ील्ड हैं तो Excel कॉलम में डेटा मान निकालने के लिए -
- एक चरित्र द्वारा सीमांकित, या
- प्रत्येक क्षेत्र के बीच रिक्त स्थान के साथ कॉलम में संरेखित।
उपरोक्त उदाहरण में, फ़ील्ड को "" | इसलिए, आप उपयोग कर सकते हैंConvert Text to Columns जादूगर।
डेटा का चयन करें।
एक ही स्थान पर मूल्यों को कॉपी और पेस्ट करें। अन्यथा,Convert Text to Columns डेटा के बजाय कार्यों को इनपुट के रूप में लेता है।
डेटा का चयन करें।
पर क्लिक करें Text to Columns में Data Tools के तहत समूह Data रिबन पर टैब करें।
Step 1 - टेक्स्ट को कॉलम विजार्ड में बदलें - चरण 1 का 3 प्रकट होता है।
- डिलीट का चयन करें।
- अगला पर क्लिक करें।
Step 2 - टेक्स्ट को कॉलम विजार्ड में बदलें - स्टेप 2 ऑफ 3 प्रकट होता है।
के अंतर्गत Delimiters, चुनते हैं Other।
के बगल वाले बॉक्स में Other, चरित्र टाइप करें |
क्लिक Next।
Step 3 - पाठ को कॉलम विजार्ड में बदलें - चरण 3 का 3 प्रकट होता है।
इस स्क्रीन में, आप विज़ार्ड में अपने डेटा के प्रत्येक कॉलम का चयन कर सकते हैं और उस कॉलम का प्रारूप सेट कर सकते हैं।
के लिये Destination, सेल डी 3 का चयन करें।
आप क्लिक कर सकते हैं Advanced, और सेट करें Decimal Separator तथा Thousands Separator में Advanced Text Import Settings दिखाई देने वाला डायलॉग बॉक्स।
क्लिक Finish।
आपका डेटा, जिसे कॉलम में परिवर्तित किया गया है, तीन कॉलम - D, E और F में प्रकट होता है।
- कॉलम हेडर का नाम ProductID, Product_Description और Price के रूप में रखें।
टेक्स्ट फंक्शंस के साथ डेटा वैल्यू निकालना
मान लीजिए कि आपके डेटा के फ़ील्ड्स को न तो किसी वर्ण द्वारा सीमांकित किया गया है और न ही प्रत्येक फ़ील्ड के बीच रिक्त स्थान के साथ कॉलम में संरेखित किया गया है, आप डेटा मान निकालने के लिए पाठ फ़ंक्शन का उपयोग कर सकते हैं। यहां तक कि अगर फ़ील्ड को सीमांकित किया जाता है, तो भी आप डेटा निकालने के लिए टेक्स्ट फ़ंक्शन का उपयोग कर सकते हैं।
इस उद्देश्य के लिए उपयोगी कुछ पाठ कार्य हैं -
क्र.सं. | समारोह विवरण |
---|---|
1। | LEFT एक पाठ मान से बाईं ओर के वर्ण लौटाता है |
2। | RIGHT पाठ मान से सबसे सही वर्ण लौटाता है |
3। | MID आपके द्वारा निर्दिष्ट स्थिति पर शुरू होने वाले एक पाठ स्ट्रिंग से वर्णों की एक विशिष्ट संख्या देता है |
4। | LEN एक पाठ स्ट्रिंग में वर्णों की संख्या देता है |
आप आवश्यक डेटा मानों को निकालने के लिए इनमें से दो या अधिक टेक्स्ट फ़ंक्शंस को अपने हाथ में मौजूद डेटा के अनुसार जोड़ सकते हैं। उदाहरण के लिए, LEFT, RIGHT और VALUE फ़ंक्शंस के संयोजन का उपयोग करना या FIND, LEFT, LEN और MID फ़ंक्शंस के संयोजन का उपयोग करना।
उपरोक्त उदाहरण में,
सभी वर्ण पहले छोड़ दिया | नाम ProductID दें।
दूसरे वर्ण के सभी वर्ण | नाम दे कीमत।
सभी वर्ण जो पहले के बीच स्थित हैं | और दूसरा | नाम Product_Description दें।
प्रत्येक | पहले और बाद में एक स्थान है।
इस जानकारी को देखते हुए, आप निम्न चरणों के साथ डेटा मान निकाल सकते हैं -
पहले की स्थिति का पता लगाएं | -First | Position
आप FIND फ़ंक्शन का उपयोग कर सकते हैं
दूसरी की स्थिति ज्ञात कीजिये | -Second | Position
आप फिर से समारोह का उपयोग कर सकते हैं
शुरुआतFirst | Position - 2) टेक्स्ट के अक्षर ProductID देते हैं
आप LEFT फ़ंक्शन का उपयोग कर सकते हैं
(First | Position + 2) से (Second | Position - 2) टेक्स्ट के अक्षर Product_Description देते हैं
आप MID फ़ंक्शन का उपयोग कर सकते हैं
(Second | Position + 2) पाठ के अंत अक्षर मूल्य देते हैं
आप RIGHT फंक्शन का उपयोग कर सकते हैं
परिणाम निम्नानुसार होगा -
आप देख सकते हैं कि मूल्य स्तंभ में मान पाठ मान हैं। इन मूल्यों पर गणना करने के लिए, आपको संबंधित कोशिकाओं को प्रारूपित करना होगा। स्वरूपण पाठ को समझने के लिए आप नीचे दिए गए अनुभाग को देख सकते हैं।
फ्लैश भरने के साथ डेटा मान निकालना
एक्सेल का उपयोग करना Flash Fillपाठ से डेटा मान निकालने का एक और तरीका है। हालाँकि, यह तभी काम करता है जब एक्सेल डेटा में एक पैटर्न खोजने में सक्षम होता है।
Step 1 - ProductID, Product_Description और डेटा के आगे मूल्य के लिए तीन कॉलम बनाएं।
Step 2 - बी 3 से सी 3, डी 3 और ई 3 के लिए मूल्यों को कॉपी और पेस्ट करें।
Step 3 - सेल C3 चुनें और क्लिक करें Flash Fill में Data Tools पर समूह Dataटैब। ProductID के सभी मान भरे जाते हैं।
Step 4- Product_Description और Price के लिए ऊपर दिए गए चरणों को दोहराएं। डेटा भरा है।
पाठ कार्य के साथ डेटा स्वरूपण
एक्सेल में कई अंतर्निहित पाठ फ़ंक्शन हैं जिनका उपयोग आप पाठ वाले डेटा को प्रारूपित करने के लिए कर सकते हैं। इनमें शामिल हैं -
Functions that format the Text as per your need -
क्र.सं. | समारोह विवरण |
---|---|
1। | LOWER पाठ को निचले हिस्से में परिवर्तित करता है |
क्र.सं. | समारोह विवरण |
---|---|
1। | UPPER पाठ को अपरकेस में परिवर्तित करता है |
2। | PROPER पाठ मूल्य के प्रत्येक शब्द में पहले अक्षर को कैपिटलाइज़ करता है |
Functions that convert and/or format the Numbers as Text -
क्र.सं. | समारोह विवरण |
---|---|
1। | DOLLAR $ (डॉलर) मुद्रा प्रारूप का उपयोग करके, पाठ को एक संख्या प्रदान करता है |
2। | FIXED दशमलव के एक निश्चित संख्या के साथ पाठ के रूप में एक संख्या को प्रारूपित करता है |
3। | TEXT एक संख्या को प्रारूपित करता है और इसे पाठ में रूपांतरित करता है |
Functions that convert the Text to Numbers -
क्र.सं. | समारोह विवरण |
---|---|
1। | VALUE एक पाठ तर्क को एक संख्या में परिवर्तित करता है |
Executing Data Operations with the Text Functions
आपको अपने डेटा पर कुछ पाठ संचालन करने पड़ सकते हैं। उदाहरण के लिए, यदि कर्मचारी के लिए लॉगिन-आईडी एक संगठन में एक नए प्रारूप में बदल जाते हैं, तो प्रारूप परिवर्तन के आधार पर, पाठ प्रतिस्थापन करना पड़ सकता है।
निम्नलिखित टेक्स्ट फ़ंक्शंस पाठ वाले डेटा पर पाठ संचालन करने में आपकी सहायता करते हैं -
क्र.सं. | समारोह विवरण |
---|---|
1। | REPLACE पाठ के भीतर वर्ण बदलता है |
2। | SUBSTITUTE एक पाठ स्ट्रिंग में पुराने पाठ के लिए नए पाठ की सदस्यता लें |
3। | CONCATENATE एक पाठ आइटम में कई पाठ आइटम सम्मिलित करता है |
4। | CONCAT पाठ को कई श्रेणियों और / या स्ट्रिंग्स से जोड़ता है, लेकिन यह सीमांकक या IgnoreEmpty तर्क प्रदान नहीं करता है। |
5। | TEXTJOIN पाठ को कई श्रेणियों और / या स्ट्रिंग्स से जोड़ता है, और आपके द्वारा निर्दिष्ट प्रत्येक पाठ मान के बीच एक सीमांकक भी शामिल होता है। यदि सीमांकक एक खाली पाठ स्ट्रिंग है, तो यह फ़ंक्शन प्रभावी रूप से पर्वतमाला को समतल कर देगा। |
6। | REPT पाठ को कई बार दिया जाता है |