टेक्स्ट फ़ंक्शंस के साथ डेटा की सफाई

डेटा जो आपको विभिन्न स्रोतों से प्राप्त होता है, कई विश्लेषण के लिए तैयार फॉर्म में नहीं होता है। इस अध्याय में, आप समझेंगे कि विश्लेषण के लिए पाठ के रूप में आपके डेटा को कैसे तैयार किया जाए।

प्रारंभ में, आपको डेटा को साफ़ करने की आवश्यकता है। डेटा सफाई में पाठ से अवांछित वर्णों को निकालना शामिल है। इसके बाद, आपको उस डेटा की संरचना करने की आवश्यकता है जिस रूप में आपको आगे के विश्लेषण की आवश्यकता है। आप ऐसा ही कर सकते हैं -

  • पाठ कार्यों के साथ आवश्यक पाठ पैटर्न ढूँढना।
  • पाठ से डेटा मान निकालना।
  • पाठ कार्यों के साथ डेटा स्वरूपण।
  • पाठ कार्यों के साथ डेटा संचालन निष्पादित करना।

पाठ से अवांछित वर्ण हटाना

जब आप किसी अन्य एप्लिकेशन से डेटा आयात करते हैं, तो इसमें गैर-वर्ण वाले वर्ण और / या अतिरिक्त स्थान हो सकते हैं। अतिरिक्त स्थान हो सकते हैं -

  • प्रमुख स्थान, और / या
  • शब्दों के बीच अतिरिक्त रिक्त स्थान।

यदि आप ऐसे डेटा को सॉर्ट या विश्लेषण करते हैं, तो आपको गलत परिणाम मिलेंगे।

निम्नलिखित उदाहरण पर विचार करें -

यह कच्चा डेटा है जो आपने उत्पाद की जानकारी पर प्राप्त किया है जिसमें उत्पाद आईडी, उत्पाद विवरण और मूल्य शामिल हैं। चरित्र "|" प्रत्येक पंक्ति में फ़ील्ड को अलग करता है।

जब आप इस डेटा को एक्सेल वर्कशीट में आयात करते हैं, तो यह निम्नानुसार दिखता है -

जैसा कि आप देखते हैं, पूरा डेटा एक ही कॉलम में है। डेटा विश्लेषण करने के लिए आपको इस डेटा की संरचना करने की आवश्यकता है। हालाँकि, शुरू में आपको डेटा साफ़ करने की आवश्यकता है।

आपको किसी भी गैर-वर्ण वाले वर्ण और अतिरिक्त स्थान को निकालने की आवश्यकता है जो डेटा में मौजूद हो सकते हैं। आप इस उद्देश्य के लिए CLEAN फ़ंक्शन और TRIM फ़ंक्शन का उपयोग कर सकते हैं।

क्र.सं. समारोह विवरण
1।

CLEAN

पाठ से सभी गैर-वर्णों को हटा देता है

2।

TRIM

पाठ से रिक्त स्थान निकालता है

  • कक्ष C3 - C11 का चयन करें।
  • टाइप करें = TRIM (CLEAN (B3)) और फिर CTRL + Enter दबाएँ।

सूत्र C3 - C11 कोशिकाओं में भरा जाता है।

परिणाम निम्नानुसार होगा -

टेक्स्ट फंक्शंस के साथ आवश्यक टेक्स्ट पैटर्न खोजना

अपने डेटा की संरचना करने के लिए, आपको कुछ निश्चित पाठ पैटर्न मिलान करने पड़ सकते हैं जिसके आधार पर आप डेटा मान निकाल सकते हैं। इस उद्देश्य के लिए उपयोगी कुछ पाठ कार्य हैं -

क्र.सं. समारोह विवरण
1।

EXACT

यह देखने के लिए जाँच करता है कि क्या दो पाठ मान समान हैं

2।

FIND

एक पाठ मान को दूसरे के भीतर (केस-संवेदी) पाता है

3।

SEARCH

एक पाठ मान को दूसरे के भीतर पाता है (केस-संवेदी नहीं)

पाठ से डेटा मान निकालना

आपको संरचना बनाने के लिए पाठ से आवश्यक डेटा निकालने की आवश्यकता है। उपरोक्त उदाहरण में, कहते हैं, आपको डेटा को तीन कॉलमों में रखने की आवश्यकता है - ProductID, Product_Description और Price।

आप निम्न तरीकों में से एक में डेटा निकाल सकते हैं -

  • स्तंभ विज़ार्ड में कनवर्ट पाठ के साथ डेटा मान निकाल रहा है
  • टेक्स्ट फंक्शंस के साथ डेटा वैल्यू निकालना
  • फ्लैश भरने के साथ डेटा मान निकालना

स्तंभ विज़ार्ड में कनवर्ट पाठ के साथ डेटा मान निकाल रहा है

आप उपयोग कर सकते हैं Convert Text to Columns Wizard यदि आपके फ़ील्ड हैं तो Excel कॉलम में डेटा मान निकालने के लिए -

  • एक चरित्र द्वारा सीमांकित, या
  • प्रत्येक क्षेत्र के बीच रिक्त स्थान के साथ कॉलम में संरेखित।

उपरोक्त उदाहरण में, फ़ील्ड को "" | इसलिए, आप उपयोग कर सकते हैंConvert Text to Columns जादूगर।

  • डेटा का चयन करें।

  • एक ही स्थान पर मूल्यों को कॉपी और पेस्ट करें। अन्यथा,Convert Text to Columns डेटा के बजाय कार्यों को इनपुट के रूप में लेता है।

  • डेटा का चयन करें।

  • पर क्लिक करें Text to Columns में Data Tools के तहत समूह Data रिबन पर टैब करें।

Step 1 - टेक्स्ट को कॉलम विजार्ड में बदलें - चरण 1 का 3 प्रकट होता है।

  • डिलीट का चयन करें।
  • अगला पर क्लिक करें।

Step 2 - टेक्स्ट को कॉलम विजार्ड में बदलें - स्टेप 2 ऑफ 3 प्रकट होता है।

  • के अंतर्गत Delimiters, चुनते हैं Other

  • के बगल वाले बॉक्स में Other, चरित्र टाइप करें |

  • क्लिक Next

Step 3 - पाठ को कॉलम विजार्ड में बदलें - चरण 3 का 3 प्रकट होता है।

इस स्क्रीन में, आप विज़ार्ड में अपने डेटा के प्रत्येक कॉलम का चयन कर सकते हैं और उस कॉलम का प्रारूप सेट कर सकते हैं।

  • के लिये Destination, सेल डी 3 का चयन करें।

  • आप क्लिक कर सकते हैं Advanced, और सेट करें Decimal Separator तथा Thousands Separator में Advanced Text Import Settings दिखाई देने वाला डायलॉग बॉक्स।

  • क्लिक Finish

आपका डेटा, जिसे कॉलम में परिवर्तित किया गया है, तीन कॉलम - D, E और F में प्रकट होता है।

  • कॉलम हेडर का नाम ProductID, Product_Description और Price के रूप में रखें।

टेक्स्ट फंक्शंस के साथ डेटा वैल्यू निकालना

मान लीजिए कि आपके डेटा के फ़ील्ड्स को न तो किसी वर्ण द्वारा सीमांकित किया गया है और न ही प्रत्येक फ़ील्ड के बीच रिक्त स्थान के साथ कॉलम में संरेखित किया गया है, आप डेटा मान निकालने के लिए पाठ फ़ंक्शन का उपयोग कर सकते हैं। यहां तक ​​कि अगर फ़ील्ड को सीमांकित किया जाता है, तो भी आप डेटा निकालने के लिए टेक्स्ट फ़ंक्शन का उपयोग कर सकते हैं।

इस उद्देश्य के लिए उपयोगी कुछ पाठ कार्य हैं -

क्र.सं. समारोह विवरण
1।

LEFT

एक पाठ मान से बाईं ओर के वर्ण लौटाता है

2।

RIGHT

पाठ मान से सबसे सही वर्ण लौटाता है

3।

MID

आपके द्वारा निर्दिष्ट स्थिति पर शुरू होने वाले एक पाठ स्ट्रिंग से वर्णों की एक विशिष्ट संख्या देता है

4।

LEN

एक पाठ स्ट्रिंग में वर्णों की संख्या देता है

आप आवश्यक डेटा मानों को निकालने के लिए इनमें से दो या अधिक टेक्स्ट फ़ंक्शंस को अपने हाथ में मौजूद डेटा के अनुसार जोड़ सकते हैं। उदाहरण के लिए, LEFT, RIGHT और VALUE फ़ंक्शंस के संयोजन का उपयोग करना या FIND, LEFT, LEN और MID फ़ंक्शंस के संयोजन का उपयोग करना।

उपरोक्त उदाहरण में,

  • सभी वर्ण पहले छोड़ दिया | नाम ProductID दें।

  • दूसरे वर्ण के सभी वर्ण | नाम दे कीमत।

  • सभी वर्ण जो पहले के बीच स्थित हैं | और दूसरा | नाम Product_Description दें।

  • प्रत्येक | पहले और बाद में एक स्थान है।

इस जानकारी को देखते हुए, आप निम्न चरणों के साथ डेटा मान निकाल सकते हैं -

  • पहले की स्थिति का पता लगाएं | -First | Position

    • आप FIND फ़ंक्शन का उपयोग कर सकते हैं

  • दूसरी की स्थिति ज्ञात कीजिये | -Second | Position

    • आप फिर से समारोह का उपयोग कर सकते हैं

  • शुरुआतFirst | Position - 2) टेक्स्ट के अक्षर ProductID देते हैं

    • आप LEFT फ़ंक्शन का उपयोग कर सकते हैं

  • (First | Position + 2) से (Second | Position - 2) टेक्स्ट के अक्षर Product_Description देते हैं

    • आप MID फ़ंक्शन का उपयोग कर सकते हैं

  • (Second | Position + 2) पाठ के अंत अक्षर मूल्य देते हैं

    • आप RIGHT फंक्शन का उपयोग कर सकते हैं

परिणाम निम्नानुसार होगा -

आप देख सकते हैं कि मूल्य स्तंभ में मान पाठ मान हैं। इन मूल्यों पर गणना करने के लिए, आपको संबंधित कोशिकाओं को प्रारूपित करना होगा। स्वरूपण पाठ को समझने के लिए आप नीचे दिए गए अनुभाग को देख सकते हैं।

फ्लैश भरने के साथ डेटा मान निकालना

एक्सेल का उपयोग करना Flash Fillपाठ से डेटा मान निकालने का एक और तरीका है। हालाँकि, यह तभी काम करता है जब एक्सेल डेटा में एक पैटर्न खोजने में सक्षम होता है।

Step 1 - ProductID, Product_Description और डेटा के आगे मूल्य के लिए तीन कॉलम बनाएं।

Step 2 - बी 3 से सी 3, डी 3 और ई 3 के लिए मूल्यों को कॉपी और पेस्ट करें।

Step 3 - सेल C3 चुनें और क्लिक करें Flash Fill में Data Tools पर समूह Dataटैब। ProductID के सभी मान भरे जाते हैं।

Step 4- Product_Description और Price के लिए ऊपर दिए गए चरणों को दोहराएं। डेटा भरा है।

पाठ कार्य के साथ डेटा स्वरूपण

एक्सेल में कई अंतर्निहित पाठ फ़ंक्शन हैं जिनका उपयोग आप पाठ वाले डेटा को प्रारूपित करने के लिए कर सकते हैं। इनमें शामिल हैं -

Functions that format the Text as per your need -

क्र.सं. समारोह विवरण
1।

LOWER

पाठ को निचले हिस्से में परिवर्तित करता है

क्र.सं. समारोह विवरण
1।

UPPER

पाठ को अपरकेस में परिवर्तित करता है

2।

PROPER

पाठ मूल्य के प्रत्येक शब्द में पहले अक्षर को कैपिटलाइज़ करता है

Functions that convert and/or format the Numbers as Text -

क्र.सं. समारोह विवरण
1।

DOLLAR

$ (डॉलर) मुद्रा प्रारूप का उपयोग करके, पाठ को एक संख्या प्रदान करता है

2।

FIXED

दशमलव के एक निश्चित संख्या के साथ पाठ के रूप में एक संख्या को प्रारूपित करता है

3।

TEXT

एक संख्या को प्रारूपित करता है और इसे पाठ में रूपांतरित करता है

Functions that convert the Text to Numbers -

क्र.सं. समारोह विवरण
1।

VALUE

एक पाठ तर्क को एक संख्या में परिवर्तित करता है

Executing Data Operations with the Text Functions

आपको अपने डेटा पर कुछ पाठ संचालन करने पड़ सकते हैं। उदाहरण के लिए, यदि कर्मचारी के लिए लॉगिन-आईडी एक संगठन में एक नए प्रारूप में बदल जाते हैं, तो प्रारूप परिवर्तन के आधार पर, पाठ प्रतिस्थापन करना पड़ सकता है।

निम्नलिखित टेक्स्ट फ़ंक्शंस पाठ वाले डेटा पर पाठ संचालन करने में आपकी सहायता करते हैं -

क्र.सं. समारोह विवरण
1।

REPLACE

पाठ के भीतर वर्ण बदलता है

2।

SUBSTITUTE

एक पाठ स्ट्रिंग में पुराने पाठ के लिए नए पाठ की सदस्यता लें

3।

CONCATENATE

एक पाठ आइटम में कई पाठ आइटम सम्मिलित करता है

4।

CONCAT

पाठ को कई श्रेणियों और / या स्ट्रिंग्स से जोड़ता है, लेकिन यह सीमांकक या IgnoreEmpty तर्क प्रदान नहीं करता है।

5।

TEXTJOIN

पाठ को कई श्रेणियों और / या स्ट्रिंग्स से जोड़ता है, और आपके द्वारा निर्दिष्ट प्रत्येक पाठ मान के बीच एक सीमांकक भी शामिल होता है। यदि सीमांकक एक खाली पाठ स्ट्रिंग है, तो यह फ़ंक्शन प्रभावी रूप से पर्वतमाला को समतल कर देगा।

6।

REPT

पाठ को कई बार दिया जाता है