पायथन पंडों - पाठ डेटा के साथ काम करना
इस अध्याय में, हम अपने मूल श्रृंखला / सूचकांक के साथ स्ट्रिंग संचालन पर चर्चा करेंगे। बाद के अध्यायों में, हम सीखेंगे कि डेटा स्ट्रिंग पर इन स्ट्रिंग फ़ंक्शंस को कैसे लागू किया जाए।
पंडों स्ट्रिंग कार्यों का एक सेट प्रदान करता है जो स्ट्रिंग डेटा पर काम करना आसान बनाता है। सबसे महत्वपूर्ण बात, ये फ़ंक्शन गुम / NaN मानों को अनदेखा (या बहिष्कृत) करते हैं।
लगभग, ये सभी विधियाँ पायथन स्ट्रिंग फ़ंक्शंस के साथ काम करती हैं (देखें: https://docs.python.org/3/library/stdtypes.html#string-methods)। इसलिए, श्रृंखला ऑब्जेक्ट को स्ट्रिंग ऑब्जेक्ट में कनवर्ट करें और फिर ऑपरेशन करें।
आइए अब देखते हैं कि प्रत्येक ऑपरेशन कैसे करता है।
अनु क्रमांक | समारोह विवरण |
---|---|
1 |
lower() निचले मामले में श्रृंखला / सूचकांक में तारों को परिवर्तित करता है। |
2 |
upper() ऊपरी मामले में श्रृंखला / सूचकांक में तारों को परिवर्तित करता है। |
3 |
len() गणना स्ट्रिंग की लंबाई ()। |
4 |
strip() दोनों पक्षों से श्रृंखला / सूचकांक में प्रत्येक स्ट्रिंग से स्ट्रिप व्हाट्सएप (न्यूलाइन सहित) मदद करता है। |
5 |
split(' ') दिए गए पैटर्न के साथ प्रत्येक स्ट्रिंग को विभाजित करता है। |
6 |
cat(sep=' ') दिए गए विभाजक के साथ श्रृंखला / सूचकांक तत्वों को सम्मिलित करता है। |
7 |
get_dummies() एक-हॉट एन्कोडेड मान के साथ डेटाफ़्रेम लौटाता है। |
8 |
contains(pattern) प्रत्येक तत्व के लिए एक बूलियन मान लौटाता है यदि सबस्ट्रिंग में तत्व शामिल है, अन्यथा गलत। |
9 |
replace(a,b) मान बदल देता है a मान के साथ b। |
10 |
repeat(value) प्रत्येक तत्व को निर्दिष्ट संख्या के साथ दोहराता है। |
1 1 |
count(pattern) प्रत्येक तत्व में पैटर्न की उपस्थिति की गणना करता है। |
12 |
startswith(pattern) श्रृंखला / सूचकांक में तत्व पैटर्न के साथ शुरू होता है, तो सही है। |
13 |
endswith(pattern) यदि श्रृंखला / सूचकांक में तत्व पैटर्न के साथ समाप्त होता है, तो सही है। |
14 |
find(pattern) पैटर्न की पहली घटना की पहली स्थिति लौटाता है। |
15 |
findall(pattern) पैटर्न की सभी घटना की सूची देता है। |
16 |
swapcase मामले को कम / ऊपरी स्वैप करता है। |
17 |
islower() जाँचता है कि प्रत्येक स्ट्रिंग में सभी वर्ण श्रृंखला / सूचकांक में निचले मामले में हैं या नहीं। बूलियन लौटाता है |
18 |
isupper() जाँचता है कि प्रत्येक स्ट्रिंग में सभी वर्ण श्रृंखला / सूचकांक में ऊपरी मामले में हैं या नहीं। बूलियन लौटाता है। |
19 |
isnumeric() जाँचता है कि श्रृंखला / सूचकांक में प्रत्येक स्ट्रिंग के सभी वर्ण संख्यात्मक हैं या नहीं। बूलियन लौटाता है। |
चलिए अब एक Series बनाते हैं और देखते हैं कि उपरोक्त सभी फ़ंक्शन कैसे काम करते हैं।
import pandas as pd
import numpy as np
s = pd.Series(['Tom', 'William Rick', 'John', 'Alber@t', np.nan, '1234','SteveSmith'])
print s
आईटी इस output इस प्रकार है -
0 Tom
1 William Rick
2 John
3 Alber@t
4 NaN
5 1234
6 Steve Smith
dtype: object
कम ()
import pandas as pd
import numpy as np
s = pd.Series(['Tom', 'William Rick', 'John', 'Alber@t', np.nan, '1234','SteveSmith'])
print s.str.lower()
आईटी इस output इस प्रकार है -
0 tom
1 william rick
2 john
3 alber@t
4 NaN
5 1234
6 steve smith
dtype: object
ऊपरी ()
import pandas as pd
import numpy as np
s = pd.Series(['Tom', 'William Rick', 'John', 'Alber@t', np.nan, '1234','SteveSmith'])
print s.str.upper()
आईटी इस output इस प्रकार है -
0 TOM
1 WILLIAM RICK
2 JOHN
3 ALBER@T
4 NaN
5 1234
6 STEVE SMITH
dtype: object
लेन ()
import pandas as pd
import numpy as np
s = pd.Series(['Tom', 'William Rick', 'John', 'Alber@t', np.nan, '1234','SteveSmith'])
print s.str.len()
आईटी इस output इस प्रकार है -
0 3.0
1 12.0
2 4.0
3 7.0
4 NaN
5 4.0
6 10.0
dtype: float64
पट्टी ()
import pandas as pd
import numpy as np
s = pd.Series(['Tom ', ' William Rick', 'John', 'Alber@t'])
print s
print ("After Stripping:")
print s.str.strip()
आईटी इस output इस प्रकार है -
0 Tom
1 William Rick
2 John
3 Alber@t
dtype: object
After Stripping:
0 Tom
1 William Rick
2 John
3 Alber@t
dtype: object
विभाजन (पैटर्न)
import pandas as pd
import numpy as np
s = pd.Series(['Tom ', ' William Rick', 'John', 'Alber@t'])
print s
print ("Split Pattern:")
print s.str.split(' ')
आईटी इस output इस प्रकार है -
0 Tom
1 William Rick
2 John
3 Alber@t
dtype: object
Split Pattern:
0 [Tom, , , , , , , , , , ]
1 [, , , , , William, Rick]
2 [John]
3 [Alber@t]
dtype: object
बिल्ली (सितम्बर = पैटर्न)
import pandas as pd
import numpy as np
s = pd.Series(['Tom ', ' William Rick', 'John', 'Alber@t'])
print s.str.cat(sep='_')
आईटी इस output इस प्रकार है -
Tom _ William Rick_John_Alber@t
get_dummies ()
import pandas as pd
import numpy as np
s = pd.Series(['Tom ', ' William Rick', 'John', 'Alber@t'])
print s.str.get_dummies()
आईटी इस output इस प्रकार है -
William Rick Alber@t John Tom
0 0 0 0 1
1 1 0 0 0
2 0 0 1 0
3 0 1 0 0
शामिल हैं ()
import pandas as pd
s = pd.Series(['Tom ', ' William Rick', 'John', 'Alber@t'])
print s.str.contains(' ')
आईटी इस output इस प्रकार है -
0 True
1 True
2 False
3 False
dtype: bool
की जगह (ए, बी)
import pandas as pd
s = pd.Series(['Tom ', ' William Rick', 'John', 'Alber@t'])
print s
print ("After replacing @ with $:")
print s.str.replace('@','$')
आईटी इस output इस प्रकार है -
0 Tom
1 William Rick
2 John
3 Alber@t
dtype: object
After replacing @ with $:
0 Tom
1 William Rick
2 John
3 Alber$t
dtype: object
दोहराने (मान)
import pandas as pd
s = pd.Series(['Tom ', ' William Rick', 'John', 'Alber@t'])
print s.str.repeat(2)
आईटी इस output इस प्रकार है -
0 Tom Tom
1 William Rick William Rick
2 JohnJohn
3 Alber@tAlber@t
dtype: object
गिनती (पैटर्न)
import pandas as pd
s = pd.Series(['Tom ', ' William Rick', 'John', 'Alber@t'])
print ("The number of 'm's in each string:")
print s.str.count('m')
आईटी इस output इस प्रकार है -
The number of 'm's in each string:
0 1
1 1
2 0
3 0
startswith (पैटर्न)
import pandas as pd
s = pd.Series(['Tom ', ' William Rick', 'John', 'Alber@t'])
print ("Strings that start with 'T':")
print s.str. startswith ('T')
आईटी इस output इस प्रकार है -
0 True
1 False
2 False
3 False
dtype: bool
endswith (पैटर्न)
import pandas as pd
s = pd.Series(['Tom ', ' William Rick', 'John', 'Alber@t'])
print ("Strings that end with 't':")
print s.str.endswith('t')
आईटी इस output इस प्रकार है -
Strings that end with 't':
0 False
1 False
2 False
3 True
dtype: bool
लगता है (पैटर्न)
import pandas as pd
s = pd.Series(['Tom ', ' William Rick', 'John', 'Alber@t'])
print s.str.find('e')
आईटी इस output इस प्रकार है -
0 -1
1 -1
2 -1
3 3
dtype: int64
"-1" इंगित करता है कि तत्व में ऐसा कोई पैटर्न उपलब्ध नहीं है।
findall (पैटर्न)
import pandas as pd
s = pd.Series(['Tom ', ' William Rick', 'John', 'Alber@t'])
print s.str.findall('e')
आईटी इस output इस प्रकार है -
0 []
1 []
2 []
3 [e]
dtype: object
नल सूची ([]) इंगित करती है कि तत्व में ऐसा कोई पैटर्न उपलब्ध नहीं है।
swapcase ()
import pandas as pd
s = pd.Series(['Tom', 'William Rick', 'John', 'Alber@t'])
print s.str.swapcase()
आईटी इस output इस प्रकार है -
0 tOM
1 wILLIAM rICK
2 jOHN
3 aLBER@T
dtype: object
कम है()
import pandas as pd
s = pd.Series(['Tom', 'William Rick', 'John', 'Alber@t'])
print s.str.islower()
आईटी इस output इस प्रकार है -
0 False
1 False
2 False
3 False
dtype: bool
isupper ()
import pandas as pd
s = pd.Series(['Tom', 'William Rick', 'John', 'Alber@t'])
print s.str.isupper()
आईटी इस output इस प्रकार है -
0 False
1 False
2 False
3 False
dtype: bool
isnumeric ()
import pandas as pd
s = pd.Series(['Tom', 'William Rick', 'John', 'Alber@t'])
print s.str.isnumeric()
आईटी इस output इस प्रकार है -
0 False
1 False
2 False
3 False
dtype: bool