पायथन पंडों - पाठ डेटा के साथ काम करना

इस अध्याय में, हम अपने मूल श्रृंखला / सूचकांक के साथ स्ट्रिंग संचालन पर चर्चा करेंगे। बाद के अध्यायों में, हम सीखेंगे कि डेटा स्ट्रिंग पर इन स्ट्रिंग फ़ंक्शंस को कैसे लागू किया जाए।

पंडों स्ट्रिंग कार्यों का एक सेट प्रदान करता है जो स्ट्रिंग डेटा पर काम करना आसान बनाता है। सबसे महत्वपूर्ण बात, ये फ़ंक्शन गुम / NaN मानों को अनदेखा (या बहिष्कृत) करते हैं।

लगभग, ये सभी विधियाँ पायथन स्ट्रिंग फ़ंक्शंस के साथ काम करती हैं (देखें: https://docs.python.org/3/library/stdtypes.html#string-methods)। इसलिए, श्रृंखला ऑब्जेक्ट को स्ट्रिंग ऑब्जेक्ट में कनवर्ट करें और फिर ऑपरेशन करें।

आइए अब देखते हैं कि प्रत्येक ऑपरेशन कैसे करता है।

अनु क्रमांक समारोह विवरण
1

lower()

निचले मामले में श्रृंखला / सूचकांक में तारों को परिवर्तित करता है।

2

upper()

ऊपरी मामले में श्रृंखला / सूचकांक में तारों को परिवर्तित करता है।

3

len()

गणना स्ट्रिंग की लंबाई ()।

4

strip()

दोनों पक्षों से श्रृंखला / सूचकांक में प्रत्येक स्ट्रिंग से स्ट्रिप व्हाट्सएप (न्यूलाइन सहित) मदद करता है।

5

split(' ')

दिए गए पैटर्न के साथ प्रत्येक स्ट्रिंग को विभाजित करता है।

6

cat(sep=' ')

दिए गए विभाजक के साथ श्रृंखला / सूचकांक तत्वों को सम्मिलित करता है।

7

get_dummies()

एक-हॉट एन्कोडेड मान के साथ डेटाफ़्रेम लौटाता है।

8

contains(pattern)

प्रत्येक तत्व के लिए एक बूलियन मान लौटाता है यदि सबस्ट्रिंग में तत्व शामिल है, अन्यथा गलत।

9

replace(a,b)

मान बदल देता है a मान के साथ b

10

repeat(value)

प्रत्येक तत्व को निर्दिष्ट संख्या के साथ दोहराता है।

1 1

count(pattern)

प्रत्येक तत्व में पैटर्न की उपस्थिति की गणना करता है।

12

startswith(pattern)

श्रृंखला / सूचकांक में तत्व पैटर्न के साथ शुरू होता है, तो सही है।

13

endswith(pattern)

यदि श्रृंखला / सूचकांक में तत्व पैटर्न के साथ समाप्त होता है, तो सही है।

14

find(pattern)

पैटर्न की पहली घटना की पहली स्थिति लौटाता है।

15

findall(pattern)

पैटर्न की सभी घटना की सूची देता है।

16

swapcase

मामले को कम / ऊपरी स्वैप करता है।

17

islower()

जाँचता है कि प्रत्येक स्ट्रिंग में सभी वर्ण श्रृंखला / सूचकांक में निचले मामले में हैं या नहीं। बूलियन लौटाता है

18

isupper()

जाँचता है कि प्रत्येक स्ट्रिंग में सभी वर्ण श्रृंखला / सूचकांक में ऊपरी मामले में हैं या नहीं। बूलियन लौटाता है।

19

isnumeric()

जाँचता है कि श्रृंखला / सूचकांक में प्रत्येक स्ट्रिंग के सभी वर्ण संख्यात्मक हैं या नहीं। बूलियन लौटाता है।

चलिए अब एक Series बनाते हैं और देखते हैं कि उपरोक्त सभी फ़ंक्शन कैसे काम करते हैं।

import pandas as pd
import numpy as np

s = pd.Series(['Tom', 'William Rick', 'John', 'Alber@t', np.nan, '1234','SteveSmith'])

print s

आईटी इस output इस प्रकार है -

0            Tom
1   William Rick
2           John
3        Alber@t
4            NaN
5           1234
6    Steve Smith
dtype: object

कम ()

import pandas as pd
import numpy as np

s = pd.Series(['Tom', 'William Rick', 'John', 'Alber@t', np.nan, '1234','SteveSmith'])

print s.str.lower()

आईटी इस output इस प्रकार है -

0            tom
1   william rick
2           john
3        alber@t
4            NaN
5           1234
6    steve smith
dtype: object

ऊपरी ()

import pandas as pd
import numpy as np

s = pd.Series(['Tom', 'William Rick', 'John', 'Alber@t', np.nan, '1234','SteveSmith'])

print s.str.upper()

आईटी इस output इस प्रकार है -

0            TOM
1   WILLIAM RICK
2           JOHN
3        ALBER@T
4            NaN
5           1234
6    STEVE SMITH
dtype: object

लेन ()

import pandas as pd
import numpy as np

s = pd.Series(['Tom', 'William Rick', 'John', 'Alber@t', np.nan, '1234','SteveSmith'])
print s.str.len()

आईटी इस output इस प्रकार है -

0    3.0
1   12.0
2    4.0
3    7.0
4    NaN
5    4.0
6   10.0
dtype: float64

पट्टी ()

import pandas as pd
import numpy as np
s = pd.Series(['Tom ', ' William Rick', 'John', 'Alber@t'])
print s
print ("After Stripping:")
print s.str.strip()

आईटी इस output इस प्रकार है -

0            Tom
1   William Rick
2           John
3        Alber@t
dtype: object

After Stripping:
0            Tom
1   William Rick
2           John
3        Alber@t
dtype: object

विभाजन (पैटर्न)

import pandas as pd
import numpy as np
s = pd.Series(['Tom ', ' William Rick', 'John', 'Alber@t'])
print s
print ("Split Pattern:")
print s.str.split(' ')

आईटी इस output इस प्रकार है -

0            Tom
1   William Rick
2           John
3        Alber@t
dtype: object

Split Pattern:
0   [Tom, , , , , , , , , , ]
1   [, , , , , William, Rick]
2   [John]
3   [Alber@t]
dtype: object

बिल्ली (सितम्बर = पैटर्न)

import pandas as pd
import numpy as np

s = pd.Series(['Tom ', ' William Rick', 'John', 'Alber@t'])

print s.str.cat(sep='_')

आईटी इस output इस प्रकार है -

Tom _ William Rick_John_Alber@t

get_dummies ()

import pandas as pd
import numpy as np

s = pd.Series(['Tom ', ' William Rick', 'John', 'Alber@t'])

print s.str.get_dummies()

आईटी इस output इस प्रकार है -

William Rick   Alber@t   John   Tom
0             0         0      0     1
1             1         0      0     0
2             0         0      1     0
3             0         1      0     0

शामिल हैं ()

import pandas as pd

s = pd.Series(['Tom ', ' William Rick', 'John', 'Alber@t'])

print s.str.contains(' ')

आईटी इस output इस प्रकार है -

0   True
1   True
2   False
3   False
dtype: bool

की जगह (ए, बी)

import pandas as pd
s = pd.Series(['Tom ', ' William Rick', 'John', 'Alber@t'])
print s
print ("After replacing @ with $:")
print s.str.replace('@','$')

आईटी इस output इस प्रकार है -

0   Tom
1   William Rick
2   John
3   Alber@t
dtype: object

After replacing @ with $:
0   Tom
1   William Rick
2   John
3   Alber$t
dtype: object

दोहराने (मान)

import pandas as pd

s = pd.Series(['Tom ', ' William Rick', 'John', 'Alber@t'])

print s.str.repeat(2)

आईटी इस output इस प्रकार है -

0   Tom            Tom
1   William Rick   William Rick
2                  JohnJohn
3                  Alber@tAlber@t
dtype: object

गिनती (पैटर्न)

import pandas as pd
 
s = pd.Series(['Tom ', ' William Rick', 'John', 'Alber@t'])

print ("The number of 'm's in each string:")
print s.str.count('m')

आईटी इस output इस प्रकार है -

The number of 'm's in each string:
0    1
1    1
2    0
3    0

startswith (पैटर्न)

import pandas as pd

s = pd.Series(['Tom ', ' William Rick', 'John', 'Alber@t'])

print ("Strings that start with 'T':")
print s.str. startswith ('T')

आईटी इस output इस प्रकार है -

0  True
1  False
2  False
3  False
dtype: bool

endswith (पैटर्न)

import pandas as pd
s = pd.Series(['Tom ', ' William Rick', 'John', 'Alber@t'])
print ("Strings that end with 't':")
print s.str.endswith('t')

आईटी इस output इस प्रकार है -

Strings that end with 't':
0  False
1  False
2  False
3  True
dtype: bool

लगता है (पैटर्न)

import pandas as pd

s = pd.Series(['Tom ', ' William Rick', 'John', 'Alber@t'])

print s.str.find('e')

आईटी इस output इस प्रकार है -

0  -1
1  -1
2  -1
3   3
dtype: int64

"-1" इंगित करता है कि तत्व में ऐसा कोई पैटर्न उपलब्ध नहीं है।

findall (पैटर्न)

import pandas as pd

s = pd.Series(['Tom ', ' William Rick', 'John', 'Alber@t'])

print s.str.findall('e')

आईटी इस output इस प्रकार है -

0 []
1 []
2 []
3 [e]
dtype: object

नल सूची ([]) इंगित करती है कि तत्व में ऐसा कोई पैटर्न उपलब्ध नहीं है।

swapcase ()

import pandas as pd

s = pd.Series(['Tom', 'William Rick', 'John', 'Alber@t'])
print s.str.swapcase()

आईटी इस output इस प्रकार है -

0  tOM
1  wILLIAM rICK
2  jOHN
3  aLBER@T
dtype: object

कम है()

import pandas as pd

s = pd.Series(['Tom', 'William Rick', 'John', 'Alber@t'])
print s.str.islower()

आईटी इस output इस प्रकार है -

0  False
1  False
2  False
3  False
dtype: bool

isupper ()

import pandas as pd

s = pd.Series(['Tom', 'William Rick', 'John', 'Alber@t'])

print s.str.isupper()

आईटी इस output इस प्रकार है -

0  False
1  False
2  False
3  False
dtype: bool

isnumeric ()

import pandas as pd

s = pd.Series(['Tom', 'William Rick', 'John', 'Alber@t'])

print s.str.isnumeric()

आईटी इस output इस प्रकार है -

0  False
1  False
2  False
3  False
dtype: bool