पायथन पंडों - डेटा गुम

वास्तविक जीवन के परिदृश्य में डेटा गुम होना हमेशा एक समस्या है। मशीन लर्निंग और डेटा माइनिंग जैसे क्षेत्र गायब मूल्यों के कारण डेटा की खराब गुणवत्ता के कारण अपने मॉडल की भविष्यवाणी की सटीकता में गंभीर मुद्दों का सामना करते हैं। इन क्षेत्रों में, लापता मूल्य उपचार उनके मॉडल को अधिक सटीक और वैध बनाने के लिए ध्यान केंद्रित करने का एक प्रमुख बिंदु है।

डेटा कब और क्यों छूटा?

आइए हम एक उत्पाद के लिए एक ऑनलाइन सर्वेक्षण पर विचार करें। कई बार, लोग उनसे जुड़ी सभी जानकारी साझा नहीं करते हैं। कुछ लोग अपने अनुभव को साझा करते हैं, लेकिन उत्पाद का उपयोग करने में कितने समय लगते हैं; कुछ लोग साझा करते हैं कि वे कितने समय से उत्पाद, अपने अनुभव का उपयोग कर रहे हैं लेकिन उनकी संपर्क जानकारी नहीं। इस प्रकार, किसी न किसी तरह से डेटा का एक हिस्सा हमेशा गायब रहता है, और यह वास्तविक समय में बहुत आम है।

आइए अब देखते हैं कि हम पंडों का उपयोग करके लापता मान (NA या NaN) को कैसे संभाल सकते हैं।

# import the pandas library
import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randn(5, 3), index=['a', 'c', 'e', 'f',
'h'],columns=['one', 'two', 'three'])

df = df.reindex(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'])

print df

आईटी इस output इस प्रकार है -

one        two      three
a   0.077988   0.476149   0.965836
b        NaN        NaN        NaN
c  -0.390208  -0.551605  -2.301950
d        NaN        NaN        NaN
e  -2.000303  -0.788201   1.510072
f  -0.930230  -0.670473   1.146615
g        NaN        NaN        NaN
h   0.085100   0.532791   0.887415

रेनडेक्सिंग का उपयोग करते हुए, हमने लापता मानों के साथ एक डाटाफ्रेम बनाया है। आउटपुट में,NaN माध्यम Not a Number.

गुम मानों के लिए जाँच करें

लापता मानों का पता लगाना आसान बनाने के लिए (और अलग-अलग सरणी dtypes में), पांडास प्रदान करता है isnull() तथा notnull() फ़ंक्शंस, जो श्रृंखला और डेटाफ़्रेम ऑब्जेक्ट्स की विधियाँ भी हैं -

उदाहरण 1

import pandas as pd
import numpy as np
 
df = pd.DataFrame(np.random.randn(5, 3), index=['a', 'c', 'e', 'f',
'h'],columns=['one', 'two', 'three'])

df = df.reindex(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'])

print df['one'].isnull()

आईटी इस output इस प्रकार है -

a  False
b  True
c  False
d  True
e  False
f  False
g  True
h  False
Name: one, dtype: bool

उदाहरण 2

import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randn(5, 3), index=['a', 'c', 'e', 'f',
'h'],columns=['one', 'two', 'three'])

df = df.reindex(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'])

print df['one'].notnull()

आईटी इस output इस प्रकार है -

a  True
b  False
c  True
d  False
e  True
f  True
g  False
h  True
Name: one, dtype: bool

गुम डेटा के साथ गणना

  • डेटा समेटने पर, NA को शून्य माना जाएगा
  • यदि डेटा सभी NA हैं, तो परिणाम NA होगा

उदाहरण 1

import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randn(5, 3), index=['a', 'c', 'e', 'f',
'h'],columns=['one', 'two', 'three'])

df = df.reindex(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'])

print df['one'].sum()

आईटी इस output इस प्रकार है -

2.02357685917

उदाहरण 2

import pandas as pd
import numpy as np

df = pd.DataFrame(index=[0,1,2,3,4,5],columns=['one','two'])
print df['one'].sum()

आईटी इस output इस प्रकार है -

nan

सफाई / भराई गुम डेटा

पंडों लापता मूल्यों की सफाई के लिए विभिन्न तरीके प्रदान करते हैं। फिलना फ़ंक्शन एनएएल मानों को गैर-शून्य डेटा के साथ कुछ तरीकों से भर सकता है, जिसे हमने निम्नलिखित अनुभागों में चित्रित किया है।

NaN को स्केलर मान से बदलें

निम्नलिखित कार्यक्रम दिखाता है कि आप "NaN" को "0" से कैसे बदल सकते हैं।

import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randn(3, 3), index=['a', 'c', 'e'],columns=['one',
'two', 'three'])

df = df.reindex(['a', 'b', 'c'])

print df
print ("NaN replaced with '0':")
print df.fillna(0)

आईटी इस output इस प्रकार है -

one        two     three
a  -0.576991  -0.741695  0.553172
b        NaN        NaN       NaN
c   0.744328  -1.735166  1.749580

NaN replaced with '0':
         one        two     three
a  -0.576991  -0.741695  0.553172
b   0.000000   0.000000  0.000000
c   0.744328  -1.735166  1.749580

यहां, हम मूल्य शून्य से भर रहे हैं; इसके बजाय हम किसी अन्य मूल्य के साथ भी भर सकते हैं।

एनए फॉरवर्ड और बैकवर्ड भरें

ReIndexing Chapter में चर्चा की गई भरने की अवधारणाओं का उपयोग करके हम लापता मूल्यों को भर देंगे।

अनु क्रमांक विधि और क्रिया
1

pad/fill

आगे के तरीके भरें

2

bfill/backfill

पिछड़े तरीकों को भरें

उदाहरण 1

import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randn(5, 3), index=['a', 'c', 'e', 'f',
'h'],columns=['one', 'two', 'three'])

df = df.reindex(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'])

print df.fillna(method='pad')

आईटी इस output इस प्रकार है -

one        two      three
a   0.077988   0.476149   0.965836
b   0.077988   0.476149   0.965836
c  -0.390208  -0.551605  -2.301950
d  -0.390208  -0.551605  -2.301950
e  -2.000303  -0.788201   1.510072
f  -0.930230  -0.670473   1.146615
g  -0.930230  -0.670473   1.146615
h   0.085100   0.532791   0.887415

उदाहरण 2

import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randn(5, 3), index=['a', 'c', 'e', 'f',
'h'],columns=['one', 'two', 'three'])

df = df.reindex(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'])

print df.fillna(method='backfill')

आईटी इस output इस प्रकार है -

one        two      three
a   0.077988   0.476149   0.965836
b  -0.390208  -0.551605  -2.301950
c  -0.390208  -0.551605  -2.301950
d  -2.000303  -0.788201   1.510072
e  -2.000303  -0.788201   1.510072
f  -0.930230  -0.670473   1.146615
g   0.085100   0.532791   0.887415
h   0.085100   0.532791   0.887415

ड्रॉपिंग वैल्यू

यदि आप लापता मूल्यों को बस बाहर करना चाहते हैं, तो उपयोग करें dropna साथ काम करते हैं axisबहस। डिफ़ॉल्ट रूप से, अक्ष = 0, अर्थात, पंक्ति के साथ, जिसका अर्थ है कि यदि किसी पंक्ति के भीतर कोई मान NA है तो पूरी पंक्ति को बाहर रखा गया है।

उदाहरण 1

import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randn(5, 3), index=['a', 'c', 'e', 'f',
'h'],columns=['one', 'two', 'three'])

df = df.reindex(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'])
print df.dropna()

आईटी इस output इस प्रकार है -

one        two      three
a   0.077988   0.476149   0.965836
c  -0.390208  -0.551605  -2.301950
e  -2.000303  -0.788201   1.510072
f  -0.930230  -0.670473   1.146615
h   0.085100   0.532791   0.887415

उदाहरण 2

import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randn(5, 3), index=['a', 'c', 'e', 'f',
'h'],columns=['one', 'two', 'three'])

df = df.reindex(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'])
print df.dropna(axis=1)

आईटी इस output इस प्रकार है -

Empty DataFrame
Columns: [ ]
Index: [a, b, c, d, e, f, g, h]

मिसिंग (या) सामान्य मानों को बदलें

कई बार, हमें कुछ विशिष्ट मूल्य के साथ एक सामान्य मूल्य को बदलना होगा। हम इसे प्रतिस्थापित विधि लागू करके प्राप्त कर सकते हैं।

एनए को स्केलर मान के साथ प्रतिस्थापित करना समान व्यवहार है fillna() समारोह।

उदाहरण 1

import pandas as pd
import numpy as np

df = pd.DataFrame({'one':[10,20,30,40,50,2000], 'two':[1000,0,30,40,50,60]})

print df.replace({1000:10,2000:60})

आईटी इस output इस प्रकार है -

one  two
0   10   10
1   20    0
2   30   30
3   40   40
4   50   50
5   60   60

उदाहरण 2

import pandas as pd
import numpy as np

df = pd.DataFrame({'one':[10,20,30,40,50,2000], 'two':[1000,0,30,40,50,60]})
print df.replace({1000:10,2000:60})

आईटी इस output इस प्रकार है -

one  two
0   10   10
1   20    0
2   30   30
3   40   40
4   50   50
5   60   60