पायथन - डेटा क्लींजिंग
वास्तविक जीवन के परिदृश्य में डेटा गुम होना हमेशा एक समस्या है। मशीन लर्निंग और डेटा माइनिंग जैसे क्षेत्र गायब मूल्यों के कारण डेटा की खराब गुणवत्ता के कारण अपने मॉडल की भविष्यवाणी की सटीकता में गंभीर मुद्दों का सामना करते हैं। इन क्षेत्रों में, लापता मूल्य उपचार उनके मॉडल को अधिक सटीक और वैध बनाने के लिए ध्यान केंद्रित करने का एक प्रमुख बिंदु है।
डेटा कब और क्यों छूटा?
आइए हम एक उत्पाद के लिए एक ऑनलाइन सर्वेक्षण पर विचार करें। कई बार, लोग उनसे जुड़ी सभी जानकारी साझा नहीं करते हैं। कुछ लोग अपने अनुभव को साझा करते हैं, लेकिन उत्पाद का उपयोग करने में कितने समय लगते हैं; कुछ लोग साझा करते हैं कि वे कितने समय से उत्पाद, अपने अनुभव का उपयोग कर रहे हैं लेकिन उनकी संपर्क जानकारी नहीं। इस प्रकार, किसी न किसी तरह से डेटा का एक हिस्सा हमेशा गायब रहता है, और यह वास्तविक समय में बहुत आम है।
आइए अब देखते हैं कि हम पंडों का उपयोग करके लापता मान (NA या NaN) को कैसे संभाल सकते हैं।
# import the pandas library
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(5, 3), index=['a', 'c', 'e', 'f',
'h'],columns=['one', 'two', 'three'])
df = df.reindex(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'])
print df
आईटी इस output इस प्रकार है -
one two three
a 0.077988 0.476149 0.965836
b NaN NaN NaN
c -0.390208 -0.551605 -2.301950
d NaN NaN NaN
e -2.000303 -0.788201 1.510072
f -0.930230 -0.670473 1.146615
g NaN NaN NaN
h 0.085100 0.532791 0.887415
रेनडेक्सिंग का उपयोग करते हुए, हमने लापता मानों के साथ एक डाटाफ्रेम बनाया है। आउटपुट में,NaN माध्यम Not a Number.
गुम मानों के लिए जाँच करें
लापता मानों का पता लगाना आसान बनाने के लिए (और अलग-अलग सरणी dtypes में), पांडास प्रदान करता है isnull() तथा notnull() फ़ंक्शंस, जो श्रृंखला और डेटाफ़्रेम ऑब्जेक्ट्स की विधियाँ भी हैं -
उदाहरण
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(5, 3), index=['a', 'c', 'e', 'f',
'h'],columns=['one', 'two', 'three'])
df = df.reindex(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'])
print df['one'].isnull()
आईटी इस output इस प्रकार है -
a False
b True
c False
d True
e False
f False
g True
h False
Name: one, dtype: bool
सफाई / भराई गुम डेटा
पंडों लापता मूल्यों की सफाई के लिए विभिन्न तरीके प्रदान करते हैं। फिलना फ़ंक्शन एनएएल मानों को गैर-शून्य डेटा के साथ कुछ तरीकों से भर सकता है, जिसे हमने निम्नलिखित अनुभागों में चित्रित किया है।
NaN को स्केलर मान से बदलें
निम्नलिखित कार्यक्रम दिखाता है कि आप "NaN" को "0" से कैसे बदल सकते हैं।
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(3, 3), index=['a', 'c', 'e'],columns=['one',
'two', 'three'])
df = df.reindex(['a', 'b', 'c'])
print df
print ("NaN replaced with '0':")
print df.fillna(0)
आईटी इस output इस प्रकार है -
one two three
a -0.576991 -0.741695 0.553172
b NaN NaN NaN
c 0.744328 -1.735166 1.749580
NaN replaced with '0':
one two three
a -0.576991 -0.741695 0.553172
b 0.000000 0.000000 0.000000
c 0.744328 -1.735166 1.749580
यहां, हम मूल्य शून्य से भर रहे हैं; इसके बजाय हम किसी अन्य मूल्य के साथ भी भर सकते हैं।
एनए फॉरवर्ड और बैकवर्ड भरें
ReIndexing Chapter में चर्चा की गई भरने की अवधारणाओं का उपयोग करके हम लापता मूल्यों को भर देंगे।
तरीका | कार्य |
---|---|
पैड / भरने | आगे के तरीके भरें |
bfill / बैकफ़िल | पिछड़े तरीकों को भरें |
उदाहरण
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(5, 3), index=['a', 'c', 'e', 'f',
'h'],columns=['one', 'two', 'three'])
df = df.reindex(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'])
print df.fillna(method='pad')
आईटी इस output इस प्रकार है -
one two three
a 0.077988 0.476149 0.965836
b 0.077988 0.476149 0.965836
c -0.390208 -0.551605 -2.301950
d -0.390208 -0.551605 -2.301950
e -2.000303 -0.788201 1.510072
f -0.930230 -0.670473 1.146615
g -0.930230 -0.670473 1.146615
h 0.085100 0.532791 0.887415
ड्रॉपिंग वैल्यू
यदि आप लापता मूल्यों को बस बाहर करना चाहते हैं, तो उपयोग करें dropna साथ काम करते हैं axisबहस। डिफ़ॉल्ट रूप से, अक्ष = 0, अर्थात, पंक्ति के साथ, जिसका अर्थ है कि यदि किसी पंक्ति के भीतर कोई मान NA है तो पूरी पंक्ति को बाहर रखा गया है।
उदाहरण
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(5, 3), index=['a', 'c', 'e', 'f',
'h'],columns=['one', 'two', 'three'])
df = df.reindex(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'])
print df.dropna()
आईटी इस output इस प्रकार है -
one two three
a 0.077988 0.476149 0.965836
c -0.390208 -0.551605 -2.301950
e -2.000303 -0.788201 1.510072
f -0.930230 -0.670473 1.146615
h 0.085100 0.532791 0.887415
मिसिंग (या) सामान्य मानों को बदलें
कई बार, हमें कुछ विशिष्ट मूल्य के साथ एक सामान्य मूल्य को बदलना होगा। हम इसे प्रतिस्थापित विधि लागू करके प्राप्त कर सकते हैं।
एनए को स्केलर मान के साथ प्रतिस्थापित करना समान व्यवहार है fillna() समारोह।
उदाहरण
import pandas as pd
import numpy as np
df = pd.DataFrame({'one':[10,20,30,40,50,2000],
'two':[1000,0,30,40,50,60]})
print df.replace({1000:10,2000:60})
आईटी इस output इस प्रकार है -
one two
0 10 10
1 20 0
2 30 30
3 40 40
4 50 50
5 60 60