पायथन पंडों - विरल डेटा

जब कोई डेटा किसी विशिष्ट मूल्य (NaN / अनुपलब्ध मूल्य, हालांकि किसी भी मूल्य को चुना जा सकता है) को छोड़ दिया जाता है, तो विरल वस्तुएं "संकुचित" होती हैं। एक विशेष स्पार्सइंडेक्स ऑब्जेक्ट ट्रैक करता है जहां डेटा "स्पार्सिफ़ाइड" किया गया है। यह एक उदाहरण में बहुत अधिक समझ में आएगा। सभी मानक पंडों की डेटा संरचनाएं लागू होती हैंto_sparse विधि -

import pandas as pd
import numpy as np

ts = pd.Series(np.random.randn(10))
ts[2:-2] = np.nan
sts = ts.to_sparse()
print sts

आईटी इस output इस प्रकार है -

0   -0.810497
1   -1.419954
2         NaN
3         NaN
4         NaN
5         NaN
6         NaN
7         NaN
8    0.439240
9   -1.095910
dtype: float64
BlockIndex
Block locations: array([0, 8], dtype=int32)
Block lengths: array([2, 2], dtype=int32)

स्मृति दक्षता कारणों से विरल वस्तुएँ मौजूद हैं।

चलिए अब मान लेते हैं कि आपके पास एक बड़ा NA DataFrame था और निम्नलिखित कोड निष्पादित करें -

import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randn(10000, 4))
df.ix[:9998] = np.nan
sdf = df.to_sparse()

print sdf.density

आईटी इस output इस प्रकार है -

0.0001

किसी भी विरल वस्तु को मानक घने रूप में वापस बुलाकर परिवर्तित किया जा सकता है to_dense -

import pandas as pd
import numpy as np
ts = pd.Series(np.random.randn(10))
ts[2:-2] = np.nan
sts = ts.to_sparse()
print sts.to_dense()

आईटी इस output इस प्रकार है -

0   -0.810497
1   -1.419954
2         NaN
3         NaN
4         NaN
5         NaN
6         NaN
7         NaN
8    0.439240
9   -1.095910
dtype: float64

विरल Dtypes

विरल डेटा का घने प्रतिनिधित्व के समान ही होना चाहिए। वर्तमान में,float64, int64 तथा booldtypesसमर्थित हैं। मूल पर निर्भर करता हैdtype, fill_value default परिवर्तन -

  • float64 - एन.पी.नान

  • int64 - 0

  • bool - झूठा

हमें समझने के लिए निम्नलिखित कोड निष्पादित करें -

import pandas as pd
import numpy as np

s = pd.Series([1, np.nan, np.nan])
print s

s.to_sparse()
print s

आईटी इस output इस प्रकार है -

0   1.0
1   NaN
2   NaN
dtype: float64

0   1.0
1   NaN
2   NaN
dtype: float64