पायथन पंडों - विरल डेटा
जब कोई डेटा किसी विशिष्ट मूल्य (NaN / अनुपलब्ध मूल्य, हालांकि किसी भी मूल्य को चुना जा सकता है) को छोड़ दिया जाता है, तो विरल वस्तुएं "संकुचित" होती हैं। एक विशेष स्पार्सइंडेक्स ऑब्जेक्ट ट्रैक करता है जहां डेटा "स्पार्सिफ़ाइड" किया गया है। यह एक उदाहरण में बहुत अधिक समझ में आएगा। सभी मानक पंडों की डेटा संरचनाएं लागू होती हैंto_sparse विधि -
import pandas as pd
import numpy as np
ts = pd.Series(np.random.randn(10))
ts[2:-2] = np.nan
sts = ts.to_sparse()
print sts
आईटी इस output इस प्रकार है -
0 -0.810497
1 -1.419954
2 NaN
3 NaN
4 NaN
5 NaN
6 NaN
7 NaN
8 0.439240
9 -1.095910
dtype: float64
BlockIndex
Block locations: array([0, 8], dtype=int32)
Block lengths: array([2, 2], dtype=int32)
स्मृति दक्षता कारणों से विरल वस्तुएँ मौजूद हैं।
चलिए अब मान लेते हैं कि आपके पास एक बड़ा NA DataFrame था और निम्नलिखित कोड निष्पादित करें -
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(10000, 4))
df.ix[:9998] = np.nan
sdf = df.to_sparse()
print sdf.density
आईटी इस output इस प्रकार है -
0.0001
किसी भी विरल वस्तु को मानक घने रूप में वापस बुलाकर परिवर्तित किया जा सकता है to_dense -
import pandas as pd
import numpy as np
ts = pd.Series(np.random.randn(10))
ts[2:-2] = np.nan
sts = ts.to_sparse()
print sts.to_dense()
आईटी इस output इस प्रकार है -
0 -0.810497
1 -1.419954
2 NaN
3 NaN
4 NaN
5 NaN
6 NaN
7 NaN
8 0.439240
9 -1.095910
dtype: float64
विरल Dtypes
विरल डेटा का घने प्रतिनिधित्व के समान ही होना चाहिए। वर्तमान में,float64, int64 तथा booldtypesसमर्थित हैं। मूल पर निर्भर करता हैdtype, fill_value default परिवर्तन -
float64 - एन.पी.नान
int64 - 0
bool - झूठा
हमें समझने के लिए निम्नलिखित कोड निष्पादित करें -
import pandas as pd
import numpy as np
s = pd.Series([1, np.nan, np.nan])
print s
s.to_sparse()
print s
आईटी इस output इस प्रकार है -
0 1.0
1 NaN
2 NaN
dtype: float64
0 1.0
1 NaN
2 NaN
dtype: float64