पायथन पंडों - रिंडेक्सिंग
Reindexingएक DataFrame की पंक्ति लेबल और स्तंभ लेबल को बदलता है। करने के लिए पुन: अनुक्रमणिका एक विशेष अक्ष के साथ लेबल की एक दिए गए सेट से मेल करने के डेटा अनुरूप साधन।
अनुक्रमण के माध्यम से कई कार्य पूरे किए जा सकते हैं जैसे -
लेबल के एक नए सेट से मिलान करने के लिए मौजूदा डेटा को फिर से व्यवस्थित करें।
उन लेबल स्थानों में अनुपलब्ध मान (NA) मार्कर डालें जहाँ लेबल का कोई डेटा मौजूद नहीं था।
उदाहरण
import pandas as pd
import numpy as np
N=20
df = pd.DataFrame({
'A': pd.date_range(start='2016-01-01',periods=N,freq='D'),
'x': np.linspace(0,stop=N-1,num=N),
'y': np.random.rand(N),
'C': np.random.choice(['Low','Medium','High'],N).tolist(),
'D': np.random.normal(100, 10, size=(N)).tolist()
})
#reindex the DataFrame
df_reindexed = df.reindex(index=[0,2,5], columns=['A', 'C', 'B'])
print df_reindexed
आईटी इस output इस प्रकार है -
A C B
0 2016-01-01 Low NaN
2 2016-01-03 High NaN
5 2016-01-06 Low NaN
अन्य वस्तुओं के साथ संरेखित करने के लिए Reindex
आप एक वस्तु लेना चाहते हैं और अपनी कुल्हाड़ियों को फिर से एक अन्य वस्तु के समान लेबल करने की इच्छा कर सकते हैं। इसे समझने के लिए निम्नलिखित उदाहरण पर विचार करें।
उदाहरण
import pandas as pd
import numpy as np
df1 = pd.DataFrame(np.random.randn(10,3),columns=['col1','col2','col3'])
df2 = pd.DataFrame(np.random.randn(7,3),columns=['col1','col2','col3'])
df1 = df1.reindex_like(df2)
print df1
आईटी इस output इस प्रकार है -
col1 col2 col3
0 -2.467652 -1.211687 -0.391761
1 -0.287396 0.522350 0.562512
2 -0.255409 -0.483250 1.866258
3 -1.150467 -0.646493 -0.222462
4 0.152768 -2.056643 1.877233
5 -1.155997 1.528719 -1.343719
6 -1.015606 -1.245936 -0.295275
Note - यहाँ, df1 DataFrame को बदल दिया जाता है और इसे फिर से खोजा जाता है df2। कॉलम के नामों का मिलान किया जाना चाहिए या फिर पूरे कॉलम लेबल के लिए NAN जोड़ा जाएगा।
ReIndexing करते समय भरना
reindex() एक वैकल्पिक पैरामीटर विधि लेता है जो मानों के साथ एक भरने की विधि इस प्रकार है -
pad/ffill - मूल्यों को आगे भरें
bfill/backfill - मूल्यों को पिछड़ा भरें
nearest - निकटतम सूचकांक मूल्यों से भरें
उदाहरण
import pandas as pd
import numpy as np
df1 = pd.DataFrame(np.random.randn(6,3),columns=['col1','col2','col3'])
df2 = pd.DataFrame(np.random.randn(2,3),columns=['col1','col2','col3'])
# Padding NAN's
print df2.reindex_like(df1)
# Now Fill the NAN's with preceding Values
print ("Data Frame with Forward Fill:")
print df2.reindex_like(df1,method='ffill')
आईटी इस output इस प्रकार है -
col1 col2 col3
0 1.311620 -0.707176 0.599863
1 -0.423455 -0.700265 1.133371
2 NaN NaN NaN
3 NaN NaN NaN
4 NaN NaN NaN
5 NaN NaN NaN
Data Frame with Forward Fill:
col1 col2 col3
0 1.311620 -0.707176 0.599863
1 -0.423455 -0.700265 1.133371
2 -0.423455 -0.700265 1.133371
3 -0.423455 -0.700265 1.133371
4 -0.423455 -0.700265 1.133371
5 -0.423455 -0.700265 1.133371
Note - अंतिम चार पंक्तियाँ गद्देदार हैं।
रेनडेक्सिंग करते समय भरने पर सीमा
सीमा तर्क रींडेक्सिंग करते समय भरने पर अतिरिक्त नियंत्रण प्रदान करता है। सीमा लगातार मैचों की अधिकतम संख्या को निर्दिष्ट करती है। आइए इसे समझने के लिए निम्नलिखित उदाहरण पर विचार करें -
उदाहरण
import pandas as pd
import numpy as np
df1 = pd.DataFrame(np.random.randn(6,3),columns=['col1','col2','col3'])
df2 = pd.DataFrame(np.random.randn(2,3),columns=['col1','col2','col3'])
# Padding NAN's
print df2.reindex_like(df1)
# Now Fill the NAN's with preceding Values
print ("Data Frame with Forward Fill limiting to 1:")
print df2.reindex_like(df1,method='ffill',limit=1)
आईटी इस output इस प्रकार है -
col1 col2 col3
0 0.247784 2.128727 0.702576
1 -0.055713 -0.021732 -0.174577
2 NaN NaN NaN
3 NaN NaN NaN
4 NaN NaN NaN
5 NaN NaN NaN
Data Frame with Forward Fill limiting to 1:
col1 col2 col3
0 0.247784 2.128727 0.702576
1 -0.055713 -0.021732 -0.174577
2 -0.055713 -0.021732 -0.174577
3 NaN NaN NaN
4 NaN NaN NaN
5 NaN NaN NaN
Note- निरीक्षण करें, पूर्ववर्ती 6 वीं पंक्ति द्वारा केवल 7 वीं पंक्ति भरी जाती है। फिर, पंक्तियों को वैसे ही छोड़ दिया जाता है जैसे वे हैं।
नाम
नाम बदलने () विधि आपको कुछ मानचित्रण (एक तानाशाही या श्रृंखला) या एक मनमाना फ़ंक्शन के आधार पर एक अक्ष को रिले करने की अनुमति देती है।
आइए इसे समझने के लिए निम्नलिखित उदाहरण पर विचार करें -
import pandas as pd
import numpy as np
df1 = pd.DataFrame(np.random.randn(6,3),columns=['col1','col2','col3'])
print df1
print ("After renaming the rows and columns:")
print df1.rename(columns={'col1' : 'c1', 'col2' : 'c2'},
index = {0 : 'apple', 1 : 'banana', 2 : 'durian'})
आईटी इस output इस प्रकार है -
col1 col2 col3
0 0.486791 0.105759 1.540122
1 -0.990237 1.007885 -0.217896
2 -0.483855 -1.645027 -1.194113
3 -0.122316 0.566277 -0.366028
4 -0.231524 -0.721172 -0.112007
5 0.438810 0.000225 0.435479
After renaming the rows and columns:
c1 c2 col3
apple 0.486791 0.105759 1.540122
banana -0.990237 1.007885 -0.217896
durian -0.483855 -1.645027 -1.194113
3 -0.122316 0.566277 -0.366028
4 -0.231524 -0.721172 -0.112007
5 0.438810 0.000225 0.435479
नाम () विधि a प्रदान करती है inplaceनामांकित पैरामीटर, जो डिफ़ॉल्ट रूप से गलत है और अंतर्निहित डेटा की प्रतिलिपि बनाता है। उत्तीर्ण करनाinplace=True जगह में डेटा का नाम बदलने के लिए।