पायथन पंडों - रिंडेक्सिंग

Reindexingएक DataFrame की पंक्ति लेबल और स्तंभ लेबल को बदलता है। करने के लिए पुन: अनुक्रमणिका एक विशेष अक्ष के साथ लेबल की एक दिए गए सेट से मेल करने के डेटा अनुरूप साधन।

अनुक्रमण के माध्यम से कई कार्य पूरे किए जा सकते हैं जैसे -

  • लेबल के एक नए सेट से मिलान करने के लिए मौजूदा डेटा को फिर से व्यवस्थित करें।

  • उन लेबल स्थानों में अनुपलब्ध मान (NA) मार्कर डालें जहाँ लेबल का कोई डेटा मौजूद नहीं था।

उदाहरण

import pandas as pd
import numpy as np

N=20

df = pd.DataFrame({
   'A': pd.date_range(start='2016-01-01',periods=N,freq='D'),
   'x': np.linspace(0,stop=N-1,num=N),
   'y': np.random.rand(N),
   'C': np.random.choice(['Low','Medium','High'],N).tolist(),
   'D': np.random.normal(100, 10, size=(N)).tolist()
})

#reindex the DataFrame
df_reindexed = df.reindex(index=[0,2,5], columns=['A', 'C', 'B'])

print df_reindexed

आईटी इस output इस प्रकार है -

A    C     B
0  2016-01-01  Low   NaN
2  2016-01-03  High  NaN
5  2016-01-06  Low   NaN

अन्य वस्तुओं के साथ संरेखित करने के लिए Reindex

आप एक वस्तु लेना चाहते हैं और अपनी कुल्हाड़ियों को फिर से एक अन्य वस्तु के समान लेबल करने की इच्छा कर सकते हैं। इसे समझने के लिए निम्नलिखित उदाहरण पर विचार करें।

उदाहरण

import pandas as pd
import numpy as np

df1 = pd.DataFrame(np.random.randn(10,3),columns=['col1','col2','col3'])
df2 = pd.DataFrame(np.random.randn(7,3),columns=['col1','col2','col3'])

df1 = df1.reindex_like(df2)
print df1

आईटी इस output इस प्रकार है -

col1         col2         col3
0    -2.467652    -1.211687    -0.391761
1    -0.287396     0.522350     0.562512
2    -0.255409    -0.483250     1.866258
3    -1.150467    -0.646493    -0.222462
4     0.152768    -2.056643     1.877233
5    -1.155997     1.528719    -1.343719
6    -1.015606    -1.245936    -0.295275

Note - यहाँ, df1 DataFrame को बदल दिया जाता है और इसे फिर से खोजा जाता है df2। कॉलम के नामों का मिलान किया जाना चाहिए या फिर पूरे कॉलम लेबल के लिए NAN जोड़ा जाएगा।

ReIndexing करते समय भरना

reindex() एक वैकल्पिक पैरामीटर विधि लेता है जो मानों के साथ एक भरने की विधि इस प्रकार है -

  • pad/ffill - मूल्यों को आगे भरें

  • bfill/backfill - मूल्यों को पिछड़ा भरें

  • nearest - निकटतम सूचकांक मूल्यों से भरें

उदाहरण

import pandas as pd
import numpy as np

df1 = pd.DataFrame(np.random.randn(6,3),columns=['col1','col2','col3'])
df2 = pd.DataFrame(np.random.randn(2,3),columns=['col1','col2','col3'])

# Padding NAN's
print df2.reindex_like(df1)

# Now Fill the NAN's with preceding Values
print ("Data Frame with Forward Fill:")
print df2.reindex_like(df1,method='ffill')

आईटी इस output इस प्रकार है -

col1        col2       col3
0    1.311620   -0.707176   0.599863
1   -0.423455   -0.700265   1.133371
2         NaN         NaN        NaN
3         NaN         NaN        NaN
4         NaN         NaN        NaN
5         NaN         NaN        NaN

Data Frame with Forward Fill:
         col1        col2        col3
0    1.311620   -0.707176    0.599863
1   -0.423455   -0.700265    1.133371
2   -0.423455   -0.700265    1.133371
3   -0.423455   -0.700265    1.133371
4   -0.423455   -0.700265    1.133371
5   -0.423455   -0.700265    1.133371

Note - अंतिम चार पंक्तियाँ गद्देदार हैं।

रेनडेक्सिंग करते समय भरने पर सीमा

सीमा तर्क रींडेक्सिंग करते समय भरने पर अतिरिक्त नियंत्रण प्रदान करता है। सीमा लगातार मैचों की अधिकतम संख्या को निर्दिष्ट करती है। आइए इसे समझने के लिए निम्नलिखित उदाहरण पर विचार करें -

उदाहरण

import pandas as pd
import numpy as np
 
df1 = pd.DataFrame(np.random.randn(6,3),columns=['col1','col2','col3'])
df2 = pd.DataFrame(np.random.randn(2,3),columns=['col1','col2','col3'])

# Padding NAN's
print df2.reindex_like(df1)

# Now Fill the NAN's with preceding Values
print ("Data Frame with Forward Fill limiting to 1:")
print df2.reindex_like(df1,method='ffill',limit=1)

आईटी इस output इस प्रकार है -

col1        col2        col3
0    0.247784    2.128727    0.702576
1   -0.055713   -0.021732   -0.174577
2         NaN         NaN         NaN
3         NaN         NaN         NaN
4         NaN         NaN         NaN
5         NaN         NaN         NaN

Data Frame with Forward Fill limiting to 1:
         col1        col2        col3
0    0.247784    2.128727    0.702576
1   -0.055713   -0.021732   -0.174577
2   -0.055713   -0.021732   -0.174577
3         NaN         NaN         NaN
4         NaN         NaN         NaN
5         NaN         NaN         NaN

Note- निरीक्षण करें, पूर्ववर्ती 6 वीं पंक्ति द्वारा केवल 7 वीं पंक्ति भरी जाती है। फिर, पंक्तियों को वैसे ही छोड़ दिया जाता है जैसे वे हैं।

नाम

नाम बदलने () विधि आपको कुछ मानचित्रण (एक तानाशाही या श्रृंखला) या एक मनमाना फ़ंक्शन के आधार पर एक अक्ष को रिले करने की अनुमति देती है।

आइए इसे समझने के लिए निम्नलिखित उदाहरण पर विचार करें -

import pandas as pd
import numpy as np

df1 = pd.DataFrame(np.random.randn(6,3),columns=['col1','col2','col3'])
print df1

print ("After renaming the rows and columns:")
print df1.rename(columns={'col1' : 'c1', 'col2' : 'c2'},
index = {0 : 'apple', 1 : 'banana', 2 : 'durian'})

आईटी इस output इस प्रकार है -

col1        col2        col3
0    0.486791    0.105759    1.540122
1   -0.990237    1.007885   -0.217896
2   -0.483855   -1.645027   -1.194113
3   -0.122316    0.566277   -0.366028
4   -0.231524   -0.721172   -0.112007
5    0.438810    0.000225    0.435479

After renaming the rows and columns:
                c1          c2        col3
apple     0.486791    0.105759    1.540122
banana   -0.990237    1.007885   -0.217896
durian   -0.483855   -1.645027   -1.194113
3        -0.122316    0.566277   -0.366028
4        -0.231524   -0.721172   -0.112007
5         0.438810    0.000225    0.435479

नाम () विधि a प्रदान करती है inplaceनामांकित पैरामीटर, जो डिफ़ॉल्ट रूप से गलत है और अंतर्निहित डेटा की प्रतिलिपि बनाता है। उत्तीर्ण करनाinplace=True जगह में डेटा का नाम बदलने के लिए।