अजगर पंडों - छँटाई
पंडों में दो तरह की छँटाई उपलब्ध है। वे हैं -
- लेबल द्वारा
- वास्तविक मूल्य से
आइए एक आउटपुट के साथ एक उदाहरण पर विचार करें।
import pandas as pd
import numpy as np
unsorted_df=pd.DataFrame(np.random.randn(10,2),index=[1,4,6,2,3,5,9,8,0,7],colu
mns=['col2','col1'])
print unsorted_df
आईटी इस output इस प्रकार है -
col2 col1
1 -2.063177 0.537527
4 0.142932 -0.684884
6 0.012667 -0.389340
2 -0.548797 1.848743
3 -1.044160 0.837381
5 0.385605 1.300185
9 1.031425 -1.002967
8 -0.407374 -0.435142
0 2.237453 -1.067139
7 -1.445831 -1.701035
में unsorted_df, को labels और यह valuesअनसोल्ड हैं। आइए देखें कि ये कैसे छांटे जा सकते हैं।
लेबल द्वारा
का उपयोग करते हुए sort_index()विधि, अक्ष तर्कों और क्रमबद्ध करने के क्रम में, DataFrame को हल किया जा सकता है। डिफ़ॉल्ट रूप से, आरोही क्रम में पंक्ति लेबल पर छँटाई की जाती है।
import pandas as pd
import numpy as np
unsorted_df = pd.DataFrame(np.random.randn(10,2),index=[1,4,6,2,3,5,9,8,0,7],colu
mns = ['col2','col1'])
sorted_df=unsorted_df.sort_index()
print sorted_df
आईटी इस output इस प्रकार है -
col2 col1
0 0.208464 0.627037
1 0.641004 0.331352
2 -0.038067 -0.464730
3 -0.638456 -0.021466
4 0.014646 -0.737438
5 -0.290761 -1.669827
6 -0.797303 -0.018737
7 0.525753 1.628921
8 -0.567031 0.775951
9 0.060724 -0.322425
क्रमबद्ध करने का आदेश
बूलियन मान को आरोही पैरामीटर से गुजार कर, छँटाई के क्रम को नियंत्रित किया जा सकता है। आइए इसे समझने के लिए निम्नलिखित उदाहरण पर विचार करें।
import pandas as pd
import numpy as np
unsorted_df = pd.DataFrame(np.random.randn(10,2),index=[1,4,6,2,3,5,9,8,0,7],colu
mns = ['col2','col1'])
sorted_df = unsorted_df.sort_index(ascending=False)
print sorted_df
आईटी इस output इस प्रकार है -
col2 col1
9 0.825697 0.374463
8 -1.699509 0.510373
7 -0.581378 0.622958
6 -0.202951 0.954300
5 -1.289321 -1.551250
4 1.302561 0.851385
3 -0.157915 -0.388659
2 -1.222295 0.166609
1 0.584890 -0.291048
0 0.668444 -0.061294
कॉलम को क्रमबद्ध करें
मान 0 या 1 के साथ अक्ष तर्क पास करके, स्तंभ लेबल पर छँटाई की जा सकती है। डिफ़ॉल्ट रूप से, अक्ष = 0, पंक्ति द्वारा सॉर्ट करें। आइए इसे समझने के लिए निम्नलिखित उदाहरण पर विचार करें।
import pandas as pd
import numpy as np
unsorted_df = pd.DataFrame(np.random.randn(10,2),index=[1,4,6,2,3,5,9,8,0,7],colu
mns = ['col2','col1'])
sorted_df=unsorted_df.sort_index(axis=1)
print sorted_df
आईटी इस output इस प्रकार है -
col1 col2
1 -0.291048 0.584890
4 0.851385 1.302561
6 0.954300 -0.202951
2 0.166609 -1.222295
3 -0.388659 -0.157915
5 -1.551250 -1.289321
9 0.374463 0.825697
8 0.510373 -1.699509
0 -0.061294 0.668444
7 0.622958 -0.581378
मूल्य से
सूचकांक छँटाई की तरह, sort_values()मूल्यों द्वारा छँटाई के लिए विधि है। यह एक 'बाय' तर्क को स्वीकार करता है जो DataFrame के कॉलम नाम का उपयोग करेगा जिसके साथ मानों को क्रमबद्ध किया जाना है।
import pandas as pd
import numpy as np
unsorted_df = pd.DataFrame({'col1':[2,1,1,1],'col2':[1,3,2,4]})
sorted_df = unsorted_df.sort_values(by='col1')
print sorted_df
आईटी इस output इस प्रकार है -
col1 col2
1 1 3
2 1 2
3 1 4
0 2 1
देखें, col1 मानों को क्रमबद्ध किया गया है और संबंधित col2 मान और पंक्ति अनुक्रमणिका col1 के साथ बदल जाएंगे। इस प्रकार, वे अनसोल्ड दिखते हैं।
'by' तर्क कॉलम मानों की एक सूची लेता है।
import pandas as pd
import numpy as np
unsorted_df = pd.DataFrame({'col1':[2,1,1,1],'col2':[1,3,2,4]})
sorted_df = unsorted_df.sort_values(by=['col1','col2'])
print sorted_df
आईटी इस output इस प्रकार है -
col1 col2
2 1 2
1 1 3
3 1 4
0 2 1
एल्गोरिथ्म सॉर्ट कर रहा है
sort_values()मैरिजॉर्ट, हेप्सोर्ट और क्विकसॉर्ट से एल्गोरिदम चुनने का प्रावधान है। मर्जेसॉर्ट केवल स्थिर एल्गोरिथ्म है।
import pandas as pd
import numpy as np
unsorted_df = pd.DataFrame({'col1':[2,1,1,1],'col2':[1,3,2,4]})
sorted_df = unsorted_df.sort_values(by='col1' ,kind='mergesort')
print sorted_df
आईटी इस output इस प्रकार है -
col1 col2
1 1 3
2 1 2
3 1 4
0 2 1