पायथन - डेटा वारण्टिंग
डेटा के आदान-प्रदान में डेटा को विभिन्न स्वरूपों में संसाधित करना शामिल होता है जैसे - विलय, समूहन, संघटन आदि का विश्लेषण करने के लिए या डेटा के दूसरे सेट के साथ उपयोग करने के लिए तैयार होने के लिए। पायथन में विश्लेषणात्मक लक्ष्य को प्राप्त करने के लिए विभिन्न डेटा सेटों में इन तरीकों को लागू करने के लिए अंतर्निहित विशेषताएं हैं। इस अध्याय में हम इन विधियों का वर्णन करने वाले कुछ उदाहरणों को देखेंगे।
डेटा मर्ज करना
अजगर में पंडों का पुस्तकालय एक ही कार्य प्रदान करता है, merge, सभी मानक डेटाबेस के लिए प्रवेश बिंदु के रूप में DataFrame वस्तुओं के बीच संचालन में शामिल हों -
pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None,
left_index=False, right_index=False, sort=True)
आइए अब हम दो अलग-अलग DataFrames बनाते हैं और उस पर विलय कार्य करते हैं।
# import the pandas library
import pandas as pd
left = pd.DataFrame({
'id':[1,2,3,4,5],
'Name': ['Alex', 'Amy', 'Allen', 'Alice', 'Ayoung'],
'subject_id':['sub1','sub2','sub4','sub6','sub5']})
right = pd.DataFrame(
{'id':[1,2,3,4,5],
'Name': ['Billy', 'Brian', 'Bran', 'Bryce', 'Betty'],
'subject_id':['sub2','sub4','sub3','sub6','sub5']})
print left
print right
आईटी इस output इस प्रकार है -
Name id subject_id
0 Alex 1 sub1
1 Amy 2 sub2
2 Allen 3 sub4
3 Alice 4 sub6
4 Ayoung 5 sub5
Name id subject_id
0 Billy 1 sub2
1 Brian 2 sub4
2 Bran 3 sub3
3 Bryce 4 sub6
4 Betty 5 sub5
डेटा समूहीकरण
डेटा सेट को समूहीकृत करना डेटा विश्लेषण में एक लगातार आवश्यकता है जहां हमें डेटा सेट में मौजूद विभिन्न समूहों के संदर्भ में परिणाम की आवश्यकता होती है। पनादा में अंतर्निर्मित विधियां हैं जो डेटा को विभिन्न समूहों में रोल कर सकती हैं।
नीचे दिए गए उदाहरण में हम डेटा को वर्ष तक समूहित करते हैं और फिर एक विशिष्ट वर्ष के लिए परिणाम प्राप्त करते हैं।
# import the pandas library
import pandas as pd
ipl_data = {'Team': ['Riders', 'Riders', 'Devils', 'Devils', 'Kings',
'kings', 'Kings', 'Kings', 'Riders', 'Royals', 'Royals', 'Riders'],
'Rank': [1, 2, 2, 3, 3,4 ,1 ,1,2 , 4,1,2],
'Year': [2014,2015,2014,2015,2014,2015,2016,2017,2016,2014,2015,2017],
'Points':[876,789,863,673,741,812,756,788,694,701,804,690]}
df = pd.DataFrame(ipl_data)
grouped = df.groupby('Year')
print grouped.get_group(2014)
आईटी इस output इस प्रकार है -
Points Rank Team Year
0 876 1 Riders 2014
2 863 2 Devils 2014
4 741 3 Kings 2014
9 701 4 Royals 2014
सम्मिलित डेटा
पंडों को आसानी से एक साथ संयोजन के लिए विभिन्न सुविधाएं प्रदान करता है Series, DataFrame, तथा Panelवस्तुओं। नीचे दिए गए उदाहरण मेंconcatफ़ंक्शन एक अक्ष के साथ संघनन संचालन करता है। आइए हम अलग-अलग ऑब्जेक्ट्स बनाते हैं और कॉन्टैक्शन करते हैं।
import pandas as pd
one = pd.DataFrame({
'Name': ['Alex', 'Amy', 'Allen', 'Alice', 'Ayoung'],
'subject_id':['sub1','sub2','sub4','sub6','sub5'],
'Marks_scored':[98,90,87,69,78]},
index=[1,2,3,4,5])
two = pd.DataFrame({
'Name': ['Billy', 'Brian', 'Bran', 'Bryce', 'Betty'],
'subject_id':['sub2','sub4','sub3','sub6','sub5'],
'Marks_scored':[89,80,79,97,88]},
index=[1,2,3,4,5])
print pd.concat([one,two])
आईटी इस output इस प्रकार है -
Marks_scored Name subject_id
1 98 Alex sub1
2 90 Amy sub2
3 87 Allen sub4
4 69 Alice sub6
5 78 Ayoung sub5
1 89 Billy sub2
2 80 Brian sub4
3 79 Bran sub3
4 97 Bryce sub6
5 88 Betty sub5