पायथन - डेटा वारण्टिंग

डेटा के आदान-प्रदान में डेटा को विभिन्न स्वरूपों में संसाधित करना शामिल होता है जैसे - विलय, समूहन, संघटन आदि का विश्लेषण करने के लिए या डेटा के दूसरे सेट के साथ उपयोग करने के लिए तैयार होने के लिए। पायथन में विश्लेषणात्मक लक्ष्य को प्राप्त करने के लिए विभिन्न डेटा सेटों में इन तरीकों को लागू करने के लिए अंतर्निहित विशेषताएं हैं। इस अध्याय में हम इन विधियों का वर्णन करने वाले कुछ उदाहरणों को देखेंगे।

डेटा मर्ज करना

अजगर में पंडों का पुस्तकालय एक ही कार्य प्रदान करता है, merge, सभी मानक डेटाबेस के लिए प्रवेश बिंदु के रूप में DataFrame वस्तुओं के बीच संचालन में शामिल हों -

pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None,
left_index=False, right_index=False, sort=True)

आइए अब हम दो अलग-अलग DataFrames बनाते हैं और उस पर विलय कार्य करते हैं।

# import the pandas library
import pandas as pd
left = pd.DataFrame({
         'id':[1,2,3,4,5],
         'Name': ['Alex', 'Amy', 'Allen', 'Alice', 'Ayoung'],
         'subject_id':['sub1','sub2','sub4','sub6','sub5']})
right = pd.DataFrame(
         {'id':[1,2,3,4,5],
         'Name': ['Billy', 'Brian', 'Bran', 'Bryce', 'Betty'],
         'subject_id':['sub2','sub4','sub3','sub6','sub5']})
print left
print right

आईटी इस output इस प्रकार है -

Name  id   subject_id
0   Alex   1         sub1
1    Amy   2         sub2
2  Allen   3         sub4
3  Alice   4         sub6
4  Ayoung  5         sub5

    Name  id   subject_id
0  Billy   1         sub2
1  Brian   2         sub4
2  Bran    3         sub3
3  Bryce   4         sub6
4  Betty   5         sub5

डेटा समूहीकरण

डेटा सेट को समूहीकृत करना डेटा विश्लेषण में एक लगातार आवश्यकता है जहां हमें डेटा सेट में मौजूद विभिन्न समूहों के संदर्भ में परिणाम की आवश्यकता होती है। पनादा में अंतर्निर्मित विधियां हैं जो डेटा को विभिन्न समूहों में रोल कर सकती हैं।

नीचे दिए गए उदाहरण में हम डेटा को वर्ष तक समूहित करते हैं और फिर एक विशिष्ट वर्ष के लिए परिणाम प्राप्त करते हैं।

# import the pandas library
import pandas as pd

ipl_data = {'Team': ['Riders', 'Riders', 'Devils', 'Devils', 'Kings',
         'kings', 'Kings', 'Kings', 'Riders', 'Royals', 'Royals', 'Riders'],
         'Rank': [1, 2, 2, 3, 3,4 ,1 ,1,2 , 4,1,2],
         'Year': [2014,2015,2014,2015,2014,2015,2016,2017,2016,2014,2015,2017],
         'Points':[876,789,863,673,741,812,756,788,694,701,804,690]}
df = pd.DataFrame(ipl_data)

grouped = df.groupby('Year')
print grouped.get_group(2014)

आईटी इस output इस प्रकार है -

Points  Rank     Team    Year
0     876     1   Riders    2014
2     863     2   Devils    2014
4     741     3   Kings     2014
9     701     4   Royals    2014

सम्‍मिलित डेटा

पंडों को आसानी से एक साथ संयोजन के लिए विभिन्न सुविधाएं प्रदान करता है Series, DataFrame, तथा Panelवस्तुओं। नीचे दिए गए उदाहरण मेंconcatफ़ंक्शन एक अक्ष के साथ संघनन संचालन करता है। आइए हम अलग-अलग ऑब्जेक्ट्स बनाते हैं और कॉन्टैक्शन करते हैं।

import pandas as pd
one = pd.DataFrame({
         'Name': ['Alex', 'Amy', 'Allen', 'Alice', 'Ayoung'],
         'subject_id':['sub1','sub2','sub4','sub6','sub5'],
         'Marks_scored':[98,90,87,69,78]},
         index=[1,2,3,4,5])
two = pd.DataFrame({
         'Name': ['Billy', 'Brian', 'Bran', 'Bryce', 'Betty'],
         'subject_id':['sub2','sub4','sub3','sub6','sub5'],
         'Marks_scored':[89,80,79,97,88]},
         index=[1,2,3,4,5])
print pd.concat([one,two])

आईटी इस output इस प्रकार है -

Marks_scored     Name   subject_id
1             98     Alex         sub1
2             90      Amy         sub2
3             87    Allen         sub4
4             69    Alice         sub6
5             78   Ayoung         sub5
1             89    Billy         sub2
2             80    Brian         sub4
3             79     Bran         sub3
4             97    Bryce         sub6
5             88    Betty         sub5