पाइथन पंडों - संघातन

पंडों को आसानी से एक साथ संयोजन के लिए विभिन्न सुविधाएं प्रदान करता है Series, DataFrame, तथा Panel वस्तुओं।

pd.concat(objs,axis=0,join='outer',join_axes=None,
ignore_index=False)
  • objs - यह सीरीज़, डेटाफ़्रेम या पैनल ऑब्जेक्ट्स का एक अनुक्रम या मानचित्रण है।

  • axis - {0, 1, ...}, डिफ़ॉल्ट 0. यह अक्ष के साथ समतल करने के लिए धुरी है।

  • join- {'आंतरिक', 'बाहरी'}, डिफ़ॉल्ट 'बाहरी'। अनुक्रमणिका को अन्य अक्ष पर कैसे संभाला जाए (तों)। संघ के लिए बाहरी और चौराहे के लिए आंतरिक।

  • ignore_index- बूलियन, डिफ़ॉल्ट गलत। यदि सही है, तो अनुक्रमण अक्ष पर अनुक्रमणिका मान का उपयोग न करें। परिणामी अक्ष को 0, ..., n - 1 लेबल किया जाएगा।

  • join_axes- यह सूचकांक वस्तुओं की सूची है। आंतरिक / बाहरी सेट तर्क प्रदर्शन करने के बजाय अन्य (n-1) अक्षों के लिए उपयोग करने के लिए विशिष्ट अनुक्रमित।

समाप्‍त करने वाली वस्‍तुएं

concatफ़ंक्शन एक अक्ष के साथ समवर्ती संचालन के भारी भार उठाने का कार्य करता है। आइए हम अलग-अलग ऑब्जेक्ट्स बनाते हैं और कॉन्टैक्शन करते हैं।

import pandas as pd

one = pd.DataFrame({
   'Name': ['Alex', 'Amy', 'Allen', 'Alice', 'Ayoung'],
   'subject_id':['sub1','sub2','sub4','sub6','sub5'],
   'Marks_scored':[98,90,87,69,78]},
   index=[1,2,3,4,5])

two = pd.DataFrame({
   'Name': ['Billy', 'Brian', 'Bran', 'Bryce', 'Betty'],
   'subject_id':['sub2','sub4','sub3','sub6','sub5'],
   'Marks_scored':[89,80,79,97,88]},
   index=[1,2,3,4,5])
print pd.concat([one,two])

आईटी इस output इस प्रकार है -

Marks_scored     Name   subject_id
1             98     Alex         sub1
2             90      Amy         sub2
3             87    Allen         sub4
4             69    Alice         sub6
5             78   Ayoung         sub5
1             89    Billy         sub2
2             80    Brian         sub4
3             79     Bran         sub3
4             97    Bryce         sub6
5             88    Betty         sub5

मान लीजिए कि हम कटा हुआ डेटाफ्रेम के प्रत्येक टुकड़े के साथ विशिष्ट कुंजी को जोड़ना चाहते थे। हम इसका उपयोग करके कर सकते हैंkeys तर्क -

import pandas as pd

one = pd.DataFrame({
   'Name': ['Alex', 'Amy', 'Allen', 'Alice', 'Ayoung'],
   'subject_id':['sub1','sub2','sub4','sub6','sub5'],
   'Marks_scored':[98,90,87,69,78]},
   index=[1,2,3,4,5])

two = pd.DataFrame({
   'Name': ['Billy', 'Brian', 'Bran', 'Bryce', 'Betty'],
   'subject_id':['sub2','sub4','sub3','sub6','sub5'],
   'Marks_scored':[89,80,79,97,88]},
   index=[1,2,3,4,5])
print pd.concat([one,two],keys=['x','y'])

आईटी इस output इस प्रकार है -

x  1  98    Alex    sub1
   2  90    Amy     sub2
   3  87    Allen   sub4
   4  69    Alice   sub6
   5  78    Ayoung  sub5
y  1  89    Billy   sub2
   2  80    Brian   sub4
   3  79    Bran    sub3
   4  97    Bryce   sub6
   5  88    Betty   sub5

परिणामी के सूचकांक को दोहराया गया है; प्रत्येक सूचकांक दोहराया जाता है।

यदि परिणामी वस्तु को अपनी अनुक्रमणिका का पालन करना है, तो सेट करें ignore_index सेवा True

import pandas as pd

one = pd.DataFrame({
   'Name': ['Alex', 'Amy', 'Allen', 'Alice', 'Ayoung'],
   'subject_id':['sub1','sub2','sub4','sub6','sub5'],
   'Marks_scored':[98,90,87,69,78]},
   index=[1,2,3,4,5])

two = pd.DataFrame({
   'Name': ['Billy', 'Brian', 'Bran', 'Bryce', 'Betty'],
   'subject_id':['sub2','sub4','sub3','sub6','sub5'],
   'Marks_scored':[89,80,79,97,88]},
   index=[1,2,3,4,5])
print pd.concat([one,two],keys=['x','y'],ignore_index=True)

आईटी इस output इस प्रकार है -

Marks_scored     Name    subject_id
0             98     Alex          sub1
1             90      Amy          sub2
2             87    Allen          sub4
3             69    Alice          sub6
4             78   Ayoung          sub5
5             89    Billy          sub2
6             80    Brian          sub4
7             79     Bran          sub3
8             97    Bryce          sub6
9             88    Betty          sub5

निरीक्षण करें, सूचकांक पूरी तरह से बदल जाता है और कुंजी भी ओवरराइड हो जाती है।

अगर दो वस्तुओं को साथ जोड़ने की जरूरत है axis=1, फिर नए कॉलम को जोड़ा जाएगा।

import pandas as pd

one = pd.DataFrame({
   'Name': ['Alex', 'Amy', 'Allen', 'Alice', 'Ayoung'],
   'subject_id':['sub1','sub2','sub4','sub6','sub5'],
   'Marks_scored':[98,90,87,69,78]},
   index=[1,2,3,4,5])

two = pd.DataFrame({
   'Name': ['Billy', 'Brian', 'Bran', 'Bryce', 'Betty'],
   'subject_id':['sub2','sub4','sub3','sub6','sub5'],
   'Marks_scored':[89,80,79,97,88]},
   index=[1,2,3,4,5])
print pd.concat([one,two],axis=1)

आईटी इस output इस प्रकार है -

Marks_scored    Name  subject_id   Marks_scored    Name   subject_id
1           98      Alex      sub1         89         Billy         sub2
2           90       Amy      sub2         80         Brian         sub4
3           87     Allen      sub4         79          Bran         sub3
4           69     Alice      sub6         97         Bryce         sub6
5           78    Ayoung      sub5         88         Betty         sub5

उपांग का उपयोग करना

समवर्ती करने के लिए एक उपयोगी शॉर्टकट श्रृंखला और डेटाफ़्रेम पर परिशिष्ट उदाहरण के तरीके हैं। ये विधियां वास्तव में संक्षिप्त रूप से पूर्ववर्ती थीं। वे साथ बैठते हैंaxis=0, अर्थात् सूचकांक -

import pandas as pd

one = pd.DataFrame({
   'Name': ['Alex', 'Amy', 'Allen', 'Alice', 'Ayoung'],
   'subject_id':['sub1','sub2','sub4','sub6','sub5'],
   'Marks_scored':[98,90,87,69,78]},
   index=[1,2,3,4,5])

two = pd.DataFrame({
   'Name': ['Billy', 'Brian', 'Bran', 'Bryce', 'Betty'],
   'subject_id':['sub2','sub4','sub3','sub6','sub5'],
   'Marks_scored':[89,80,79,97,88]},
   index=[1,2,3,4,5])
print one.append(two)

आईटी इस output इस प्रकार है -

Marks_scored    Name  subject_id
1           98      Alex      sub1
2           90       Amy      sub2
3           87     Allen      sub4
4           69     Alice      sub6
5           78    Ayoung      sub5
1           89     Billy      sub2
2           80     Brian      sub4
3           79      Bran      sub3
4           97     Bryce      sub6
5           88     Betty      sub5

append फ़ंक्शन कई वस्तुओं को भी ले सकता है -

import pandas as pd

one = pd.DataFrame({
   'Name': ['Alex', 'Amy', 'Allen', 'Alice', 'Ayoung'],
   'subject_id':['sub1','sub2','sub4','sub6','sub5'],
   'Marks_scored':[98,90,87,69,78]},
   index=[1,2,3,4,5])

two = pd.DataFrame({
   'Name': ['Billy', 'Brian', 'Bran', 'Bryce', 'Betty'],
   'subject_id':['sub2','sub4','sub3','sub6','sub5'],
   'Marks_scored':[89,80,79,97,88]},
   index=[1,2,3,4,5])
print one.append([two,one,two])

आईटी इस output इस प्रकार है -

Marks_scored   Name    subject_id
1           98     Alex          sub1
2           90      Amy          sub2
3           87    Allen          sub4
4           69    Alice          sub6
5           78   Ayoung          sub5
1           89    Billy          sub2
2           80    Brian          sub4
3           79     Bran          sub3
4           97    Bryce          sub6
5           88    Betty          sub5
1           98     Alex          sub1
2           90      Amy          sub2
3           87    Allen          sub4
4           69    Alice          sub6
5           78   Ayoung          sub5
1           89    Billy          sub2
2           80    Brian          sub4
3           79     Bran          sub3
4           97    Bryce          sub6
5           88    Betty          sub5

समय श्रृंखला

पंडों टाइम सीरीज़ डेटा के साथ काम करने के लिए एक मजबूत उपकरण प्रदान करते हैं, खासकर वित्तीय क्षेत्र में। समय श्रृंखला डेटा के साथ काम करते हुए, हम अक्सर निम्नलिखित में आते हैं -

  • समय का क्रम उत्पन्न करना
  • समय श्रृंखला को विभिन्न आवृत्तियों में परिवर्तित करें

उपरोक्त कार्यों को करने के लिए पंडों ने अपेक्षाकृत कॉम्पैक्ट और स्व-निहित उपकरण प्रदान किए हैं।

वर्तमान समय प्राप्त करें

datetime.now() आपको वर्तमान तिथि और समय देता है।

import pandas as pd

print pd.datetime.now()

आईटी इस output इस प्रकार है -

2017-05-11 06:10:13.393147

एक टाइमस्टैम्प बनाएँ

टाइम-स्टैम्पेड डेटा सबसे बुनियादी प्रकार का टाइमरीज़ डेटा है जो समय में अंकों के साथ मूल्यों को जोड़ता है। पंडों की वस्तुओं के लिए, इसका मतलब समय में बिंदुओं का उपयोग करना है। आइए एक उदाहरण लेते हैं -

import pandas as pd

print pd.Timestamp('2017-03-01')

आईटी इस output इस प्रकार है -

2017-03-01 00:00:00

पूर्णांक या फ्लोट युग को परिवर्तित करना भी संभव है। इनके लिए डिफ़ॉल्ट इकाई नैनोसेकंड है (क्योंकि ये कैसे टाइमस्टैम्प संग्रहीत हैं)। हालांकि, अक्सर युगों को किसी अन्य इकाई में संग्रहीत किया जाता है जिसे निर्दिष्ट किया जा सकता है। एक और उदाहरण लेते हैं

import pandas as pd

print pd.Timestamp(1587687255,unit='s')

आईटी इस output इस प्रकार है -

2020-04-24 00:14:15

समय की एक सीमा बनाएँ

import pandas as pd

print pd.date_range("11:00", "13:30", freq="30min").time

आईटी इस output इस प्रकार है -

[datetime.time(11, 0) datetime.time(11, 30) datetime.time(12, 0)
datetime.time(12, 30) datetime.time(13, 0) datetime.time(13, 30)]

समय की आवृत्ति बदलें

import pandas as pd

print pd.date_range("11:00", "13:30", freq="H").time

आईटी इस output इस प्रकार है -

[datetime.time(11, 0) datetime.time(12, 0) datetime.time(13, 0)]

टाइमस्टैम्प में परिवर्तित

किसी श्रृंखला या सूची जैसी ऑब्जेक्ट को ऑब्जेक्ट-जैसे ऑब्जेक्ट में कनवर्ट करने के लिए, उदाहरण के लिए तार, युग, या मिश्रण, आप इसका उपयोग कर सकते हैं to_datetimeसमारोह। पास होने पर, यह एक श्रृंखला (उसी सूचकांक के साथ) देता है, जबकि एlist-like में परिवर्तित हो जाता है DatetimeIndex। निम्नलिखित उदाहरण पर एक नज़र डालें -

import pandas as pd

print pd.to_datetime(pd.Series(['Jul 31, 2009','2010-01-10', None]))

आईटी इस output इस प्रकार है -

0  2009-07-31
1  2010-01-10
2         NaT
dtype: datetime64[ns]

NaT माध्यम Not a Time (NaN के बराबर)

एक और उदाहरण लेते हैं।

import pandas as pd

print pd.to_datetime(['2005/11/23', '2010.12.31', None])

आईटी इस output इस प्रकार है -

DatetimeIndex(['2005-11-23', '2010-12-31', 'NaT'], dtype='datetime64[ns]', freq=None)