पायथन - डेटा ऑपरेशन

पाइथन मुख्य रूप से दो पुस्तकालयों, पंडों और नेम्पी के माध्यम से विभिन्न स्वरूपों का डेटा संभालता है। हमने पहले अध्याय में इन दो पुस्तकालयों की महत्वपूर्ण विशेषताओं को देखा है। इस अध्याय में हम प्रत्येक लाइब्रेरी से कुछ बुनियादी उदाहरण देखेंगे कि डेटा को कैसे संचालित किया जाए।

Numpy में डेटा संचालन

NumPy में परिभाषित सबसे महत्वपूर्ण वस्तु एक n- आयामी सरणी प्रकार है जिसे ndarray कहा जाता है। यह उसी प्रकार की वस्तुओं के संग्रह का वर्णन करता है। संग्रह में मौजूद वस्तुओं को शून्य-आधारित इंडेक्स का उपयोग करके एक्सेस किया जा सकता है। ट्यूटोरियल में बाद में वर्णित विभिन्न सरणी निर्माण दिनचर्या द्वारा ndarray वर्ग का एक उदाहरण बनाया जा सकता है। NumDy में एक सरणी फ़ंक्शन का उपयोग करके मूल ndarray बनाया गया है -

numpy.array

Numpy Data से निपटने के कुछ उदाहरण निम्नलिखित हैं।

उदाहरण 1

# more than one dimensions 
import numpy as np 
a = np.array([[1, 2], [3, 4]]) 
print a

आउटपुट इस प्रकार है -

[[1, 2] 
 [3, 4]]

उदाहरण 2

# minimum dimensions 
import numpy as np 
a = np.array([1, 2, 3,4,5], ndmin = 2) 
print a

आउटपुट इस प्रकार है -

[[1, 2, 3, 4, 5]]

उदाहरण 3

# dtype parameter 
import numpy as np 
a = np.array([1, 2, 3], dtype = complex) 
print a

आउटपुट इस प्रकार है -

[ 1.+0.j,  2.+0.j,  3.+0.j]

पंडों में डेटा संचालन

पंडों के माध्यम से डेटा संभालती है Series,Data Frame, तथा Panel। हम इनमें से प्रत्येक से कुछ उदाहरण देखेंगे।

पंडों की श्रृंखला

श्रृंखला एक आयामी लेबल वाली सरणी है जो किसी भी प्रकार (पूर्णांक, स्ट्रिंग, फ्लोट, अजगर वस्तुओं, आदि) के डेटा को रखने में सक्षम है। अक्ष लेबल को सामूहिक रूप से सूचकांक कहा जाता है। निम्नलिखित कंस्ट्रक्टर का उपयोग करके एक पांडा श्रृंखला बनाई जा सकती है -

pandas.Series( data, index, dtype, copy)

उदाहरण

यहाँ हम एक Numpy Array से एक श्रृंखला बनाते हैं।

#import the pandas library and aliasing as pd
import pandas as pd
import numpy as np
data = np.array(['a','b','c','d'])
s = pd.Series(data)
print s

आईटी इस output इस प्रकार है -

0   a
1   b
2   c
3   d
dtype: object

पंडों डेटाफ़्रेम

डेटा फ़्रेम एक दो-आयामी डेटा संरचना है, अर्थात, डेटा को पंक्तियों और स्तंभों में एक सारणीबद्ध फैशन में संरेखित किया गया है। निम्नलिखित कंस्ट्रक्टर का उपयोग करके एक पांडा डेटाफ़्रेम बनाया जा सकता है -

pandas.DataFrame( data, index, columns, dtype, copy)

आइए अब सरणियों का उपयोग करके एक अनुक्रमित DataFrame बनाएं।

import pandas as pd
data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky'],'Age':[28,34,29,42]}
df = pd.DataFrame(data, index=['rank1','rank2','rank3','rank4'])
print df

आईटी इस output इस प्रकार है -

Age    Name
rank1    28      Tom
rank2    34     Jack
rank3    29    Steve
rank4    42    Ricky

पंडों का पैनल

panelडेटा का एक 3D कंटेनर है। अवधिPanel data अर्थमिति से लिया गया है और नाम पांडा के लिए आंशिक रूप से जिम्मेदार है - pan(el)-da(ta)-s।

निम्नलिखित कंस्ट्रक्टर का उपयोग करके एक पैनल बनाया जा सकता है -

pandas.Panel(data, items, major_axis, minor_axis, dtype, copy)

नीचे दिए गए उदाहरण में हम DataFrame ऑब्जेक्ट्स के लिए एक पैनल बनाते हैं

#creating an empty panel
import pandas as pd
import numpy as np

data = {'Item1' : pd.DataFrame(np.random.randn(4, 3)), 
        'Item2' : pd.DataFrame(np.random.randn(4, 2))}
p = pd.Panel(data)
print p

आईटी इस output इस प्रकार है -

<class 'pandas.core.panel.Panel'>
Dimensions: 2 (items) x 4 (major_axis) x 5 (minor_axis)
Items axis: 0 to 1
Major_axis axis: 0 to 3
Minor_axis axis: 0 to 4