पायथन - डेटा ऑपरेशन
पाइथन मुख्य रूप से दो पुस्तकालयों, पंडों और नेम्पी के माध्यम से विभिन्न स्वरूपों का डेटा संभालता है। हमने पहले अध्याय में इन दो पुस्तकालयों की महत्वपूर्ण विशेषताओं को देखा है। इस अध्याय में हम प्रत्येक लाइब्रेरी से कुछ बुनियादी उदाहरण देखेंगे कि डेटा को कैसे संचालित किया जाए।
Numpy में डेटा संचालन
NumPy में परिभाषित सबसे महत्वपूर्ण वस्तु एक n- आयामी सरणी प्रकार है जिसे ndarray कहा जाता है। यह उसी प्रकार की वस्तुओं के संग्रह का वर्णन करता है। संग्रह में मौजूद वस्तुओं को शून्य-आधारित इंडेक्स का उपयोग करके एक्सेस किया जा सकता है। ट्यूटोरियल में बाद में वर्णित विभिन्न सरणी निर्माण दिनचर्या द्वारा ndarray वर्ग का एक उदाहरण बनाया जा सकता है। NumDy में एक सरणी फ़ंक्शन का उपयोग करके मूल ndarray बनाया गया है -
numpy.array
Numpy Data से निपटने के कुछ उदाहरण निम्नलिखित हैं।
उदाहरण 1
# more than one dimensions
import numpy as np
a = np.array([[1, 2], [3, 4]])
print a
आउटपुट इस प्रकार है -
[[1, 2]
[3, 4]]
उदाहरण 2
# minimum dimensions
import numpy as np
a = np.array([1, 2, 3,4,5], ndmin = 2)
print a
आउटपुट इस प्रकार है -
[[1, 2, 3, 4, 5]]
उदाहरण 3
# dtype parameter
import numpy as np
a = np.array([1, 2, 3], dtype = complex)
print a
आउटपुट इस प्रकार है -
[ 1.+0.j, 2.+0.j, 3.+0.j]
पंडों में डेटा संचालन
पंडों के माध्यम से डेटा संभालती है Series,Data Frame, तथा Panel। हम इनमें से प्रत्येक से कुछ उदाहरण देखेंगे।
पंडों की श्रृंखला
श्रृंखला एक आयामी लेबल वाली सरणी है जो किसी भी प्रकार (पूर्णांक, स्ट्रिंग, फ्लोट, अजगर वस्तुओं, आदि) के डेटा को रखने में सक्षम है। अक्ष लेबल को सामूहिक रूप से सूचकांक कहा जाता है। निम्नलिखित कंस्ट्रक्टर का उपयोग करके एक पांडा श्रृंखला बनाई जा सकती है -
pandas.Series( data, index, dtype, copy)
उदाहरण
यहाँ हम एक Numpy Array से एक श्रृंखला बनाते हैं।
#import the pandas library and aliasing as pd
import pandas as pd
import numpy as np
data = np.array(['a','b','c','d'])
s = pd.Series(data)
print s
आईटी इस output इस प्रकार है -
0 a
1 b
2 c
3 d
dtype: object
पंडों डेटाफ़्रेम
डेटा फ़्रेम एक दो-आयामी डेटा संरचना है, अर्थात, डेटा को पंक्तियों और स्तंभों में एक सारणीबद्ध फैशन में संरेखित किया गया है। निम्नलिखित कंस्ट्रक्टर का उपयोग करके एक पांडा डेटाफ़्रेम बनाया जा सकता है -
pandas.DataFrame( data, index, columns, dtype, copy)
आइए अब सरणियों का उपयोग करके एक अनुक्रमित DataFrame बनाएं।
import pandas as pd
data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky'],'Age':[28,34,29,42]}
df = pd.DataFrame(data, index=['rank1','rank2','rank3','rank4'])
print df
आईटी इस output इस प्रकार है -
Age Name
rank1 28 Tom
rank2 34 Jack
rank3 29 Steve
rank4 42 Ricky
पंडों का पैनल
ए panelडेटा का एक 3D कंटेनर है। अवधिPanel data अर्थमिति से लिया गया है और नाम पांडा के लिए आंशिक रूप से जिम्मेदार है - pan(el)-da(ta)-s।
निम्नलिखित कंस्ट्रक्टर का उपयोग करके एक पैनल बनाया जा सकता है -
pandas.Panel(data, items, major_axis, minor_axis, dtype, copy)
नीचे दिए गए उदाहरण में हम DataFrame ऑब्जेक्ट्स के लिए एक पैनल बनाते हैं
#creating an empty panel
import pandas as pd
import numpy as np
data = {'Item1' : pd.DataFrame(np.random.randn(4, 3)),
'Item2' : pd.DataFrame(np.random.randn(4, 2))}
p = pd.Panel(data)
print p
आईटी इस output इस प्रकार है -
<class 'pandas.core.panel.Panel'>
Dimensions: 2 (items) x 4 (major_axis) x 5 (minor_axis)
Items axis: 0 to 1
Major_axis axis: 0 to 3
Minor_axis axis: 0 to 4