अपाचे MXNet - NDArray
इस अध्याय में, हम एमएक्सनेट के बहु-आयामी सरणी प्रारूप के बारे में चर्चा करेंगे ndarray।
NDArray के साथ डेटा को संभालना
सबसे पहले, हम देख रहे हैं कि हम एनडीएआरआरई के साथ डेटा को कैसे संभाल सकते हैं। इसके लिए आवश्यक शर्तें निम्नलिखित हैं -
आवश्यक शर्तें
यह समझने के लिए कि हम इस बहु-आयामी सरणी प्रारूप के साथ डेटा को कैसे संभाल सकते हैं, हमें निम्नलिखित आवश्यक शर्तें पूरी करने की आवश्यकता है:
MXNet पायथन वातावरण में स्थापित है
पायथन 2.7.x या पायथन 3.x
कार्यान्वयन उदाहरण
आइए नीचे दिए गए उदाहरण की मदद से बुनियादी कार्यक्षमता को समझते हैं -
सबसे पहले, हमें एमएक्सईएनटी और एमड्रे से एमड्रेनेट आयात करने की आवश्यकता है -
import mxnet as mx
from mxnet import nd
एक बार जब हम आवश्यक पुस्तकालयों को आयात कर लेते हैं, तो हम निम्नलिखित बुनियादी कार्यात्मकताओं के साथ जाएंगे:
अजगर सूची के साथ एक सरल 1-डी सरणी
Example
x = nd.array([1,2,3,4,5,6,7,8,9,10])
print(x)
Output
उत्पादन निम्नानुसार है -
[ 1. 2. 3. 4. 5. 6. 7. 8. 9. 10.]
<NDArray 10 @cpu(0)>
एक अजगर सूची के साथ एक 2-डी सरणी
Example
y = nd.array([[1,2,3,4,5,6,7,8,9,10], [1,2,3,4,5,6,7,8,9,10], [1,2,3,4,5,6,7,8,9,10]])
print(y)
Output
उत्पादन निम्नानुसार है -
[[ 1. 2. 3. 4. 5. 6. 7. 8. 9. 10.]
[ 1. 2. 3. 4. 5. 6. 7. 8. 9. 10.]
[ 1. 2. 3. 4. 5. 6. 7. 8. 9. 10.]]
<NDArray 3x10 @cpu(0)>
बिना किसी आरंभ के एक NDArray बनाना
यहां, हम उपयोग करके 3 पंक्तियों और 4 स्तंभों के साथ एक मैट्रिक्स बनाएंगे .emptyसमारोह। हम भी उपयोग करेंगे.full फ़ंक्शन, जो कि आप सरणी में किस मूल्य को भरना चाहते हैं, के लिए एक अतिरिक्त ऑपरेटर ले जाएगा।
Example
x = nd.empty((3, 4))
print(x)
x = nd.full((3,4), 8)
print(x)
Output
उत्पादन नीचे दिया गया है -
[[0.000e+00 0.000e+00 0.000e+00 0.000e+00]
[0.000e+00 0.000e+00 2.887e-42 0.000e+00]
[0.000e+00 0.000e+00 0.000e+00 0.000e+00]]
<NDArray 3x4 @cpu(0)>
[[8. 8. 8. 8.]
[8. 8. 8. 8.]
[8. 8. 8. 8.]]
<NDArray 3x4 @cpu(0)>
.Zeros फ़ंक्शन के साथ सभी शून्य का मैट्रिक्स
Example
x = nd.zeros((3, 8))
print(x)
Output
आउटपुट इस प्रकार है -
[[0. 0. 0. 0. 0. 0. 0. 0.]
[0. 0. 0. 0. 0. 0. 0. 0.]
[0. 0. 0. 0. 0. 0. 0. 0.]]
<NDArray 3x8 @cpu(0)>
.Ones फ़ंक्शन के साथ सभी का मैट्रिक्स
Example
x = nd.ones((3, 8))
print(x)
Output
उत्पादन का उल्लेख नीचे दिया गया है -
[[1. 1. 1. 1. 1. 1. 1. 1.]
[1. 1. 1. 1. 1. 1. 1. 1.]
[1. 1. 1. 1. 1. 1. 1. 1.]]
<NDArray 3x8 @cpu(0)>
सरणी बनाना जिसका मान अनियमित रूप से नमूना लिया जाता है
Example
y = nd.random_normal(0, 1, shape=(3, 4))
print(y)
Output
उत्पादन नीचे दिया गया है -
[[ 1.2673576 -2.0345826 -0.32537818 -1.4583491 ]
[-0.11176403 1.3606371 -0.7889914 -0.17639421]
[-0.2532185 -0.42614475 -0.12548696 1.4022992 ]]
<NDArray 3x4 @cpu(0)>
प्रत्येक NDArray का आयाम खोजना
Example
y.shape
Output
आउटपुट इस प्रकार है -
(3, 4)
प्रत्येक NDArray के आकार का पता लगाना
Example
y.size
Output
12
प्रत्येक NDArray का डेटाटाइप ढूँढना
Example
y.dtype
Output
numpy.float32
NDArray संचालन
इस खंड में, हम आपको MXNet के सरणी संचालन से परिचित कराएँगे। NDArray बड़ी संख्या में मानक गणितीय के साथ-साथ इन-प्लेस संचालन का समर्थन करता है।
मानक गणितीय संचालन
NDArray द्वारा समर्थित मानक गणितीय संचालन निम्नलिखित हैं -
तत्व-वार जोड़
सबसे पहले, हमें MXNet से MXNet और ndarray को निम्नानुसार आयात करना होगा:
import mxnet as mx
from mxnet import nd
x = nd.ones((3, 5))
y = nd.random_normal(0, 1, shape=(3, 5))
print('x=', x)
print('y=', y)
x = x + y
print('x = x + y, x=', x)
Output
उत्पादन के साथ दी गई है -
x=
[[1. 1. 1. 1. 1.]
[1. 1. 1. 1. 1.]
[1. 1. 1. 1. 1.]]
<NDArray 3x5 @cpu(0)>
y=
[[-1.0554522 -1.3118273 -0.14674698 0.641493 -0.73820823]
[ 2.031364 0.5932667 0.10228804 1.179526 -0.5444829 ]
[-0.34249446 1.1086396 1.2756858 -1.8332436 -0.5289873 ]]
<NDArray 3x5 @cpu(0)>
x = x + y, x=
[[-0.05545223 -0.3118273 0.853253 1.6414931 0.26179177]
[ 3.031364 1.5932667 1.102288 2.1795259 0.4555171 ]
[ 0.6575055 2.1086397 2.2756858 -0.8332436 0.4710127 ]]
<NDArray 3x5 @cpu(0)>
तत्व-वार गुणा
Example
x = nd.array([1, 2, 3, 4])
y = nd.array([2, 2, 2, 1])
x * y
Output
आप निम्न आउटपुट देखेंगे
[2. 4. 6. 4.]
<NDArray 4 @cpu(0)>
घातांक
Example
nd.exp(x)
Output
जब आप कोड चलाते हैं, तो आपको निम्न आउटपुट दिखाई देगा:
[ 2.7182817 7.389056 20.085537 54.59815 ]
<NDArray 4 @cpu(0)>
मैट्रिक्स मैट्रिक्स-मैट्रिक्स उत्पाद की गणना करने के लिए मैट्रिक्स पारगमन
Example
nd.dot(x, y.T)
Output
नीचे दिए गए कोड का उत्पादन है -
[16.]
<NDArray 1 @cpu(0)>
जगह-जगह संचालन
हर बार, उपरोक्त उदाहरण में, हमने एक ऑपरेशन चलाया, हमने इसके परिणाम की मेजबानी के लिए एक नई मेमोरी आवंटित की।
उदाहरण के लिए, यदि हम A = A + B लिखते हैं, तो हम उस मैट्रिक्स को निष्क्रिय कर देंगे जिसका उपयोग A इंगित करता था और इसके बजाय इसे नई आवंटित मेमोरी में इंगित करता था। आइए इसे नीचे दिए गए उदाहरण से समझते हैं, पायथन की आईडी () फ़ंक्शन का उपयोग करते हुए -
print('y=', y)
print('id(y):', id(y))
y = y + x
print('after y=y+x, y=', y)
print('id(y):', id(y))
Output
निष्पादन के बाद, आपको निम्न आउटपुट प्राप्त होंगे -
y=
[2. 2. 2. 1.]
<NDArray 4 @cpu(0)>
id(y): 2438905634376
after y=y+x, y=
[3. 4. 5. 5.]
<NDArray 4 @cpu(0)>
id(y): 2438905685664
वास्तव में, हम परिणाम को पहले से आवंटित सरणी में भी निर्दिष्ट कर सकते हैं -
print('x=', x)
z = nd.zeros_like(x)
print('z is zeros_like x, z=', z)
print('id(z):', id(z))
print('y=', y)
z[:] = x + y
print('z[:] = x + y, z=', z)
print('id(z) is the same as before:', id(z))
Output
उत्पादन नीचे दिखाया गया है -
x=
[1. 2. 3. 4.]
<NDArray 4 @cpu(0)>
z is zeros_like x, z=
[0. 0. 0. 0.]
<NDArray 4 @cpu(0)>
id(z): 2438905790760
y=
[3. 4. 5. 5.]
<NDArray 4 @cpu(0)>
z[:] = x + y, z=
[4. 6. 8. 9.]
<NDArray 4 @cpu(0)>
id(z) is the same as before: 2438905790760
उपरोक्त आउटपुट से, हम देख सकते हैं कि x + y अभी भी z को कॉपी करने से पहले परिणाम को संग्रहीत करने के लिए एक अस्थायी बफर आवंटित करेगा। इसलिए अब, हम मेमोरी का बेहतर उपयोग करने और अस्थायी बफर से बचने के लिए इन-प्लेस का संचालन कर सकते हैं। ऐसा करने के लिए, हम कीवर्ड तर्क को प्रत्येक ऑपरेटर समर्थन को निम्नानुसार निर्दिष्ट करेंगे -
print('x=', x, 'is in id(x):', id(x))
print('y=', y, 'is in id(y):', id(y))
print('z=', z, 'is in id(z):', id(z))
nd.elemwise_add(x, y, out=z)
print('after nd.elemwise_add(x, y, out=z), x=', x, 'is in id(x):', id(x))
print('after nd.elemwise_add(x, y, out=z), y=', y, 'is in id(y):', id(y))
print('after nd.elemwise_add(x, y, out=z), z=', z, 'is in id(z):', id(z))
Output
उपरोक्त कार्यक्रम निष्पादित करने पर, आपको निम्नलिखित परिणाम मिलेगा -
x=
[1. 2. 3. 4.]
<NDArray 4 @cpu(0)> is in id(x): 2438905791152
y=
[3. 4. 5. 5.]
<NDArray 4 @cpu(0)> is in id(y): 2438905685664
z=
[4. 6. 8. 9.]
<NDArray 4 @cpu(0)> is in id(z): 2438905790760
after nd.elemwise_add(x, y, out=z), x=
[1. 2. 3. 4.]
<NDArray 4 @cpu(0)> is in id(x): 2438905791152
after nd.elemwise_add(x, y, out=z), y=
[3. 4. 5. 5.]
<NDArray 4 @cpu(0)> is in id(y): 2438905685664
after nd.elemwise_add(x, y, out=z), z=
[4. 6. 8. 9.]
<NDArray 4 @cpu(0)> is in id(z): 2438905790760
NDArray संदर्भ
Apache MXNet में, प्रत्येक सरणी में एक संदर्भ होता है और एक संदर्भ CPU हो सकता है, जबकि अन्य संदर्भों में कई GPU हो सकते हैं। जब हम एक से अधिक सर्वर पर काम करते हैं तो चीजें और भी खराब हो सकती हैं। इसीलिए, हमें बुद्धिमानी से संदर्भों के लिए सरणियाँ देने की आवश्यकता है। यह उपकरणों के बीच डेटा स्थानांतरित करने में लगने वाले समय को कम कर देगा।
उदाहरण के लिए, एक सरणी को आरंभीकृत करने का प्रयास करें -
from mxnet import nd
z = nd.ones(shape=(3,3), ctx=mx.cpu(0))
print(z)
Output
जब आप उपरोक्त कोड निष्पादित करते हैं, तो आपको निम्नलिखित आउटपुट देखना चाहिए -
[[1. 1. 1.]
[1. 1. 1.]
[1. 1. 1.]]
<NDArray 3x3 @cpu(0)>
हम दिए गए NDArray को एक संदर्भ से दूसरे संदर्भ में कॉपीटो () विधि का उपयोग करके कॉपी कर सकते हैं -
x_gpu = x.copyto(gpu(0))
print(x_gpu)
NumPy सरणी बनाम NDArray
हम सभी NumPy सरणियों से परिचित हैं, लेकिन Apache MXNet NDArray नाम से अपना ऐरे कार्यान्वयन प्रदान करता है। वास्तव में, यह शुरू में NumPy के समान डिजाइन किया गया था लेकिन एक महत्वपूर्ण अंतर है -
महत्वपूर्ण अंतर न्यूम्रे और एनडीएआरआरई में गणना के तरीके से निष्पादित होता है। MXNet में हर NDArray हेरफेर अतुल्यकालिक और गैर-अवरुद्ध तरीके से किया जाता है, जिसका अर्थ है कि, जब हम c = a * b जैसे कोड लिखते हैं, तो फ़ंक्शन को धक्का दिया जाता है।Execution Engine, जो गणना शुरू करेगा।
यहाँ, a और b दोनों NDArrays हैं। इसका उपयोग करने का लाभ यह है कि, फ़ंक्शन तुरंत वापस आ जाता है, और उपयोगकर्ता धागा इस तथ्य के बावजूद निष्पादन जारी रख सकता है कि पिछली गणना अभी तक पूरी नहीं हुई है।
निष्पादन इंजन का कार्य
अगर हम निष्पादन इंजन के काम के बारे में बात करते हैं, तो यह गणना ग्राफ बनाता है। गणना ग्राफ कुछ गणनाओं को फिर से व्यवस्थित या संयोजित कर सकता है, लेकिन यह हमेशा निर्भरता क्रम का सम्मान करता है।
उदाहरण के लिए, यदि प्रोग्रामिंग कोड में बाद में किए गए 'X' के साथ अन्य हेरफेर होते हैं, तो एक्ज़ेक्यूशन इंजन 'X' का परिणाम उपलब्ध होते ही उन्हें करना शुरू कर देगा। निष्पादन इंजन उपयोगकर्ताओं के लिए कुछ महत्वपूर्ण कामों को संभालेगा, जैसे कि बाद के कोड का निष्पादन शुरू करने के लिए कॉलबैक लिखना।
अपाचे MXNet में, NDArray की मदद से, संगणना का परिणाम प्राप्त करने के लिए हमें केवल परिणामी चर का उपयोग करना होगा। कोड के प्रवाह को अवरुद्ध किया जाएगा जब तक कि गणना परिणाम परिणामी चर को नहीं सौंपा जाएगा। इस तरह, यह अनिवार्य प्रोग्रामिंग मोड का समर्थन करते हुए कोड प्रदर्शन को बढ़ाता है।
NDArray को NumPy Array में परिवर्तित करना
आइए जानें कि हम एमएक्सनेट में एनडीएआरई को न्यूपीयर एरे में कैसे बदल सकते हैं।
Combining higher-level operator with the help of few lower-level operators
कभी-कभी, हम मौजूदा ऑपरेटरों का उपयोग करके एक उच्च-स्तरीय ऑपरेटर को इकट्ठा कर सकते हैं। इसका एक सबसे अच्छा उदाहरण है,np.full_like()ऑपरेटर, जो NDArray API में नहीं है। इसे आसानी से मौजूदा ऑपरेटरों के संयोजन से प्रतिस्थापित किया जा सकता है:
from mxnet import nd
import numpy as np
np_x = np.full_like(a=np.arange(7, dtype=int), fill_value=15)
nd_x = nd.ones(shape=(7,)) * 15
np.array_equal(np_x, nd_x.asnumpy())
Output
हमें आउटपुट इस प्रकार मिलेगा -
True
Finding similar operator with different name and/or signature
सभी ऑपरेटरों के बीच, उनमें से कुछ का नाम थोड़ा अलग है, लेकिन वे कार्यक्षमता के मामले में समान हैं। इसका एक उदाहरण हैnd.ravel_index() साथ में np.ravel()कार्य करता है। उसी तरह, कुछ ऑपरेटरों के नाम समान हो सकते हैं, लेकिन उनके अलग-अलग हस्ताक्षर हैं। इसका एक उदाहरण हैnp.split() तथा nd.split() समान है।
आइए इसे निम्नलिखित प्रोग्रामिंग उदाहरण से समझते हैं:
def pad_array123(data, max_length):
data_expanded = data.reshape(1, 1, 1, data.shape[0])
data_padded = nd.pad(data_expanded,
mode='constant',
pad_width=[0, 0, 0, 0, 0, 0, 0, max_length - data.shape[0]],
constant_value=0)
data_reshaped_back = data_padded.reshape(max_length)
return data_reshaped_back
pad_array123(nd.array([1, 2, 3]), max_length=10)
Output
उत्पादन नीचे बताया गया है -
[1. 2. 3. 0. 0. 0. 0. 0. 0. 0.]
<NDArray 10 @cpu(0)>
अवरुद्ध कॉल के प्रभाव को कम करना
कुछ मामलों में, हमें या तो उपयोग करना होगा .asnumpy() या .asscalar()तरीके, लेकिन यह एमएक्सनेट को निष्पादन को अवरुद्ध करने के लिए मजबूर करेगा, जब तक कि परिणाम को पुनः प्राप्त नहीं किया जा सकता है। हम कॉल करके अवरुद्ध कॉल के प्रभाव को कम कर सकते हैं.asnumpy() या .asscalar() ऐसे क्षणों में, जब हमें लगता है कि इस मूल्य की गणना पहले ही की जा चुकी है।
कार्यान्वयन उदाहरण
Example
from __future__ import print_function
import mxnet as mx
from mxnet import gluon, nd, autograd
from mxnet.ndarray import NDArray
from mxnet.gluon import HybridBlock
import numpy as np
class LossBuffer(object):
"""
Simple buffer for storing loss value
"""
def __init__(self):
self._loss = None
def new_loss(self, loss):
ret = self._loss
self._loss = loss
return ret
@property
def loss(self):
return self._loss
net = gluon.nn.Dense(10)
ce = gluon.loss.SoftmaxCELoss()
net.initialize()
data = nd.random.uniform(shape=(1024, 100))
label = nd.array(np.random.randint(0, 10, (1024,)), dtype='int32')
train_dataset = gluon.data.ArrayDataset(data, label)
train_data = gluon.data.DataLoader(train_dataset, batch_size=128, shuffle=True, num_workers=2)
trainer = gluon.Trainer(net.collect_params(), optimizer='sgd')
loss_buffer = LossBuffer()
for data, label in train_data:
with autograd.record():
out = net(data)
# This call saves new loss and returns previous loss
prev_loss = loss_buffer.new_loss(ce(out, label))
loss_buffer.loss.backward()
trainer.step(data.shape[0])
if prev_loss is not None:
print("Loss: {}".format(np.mean(prev_loss.asnumpy())))
Output
आउटपुट नीचे उद्धृत है:
Loss: 2.3373236656188965
Loss: 2.3656985759735107
Loss: 2.3613128662109375
Loss: 2.3197104930877686
Loss: 2.3054862022399902
Loss: 2.329197406768799
Loss: 2.318927526473999