अपाचे MXNet - NDArray

इस अध्याय में, हम एमएक्सनेट के बहु-आयामी सरणी प्रारूप के बारे में चर्चा करेंगे ndarray

NDArray के साथ डेटा को संभालना

सबसे पहले, हम देख रहे हैं कि हम एनडीएआरआरई के साथ डेटा को कैसे संभाल सकते हैं। इसके लिए आवश्यक शर्तें निम्नलिखित हैं -

आवश्यक शर्तें

यह समझने के लिए कि हम इस बहु-आयामी सरणी प्रारूप के साथ डेटा को कैसे संभाल सकते हैं, हमें निम्नलिखित आवश्यक शर्तें पूरी करने की आवश्यकता है:

  • MXNet पायथन वातावरण में स्थापित है

  • पायथन 2.7.x या पायथन 3.x

कार्यान्वयन उदाहरण

आइए नीचे दिए गए उदाहरण की मदद से बुनियादी कार्यक्षमता को समझते हैं -

सबसे पहले, हमें एमएक्सईएनटी और एमड्रे से एमड्रेनेट आयात करने की आवश्यकता है -

import mxnet as mx
from mxnet import nd

एक बार जब हम आवश्यक पुस्तकालयों को आयात कर लेते हैं, तो हम निम्नलिखित बुनियादी कार्यात्मकताओं के साथ जाएंगे:

अजगर सूची के साथ एक सरल 1-डी सरणी

Example

x = nd.array([1,2,3,4,5,6,7,8,9,10])
print(x)

Output

उत्पादन निम्नानुसार है -

[ 1. 2. 3. 4. 5. 6. 7. 8. 9. 10.]
<NDArray 10 @cpu(0)>

एक अजगर सूची के साथ एक 2-डी सरणी

Example

y = nd.array([[1,2,3,4,5,6,7,8,9,10], [1,2,3,4,5,6,7,8,9,10], [1,2,3,4,5,6,7,8,9,10]])
print(y)

Output

उत्पादन निम्नानुसार है -

[[ 1. 2. 3. 4. 5. 6. 7. 8. 9. 10.]
[ 1. 2. 3. 4. 5. 6. 7. 8. 9. 10.]
[ 1. 2. 3. 4. 5. 6. 7. 8. 9. 10.]]
<NDArray 3x10 @cpu(0)>

बिना किसी आरंभ के एक NDArray बनाना

यहां, हम उपयोग करके 3 पंक्तियों और 4 स्तंभों के साथ एक मैट्रिक्स बनाएंगे .emptyसमारोह। हम भी उपयोग करेंगे.full फ़ंक्शन, जो कि आप सरणी में किस मूल्य को भरना चाहते हैं, के लिए एक अतिरिक्त ऑपरेटर ले जाएगा।

Example

x = nd.empty((3, 4))
print(x)
x = nd.full((3,4), 8)
print(x)

Output

उत्पादन नीचे दिया गया है -

[[0.000e+00 0.000e+00 0.000e+00 0.000e+00]
 [0.000e+00 0.000e+00 2.887e-42 0.000e+00]
 [0.000e+00 0.000e+00 0.000e+00 0.000e+00]]
<NDArray 3x4 @cpu(0)>

[[8. 8. 8. 8.]
 [8. 8. 8. 8.]
 [8. 8. 8. 8.]]
<NDArray 3x4 @cpu(0)>

.Zeros फ़ंक्शन के साथ सभी शून्य का मैट्रिक्स

Example

x = nd.zeros((3, 8))
print(x)

Output

आउटपुट इस प्रकार है -

[[0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0.]]
<NDArray 3x8 @cpu(0)>

.Ones फ़ंक्शन के साथ सभी का मैट्रिक्स

Example

x = nd.ones((3, 8))
print(x)

Output

उत्पादन का उल्लेख नीचे दिया गया है -

[[1. 1. 1. 1. 1. 1. 1. 1.]
   [1. 1. 1. 1. 1. 1. 1. 1.]
   [1. 1. 1. 1. 1. 1. 1. 1.]]
<NDArray 3x8 @cpu(0)>

सरणी बनाना जिसका मान अनियमित रूप से नमूना लिया जाता है

Example

y = nd.random_normal(0, 1, shape=(3, 4))
print(y)

Output

उत्पादन नीचे दिया गया है -

[[ 1.2673576 -2.0345826 -0.32537818 -1.4583491 ]
 [-0.11176403 1.3606371 -0.7889914 -0.17639421]
 [-0.2532185 -0.42614475 -0.12548696 1.4022992 ]]
<NDArray 3x4 @cpu(0)>

प्रत्येक NDArray का आयाम खोजना

Example

y.shape

Output

आउटपुट इस प्रकार है -

(3, 4)

प्रत्येक NDArray के आकार का पता लगाना

Example

y.size

Output

12

प्रत्येक NDArray का डेटाटाइप ढूँढना

Example

y.dtype

Output

numpy.float32

NDArray संचालन

इस खंड में, हम आपको MXNet के सरणी संचालन से परिचित कराएँगे। NDArray बड़ी संख्या में मानक गणितीय के साथ-साथ इन-प्लेस संचालन का समर्थन करता है।

मानक गणितीय संचालन

NDArray द्वारा समर्थित मानक गणितीय संचालन निम्नलिखित हैं -

तत्व-वार जोड़

सबसे पहले, हमें MXNet से MXNet और ndarray को निम्नानुसार आयात करना होगा:

import mxnet as mx
from mxnet import nd
x = nd.ones((3, 5))
y = nd.random_normal(0, 1, shape=(3, 5))
print('x=', x)
print('y=', y)
x = x + y
print('x = x + y, x=', x)

Output

उत्पादन के साथ दी गई है -

x=
[[1. 1. 1. 1. 1.]
[1. 1. 1. 1. 1.]
[1. 1. 1. 1. 1.]]
<NDArray 3x5 @cpu(0)>
y=
[[-1.0554522 -1.3118273 -0.14674698 0.641493 -0.73820823]
[ 2.031364 0.5932667 0.10228804 1.179526 -0.5444829 ]
[-0.34249446 1.1086396 1.2756858 -1.8332436 -0.5289873 ]]
<NDArray 3x5 @cpu(0)>
x = x + y, x=
[[-0.05545223 -0.3118273 0.853253 1.6414931 0.26179177]
[ 3.031364 1.5932667 1.102288 2.1795259 0.4555171 ]
[ 0.6575055 2.1086397 2.2756858 -0.8332436 0.4710127 ]]
<NDArray 3x5 @cpu(0)>

तत्व-वार गुणा

Example

x = nd.array([1, 2, 3, 4])
y = nd.array([2, 2, 2, 1])
x * y

Output

आप निम्न आउटपुट देखेंगे

[2. 4. 6. 4.]
<NDArray 4 @cpu(0)>

घातांक

Example

nd.exp(x)

Output

जब आप कोड चलाते हैं, तो आपको निम्न आउटपुट दिखाई देगा:

[ 2.7182817 7.389056 20.085537 54.59815 ]
<NDArray 4 @cpu(0)>

मैट्रिक्स मैट्रिक्स-मैट्रिक्स उत्पाद की गणना करने के लिए मैट्रिक्स पारगमन

Example

nd.dot(x, y.T)

Output

नीचे दिए गए कोड का उत्पादन है -

[16.]
<NDArray 1 @cpu(0)>

जगह-जगह संचालन

हर बार, उपरोक्त उदाहरण में, हमने एक ऑपरेशन चलाया, हमने इसके परिणाम की मेजबानी के लिए एक नई मेमोरी आवंटित की।

उदाहरण के लिए, यदि हम A = A + B लिखते हैं, तो हम उस मैट्रिक्स को निष्क्रिय कर देंगे जिसका उपयोग A इंगित करता था और इसके बजाय इसे नई आवंटित मेमोरी में इंगित करता था। आइए इसे नीचे दिए गए उदाहरण से समझते हैं, पायथन की आईडी () फ़ंक्शन का उपयोग करते हुए -

print('y=', y)
print('id(y):', id(y))
y = y + x
print('after y=y+x, y=', y)
print('id(y):', id(y))

Output

निष्पादन के बाद, आपको निम्न आउटपुट प्राप्त होंगे -

y=
[2. 2. 2. 1.]
<NDArray 4 @cpu(0)>
id(y): 2438905634376
after y=y+x, y=
[3. 4. 5. 5.]
<NDArray 4 @cpu(0)>
id(y): 2438905685664

वास्तव में, हम परिणाम को पहले से आवंटित सरणी में भी निर्दिष्ट कर सकते हैं -

print('x=', x)
z = nd.zeros_like(x)
print('z is zeros_like x, z=', z)
print('id(z):', id(z))
print('y=', y)
z[:] = x + y
print('z[:] = x + y, z=', z)
print('id(z) is the same as before:', id(z))

Output

उत्पादन नीचे दिखाया गया है -

x=
[1. 2. 3. 4.]
<NDArray 4 @cpu(0)>
z is zeros_like x, z=
[0. 0. 0. 0.]
<NDArray 4 @cpu(0)>
id(z): 2438905790760
y=
[3. 4. 5. 5.]
<NDArray 4 @cpu(0)>
z[:] = x + y, z=
[4. 6. 8. 9.]
<NDArray 4 @cpu(0)>
id(z) is the same as before: 2438905790760

उपरोक्त आउटपुट से, हम देख सकते हैं कि x + y अभी भी z को कॉपी करने से पहले परिणाम को संग्रहीत करने के लिए एक अस्थायी बफर आवंटित करेगा। इसलिए अब, हम मेमोरी का बेहतर उपयोग करने और अस्थायी बफर से बचने के लिए इन-प्लेस का संचालन कर सकते हैं। ऐसा करने के लिए, हम कीवर्ड तर्क को प्रत्येक ऑपरेटर समर्थन को निम्नानुसार निर्दिष्ट करेंगे -

print('x=', x, 'is in id(x):', id(x))
print('y=', y, 'is in id(y):', id(y))
print('z=', z, 'is in id(z):', id(z))
nd.elemwise_add(x, y, out=z)
print('after nd.elemwise_add(x, y, out=z), x=', x, 'is in id(x):', id(x))
print('after nd.elemwise_add(x, y, out=z), y=', y, 'is in id(y):', id(y))
print('after nd.elemwise_add(x, y, out=z), z=', z, 'is in id(z):', id(z))

Output

उपरोक्त कार्यक्रम निष्पादित करने पर, आपको निम्नलिखित परिणाम मिलेगा -

x=
[1. 2. 3. 4.]
<NDArray 4 @cpu(0)> is in id(x): 2438905791152
y=
[3. 4. 5. 5.]
<NDArray 4 @cpu(0)> is in id(y): 2438905685664
z=
[4. 6. 8. 9.]
<NDArray 4 @cpu(0)> is in id(z): 2438905790760
after nd.elemwise_add(x, y, out=z), x=
[1. 2. 3. 4.]
<NDArray 4 @cpu(0)> is in id(x): 2438905791152
after nd.elemwise_add(x, y, out=z), y=
[3. 4. 5. 5.]
<NDArray 4 @cpu(0)> is in id(y): 2438905685664
after nd.elemwise_add(x, y, out=z), z=
[4. 6. 8. 9.]
<NDArray 4 @cpu(0)> is in id(z): 2438905790760

NDArray संदर्भ

Apache MXNet में, प्रत्येक सरणी में एक संदर्भ होता है और एक संदर्भ CPU हो सकता है, जबकि अन्य संदर्भों में कई GPU हो सकते हैं। जब हम एक से अधिक सर्वर पर काम करते हैं तो चीजें और भी खराब हो सकती हैं। इसीलिए, हमें बुद्धिमानी से संदर्भों के लिए सरणियाँ देने की आवश्यकता है। यह उपकरणों के बीच डेटा स्थानांतरित करने में लगने वाले समय को कम कर देगा।

उदाहरण के लिए, एक सरणी को आरंभीकृत करने का प्रयास करें -

from mxnet import nd
z = nd.ones(shape=(3,3), ctx=mx.cpu(0))
print(z)

Output

जब आप उपरोक्त कोड निष्पादित करते हैं, तो आपको निम्नलिखित आउटपुट देखना चाहिए -

[[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]]
<NDArray 3x3 @cpu(0)>

हम दिए गए NDArray को एक संदर्भ से दूसरे संदर्भ में कॉपीटो () विधि का उपयोग करके कॉपी कर सकते हैं -

x_gpu = x.copyto(gpu(0))
print(x_gpu)

NumPy सरणी बनाम NDArray

हम सभी NumPy सरणियों से परिचित हैं, लेकिन Apache MXNet NDArray नाम से अपना ऐरे कार्यान्वयन प्रदान करता है। वास्तव में, यह शुरू में NumPy के समान डिजाइन किया गया था लेकिन एक महत्वपूर्ण अंतर है -

महत्वपूर्ण अंतर न्यूम्रे और एनडीएआरआरई में गणना के तरीके से निष्पादित होता है। MXNet में हर NDArray हेरफेर अतुल्यकालिक और गैर-अवरुद्ध तरीके से किया जाता है, जिसका अर्थ है कि, जब हम c = a * b जैसे कोड लिखते हैं, तो फ़ंक्शन को धक्का दिया जाता है।Execution Engine, जो गणना शुरू करेगा।

यहाँ, a और b दोनों NDArrays हैं। इसका उपयोग करने का लाभ यह है कि, फ़ंक्शन तुरंत वापस आ जाता है, और उपयोगकर्ता धागा इस तथ्य के बावजूद निष्पादन जारी रख सकता है कि पिछली गणना अभी तक पूरी नहीं हुई है।

निष्पादन इंजन का कार्य

अगर हम निष्पादन इंजन के काम के बारे में बात करते हैं, तो यह गणना ग्राफ बनाता है। गणना ग्राफ कुछ गणनाओं को फिर से व्यवस्थित या संयोजित कर सकता है, लेकिन यह हमेशा निर्भरता क्रम का सम्मान करता है।

उदाहरण के लिए, यदि प्रोग्रामिंग कोड में बाद में किए गए 'X' के साथ अन्य हेरफेर होते हैं, तो एक्ज़ेक्यूशन इंजन 'X' का परिणाम उपलब्ध होते ही उन्हें करना शुरू कर देगा। निष्पादन इंजन उपयोगकर्ताओं के लिए कुछ महत्वपूर्ण कामों को संभालेगा, जैसे कि बाद के कोड का निष्पादन शुरू करने के लिए कॉलबैक लिखना।

अपाचे MXNet में, NDArray की मदद से, संगणना का परिणाम प्राप्त करने के लिए हमें केवल परिणामी चर का उपयोग करना होगा। कोड के प्रवाह को अवरुद्ध किया जाएगा जब तक कि गणना परिणाम परिणामी चर को नहीं सौंपा जाएगा। इस तरह, यह अनिवार्य प्रोग्रामिंग मोड का समर्थन करते हुए कोड प्रदर्शन को बढ़ाता है।

NDArray को NumPy Array में परिवर्तित करना

आइए जानें कि हम एमएक्सनेट में एनडीएआरई को न्यूपीयर एरे में कैसे बदल सकते हैं।

Combining higher-level operator with the help of few lower-level operators

कभी-कभी, हम मौजूदा ऑपरेटरों का उपयोग करके एक उच्च-स्तरीय ऑपरेटर को इकट्ठा कर सकते हैं। इसका एक सबसे अच्छा उदाहरण है,np.full_like()ऑपरेटर, जो NDArray API में नहीं है। इसे आसानी से मौजूदा ऑपरेटरों के संयोजन से प्रतिस्थापित किया जा सकता है:

from mxnet import nd
import numpy as np
np_x = np.full_like(a=np.arange(7, dtype=int), fill_value=15)
nd_x = nd.ones(shape=(7,)) * 15
np.array_equal(np_x, nd_x.asnumpy())

Output

हमें आउटपुट इस प्रकार मिलेगा -

True

Finding similar operator with different name and/or signature

सभी ऑपरेटरों के बीच, उनमें से कुछ का नाम थोड़ा अलग है, लेकिन वे कार्यक्षमता के मामले में समान हैं। इसका एक उदाहरण हैnd.ravel_index() साथ में np.ravel()कार्य करता है। उसी तरह, कुछ ऑपरेटरों के नाम समान हो सकते हैं, लेकिन उनके अलग-अलग हस्ताक्षर हैं। इसका एक उदाहरण हैnp.split() तथा nd.split() समान है।

आइए इसे निम्नलिखित प्रोग्रामिंग उदाहरण से समझते हैं:

def pad_array123(data, max_length):
data_expanded = data.reshape(1, 1, 1, data.shape[0])
data_padded = nd.pad(data_expanded,
mode='constant',
pad_width=[0, 0, 0, 0, 0, 0, 0, max_length - data.shape[0]],
constant_value=0)
data_reshaped_back = data_padded.reshape(max_length)
return data_reshaped_back
pad_array123(nd.array([1, 2, 3]), max_length=10)

Output

उत्पादन नीचे बताया गया है -

[1. 2. 3. 0. 0. 0. 0. 0. 0. 0.]
<NDArray 10 @cpu(0)>

अवरुद्ध कॉल के प्रभाव को कम करना

कुछ मामलों में, हमें या तो उपयोग करना होगा .asnumpy() या .asscalar()तरीके, लेकिन यह एमएक्सनेट को निष्पादन को अवरुद्ध करने के लिए मजबूर करेगा, जब तक कि परिणाम को पुनः प्राप्त नहीं किया जा सकता है। हम कॉल करके अवरुद्ध कॉल के प्रभाव को कम कर सकते हैं.asnumpy() या .asscalar() ऐसे क्षणों में, जब हमें लगता है कि इस मूल्य की गणना पहले ही की जा चुकी है।

कार्यान्वयन उदाहरण

Example

from __future__ import print_function
import mxnet as mx
from mxnet import gluon, nd, autograd
from mxnet.ndarray import NDArray
from mxnet.gluon import HybridBlock
import numpy as np

class LossBuffer(object):
   """
   Simple buffer for storing loss value
   """
   
   def __init__(self):
      self._loss = None

   def new_loss(self, loss):
      ret = self._loss
      self._loss = loss
      return ret

      @property
      def loss(self):
         return self._loss

net = gluon.nn.Dense(10)
ce = gluon.loss.SoftmaxCELoss()
net.initialize()
data = nd.random.uniform(shape=(1024, 100))
label = nd.array(np.random.randint(0, 10, (1024,)), dtype='int32')
train_dataset = gluon.data.ArrayDataset(data, label)
train_data = gluon.data.DataLoader(train_dataset, batch_size=128, shuffle=True, num_workers=2)
trainer = gluon.Trainer(net.collect_params(), optimizer='sgd')
loss_buffer = LossBuffer()
for data, label in train_data:
   with autograd.record():
      out = net(data)
      # This call saves new loss and returns previous loss
      prev_loss = loss_buffer.new_loss(ce(out, label))
   loss_buffer.loss.backward()
   trainer.step(data.shape[0])
   if prev_loss is not None:
      print("Loss: {}".format(np.mean(prev_loss.asnumpy())))

Output

आउटपुट नीचे उद्धृत है:

Loss: 2.3373236656188965
Loss: 2.3656985759735107
Loss: 2.3613128662109375
Loss: 2.3197104930877686
Loss: 2.3054862022399902
Loss: 2.329197406768799
Loss: 2.318927526473999