Apache MXNet - वितरित प्रशिक्षण

यह अध्याय Apache MXNet में वितरित प्रशिक्षण के बारे में है। आइए हम यह समझकर शुरू करें कि एमएक्सईएनटी में गणना के तरीके क्या हैं।

संगणना के मोड

एमएक्सनेट, एक बहु-भाषा एमएल लाइब्रेरी, अपने उपयोगकर्ताओं को गणना के निम्नलिखित दो तरीके प्रदान करता है -

इंपीरियल मोड

अभिकलन की यह विधा NumPy API जैसे इंटरफ़ेस को उजागर करती है। उदाहरण के लिए, एमएक्सनेट में सीपीयू के साथ-साथ जीपीयू पर दसियों का निर्माण करने के लिए निम्नलिखित अनिवार्य कोड का उपयोग करें -

import mxnet as mx
tensor_cpu = mx.nd.zeros((100,), ctx=mx.cpu())
tensor_gpu= mx.nd.zeros((100,), ctx=mx.gpu(0))

जैसा कि हम ऊपर दिए गए कोड में देखते हैं, MXNets उस स्थान को निर्दिष्ट करता है, जहाँ पर या तो CPU या GPU डिवाइस में टेंसर को रखा जाता है। उपरोक्त उदाहरण में, यह स्थान पर है। 0. एमएक्सनेट डिवाइस का अविश्वसनीय उपयोग प्राप्त करते हैं, क्योंकि सभी गणना तात्कालिक रूप से होने के बजाय आलसी होती हैं।

प्रतीकात्मक विधा

यद्यपि आवश्यक मोड काफी उपयोगी है, लेकिन इस मोड की कमियों में से एक इसकी कठोरता है, अर्थात पूर्व-निर्धारित डेटा संरचनाओं के साथ-साथ सभी गणनाओं को पहले से ज्ञात करने की आवश्यकता है।

दूसरी ओर, प्रतीकात्मक मोड TensorFlow की तरह एक संगणना ग्राफ को उजागर करता है। यह MXNet को निश्चित / पूर्व-निर्धारित डेटा संरचनाओं के बजाय प्रतीकों या चर के साथ काम करने की अनुमति देकर अनिवार्य एपीआई की कमी को दूर करता है। बाद में, प्रतीकों को संचालन के एक सेट के रूप में व्याख्या की जा सकती है -

import mxnet as mx
x = mx.sym.Variable(“X”)
y = mx.sym.Variable(“Y”)
z = (x+y)
m = z/100

समानता का प्रकार

Apache MXNet वितरित प्रशिक्षण का समर्थन करता है। यह हमें तेजी से और प्रभावी प्रशिक्षण के लिए कई मशीनों का लाभ उठाने में सक्षम बनाता है।

निम्नलिखित दो तरीके हैं, जिसमें हम कई उपकरणों, सीपीयू या जीपीयू डिवाइस पर एक एनएन प्रशिक्षण का कार्यभार वितरित कर सकते हैं -

डेटा समानांतरवाद

इस तरह की समानता में, प्रत्येक डिवाइस मॉडल की एक पूरी प्रति संग्रहीत करता है और डेटासेट के एक अलग हिस्से के साथ काम करता है। डिवाइस सामूहिक रूप से एक साझा मॉडल को भी अपडेट करते हैं। हम एक मशीन पर या कई मशीनों पर सभी उपकरणों का पता लगा सकते हैं।

मॉडल समानांतरवाद

यह एक अन्य प्रकार की समानता है, जो तब काम आती है जब मॉडल इतने बड़े होते हैं कि वे डिवाइस मेमोरी में फिट नहीं होते हैं। मॉडल समानतावाद में, विभिन्न उपकरणों को मॉडल के विभिन्न भागों को सीखने का कार्य सौंपा जाता है। यहां ध्यान देने वाली बात यह है कि वर्तमान में Apache MXNet केवल एक मशीन में मॉडल समानता का समर्थन करता है।

वितरित प्रशिक्षण का कार्य

नीचे दी गई अवधारणाएं Apache MXNet में वितरित प्रशिक्षण के कार्य को समझने की कुंजी हैं -

प्रक्रियाओं के प्रकार

एक मॉडल के प्रशिक्षण को पूरा करने के लिए प्रक्रियाएं एक-दूसरे के साथ संवाद करती हैं। Apache MXNet की निम्नलिखित तीन प्रक्रियाएँ हैं -

मज़दूर

कार्यकर्ता नोड का काम प्रशिक्षण के नमूने के एक बैच पर प्रशिक्षण करना है। वर्कर नोड्स हर बैच को प्रोसेस करने से पहले सर्वर से वेट खींचेगा। बैच संसाधित होने के बाद, वर्कर नोड्स सर्वर पर ग्रेडिएंट भेजेगा।

सर्वर

एमएक्सनेट में मॉडल के मापदंडों को संग्रहीत करने और कार्यकर्ता नोड्स के साथ संवाद करने के लिए कई सर्वर हो सकते हैं।

समयबद्धक

अनुसूचक की भूमिका क्लस्टर को स्थापित करना है, जिसमें उन संदेशों का इंतजार करना शामिल है जो प्रत्येक नोड में आए हैं और नोड को किस पोर्ट को सुन रहा है। क्लस्टर स्थापित करने के बाद, शेड्यूलर सभी प्रक्रियाओं को क्लस्टर के हर दूसरे नोड के बारे में बताता है। ऐसा इसलिए है क्योंकि प्रक्रियाएं एक दूसरे के साथ संवाद कर सकती हैं। केवल एक अनुसूचक है।

केवी स्टोर

केवी दुकानों के लिए खड़ा है Key-Valueदुकान। यह मल्टी-डिवाइस प्रशिक्षण के लिए उपयोग किया जाने वाला महत्वपूर्ण घटक है। यह महत्वपूर्ण है क्योंकि, मापदंडों के लिए केवीस्टोर के साथ एक या एक से अधिक सर्वरों के माध्यम से एकल और साथ ही कई मशीनों के पार उपकरणों के मापदंडों का संचार होता है। आइए निम्नलिखित बिंदुओं की सहायता से KVStore के कार्य को समझते हैं -

  • KVStore में प्रत्येक मान a द्वारा दर्शाया गया है key और एक value

  • नेटवर्क में प्रत्येक पैरामीटर सरणी को असाइन किया गया है a key और उस पैरामीटर सरणी का वजन द्वारा संदर्भित किया जाता है value

  • उसके बाद, कार्यकर्ता नोड करता है pushएक बैच के प्रसंस्करण के बाद ढाल। वे भीpull नए बैच को संसाधित करने से पहले अद्यतन किए गए वज़न।

KVStore सर्वर की धारणा केवल वितरित प्रशिक्षण के दौरान मौजूद है और इसके वितरित मोड को कॉल करके सक्षम किया गया है mxnet.kvstore.create शब्द युक्त एक स्ट्रिंग तर्क के साथ कार्य करते हैं dist -

kv = mxnet.kvstore.create(‘dist_sync’)

कुंजी का वितरण

यह आवश्यक नहीं है कि, सभी सर्वर सभी पैरामीटर सरणी या कुंजियों को संग्रहीत करते हैं, लेकिन वे विभिन्न सर्वरों में वितरित किए जाते हैं। विभिन्न सर्वरों में कुंजियों के वितरण को KVStore द्वारा पारदर्शी रूप से नियंत्रित किया जाता है और सर्वर की विशिष्ट कुंजी को संग्रहीत करने का निर्णय यादृच्छिक रूप से किया जाता है।

KVStore, जैसा कि ऊपर चर्चा की गई है, यह सुनिश्चित करता है कि जब भी कुंजी खींची जाती है, तो इसका अनुरोध उस सर्वर पर भेजा जाता है, जिसका संबंधित मूल्य होता है। क्या होगा यदि कुछ कुंजी का मूल्य बड़ा है? उस स्थिति में, इसे विभिन्न सर्वरों में साझा किया जा सकता है।

स्प्लिट ट्रेनिंग डेटा

उपयोगकर्ताओं के रूप में, हम चाहते हैं कि प्रत्येक मशीन डेटासेट मोड के विभिन्न भागों पर काम कर रही हो, विशेष रूप से, जब डेटा समानांतर मोड में वितरित प्रशिक्षण चल रहा हो। हम जानते हैं कि, एक एकल कार्यकर्ता पर डेटा समानांतर प्रशिक्षण के लिए डेटा इटेटर द्वारा प्रदान किए गए नमूनों के एक बैच को विभाजित करने के लिए हम उपयोग कर सकते हैंmxnet.gluon.utils.split_and_load और फिर, डिवाइस पर बैच के प्रत्येक भाग को लोड करें जो इसे आगे की प्रक्रिया करेगा।

दूसरी ओर, वितरित प्रशिक्षण के मामले में, शुरुआत में हमें डाटासेट को विभाजित करने की आवश्यकता होती है nविभिन्न भागों ताकि हर कार्यकर्ता को एक अलग हिस्सा मिले। एक बार मिल जाने पर, प्रत्येक कार्यकर्ता तब उपयोग कर सकता हैsplit_and_loadएक मशीन पर अलग-अलग उपकरणों में डेटासेट के उस हिस्से को फिर से विभाजित करें। यह सब डेटा पुनरावृत्ति के माध्यम से होता है।mxnet.io.MNISTIterator तथा mxnet.io.ImageRecordIter MXNet में दो ऐसे पुनरावृत्तियाँ हैं जो इस सुविधा का समर्थन करते हैं।

अद्यतन वजन

भार अद्यतन करने के लिए, KVStore दो मोड का समर्थन करता है -

  • पहला तरीका ग्रेडिएंट्स को एकत्रित करता है और उन ग्रेडिएंट्स का उपयोग करके वेट्स को अपडेट करता है।

  • दूसरी विधि में सर्वर केवल ग्रेडिएंट्स को एकत्रित करता है।

यदि आप ग्लूऑन का उपयोग कर रहे हैं, तो ऊपर बताए गए तरीकों के बीच चयन करने का विकल्प है update_on_kvstoreचर। आइए इसे बनाकर समझते हैंtrainer वस्तु इस प्रकार है -

trainer = gluon.Trainer(net.collect_params(), optimizer='sgd',
   optimizer_params={'learning_rate': opt.lr,
      'wd': opt.wd,
      'momentum': opt.momentum,
      'multi_precision': True},
      kvstore=kv,
   update_on_kvstore=True)

वितरित प्रशिक्षण के मोड

यदि KVStore सृजन स्ट्रिंग में शब्द डिस्टर्ब है, तो इसका मतलब है कि वितरित प्रशिक्षण सक्षम है। वितरित प्रशिक्षण के विभिन्न तरीके निम्नलिखित हैं जिन्हें विभिन्न प्रकार के KVStore का उपयोग करके सक्षम किया जा सकता है -

dist_sync

जैसा कि नाम से स्पष्ट है, यह समकालिक वितरण प्रशिक्षण को दर्शाता है। इसमें, सभी कार्यकर्ता प्रत्येक बैच के प्रारंभ में मॉडल पैरामीटर के समान सिंक्रनाइज़ सेट का उपयोग करते हैं।

इस मोड का दोष यह है कि प्रत्येक बैच के बाद सर्वर को मॉडल के मापदंडों को अपडेट करने से पहले प्रत्येक कार्यकर्ता से ग्रेडिएंट प्राप्त करने के लिए इंतजार करना चाहिए। इसका अर्थ है कि यदि कोई श्रमिक दुर्घटनाग्रस्त हो जाता है, तो यह सभी श्रमिकों की प्रगति को रोक देगा।

dist_async

जैसा कि नाम से स्पष्ट है, यह समकालिक वितरण प्रशिक्षण को दर्शाता है। इसमें, सर्वर एक कार्यकर्ता से ग्रेडिएंट प्राप्त करता है और तुरंत अपने स्टोर को अपडेट करता है। सर्वर किसी भी आगे खींचने के लिए प्रतिक्रिया करने के लिए अद्यतन स्टोर का उपयोग करता है।

की तुलना में, लाभ dist_sync mode, यह है कि एक कार्यकर्ता जो एक बैच को संसाधित करता है वह सर्वर से वर्तमान मापदंडों को खींच सकता है और अगले बैच को शुरू कर सकता है। कार्यकर्ता ऐसा कर सकता है, भले ही दूसरे कर्मचारी ने पहले बैच के प्रसंस्करण को समाप्त नहीं किया हो। यह dist_sync मोड की तुलना में भी तेज़ है, क्योंकि, यह बिना किसी तुल्यकालन की लागत के अधिक समरूपता ले सकता है।

dist_sync_device

यह विधा समान है dist_syncमोड। फर्क सिर्फ इतना है, जब हर नोड पर कई GPU इस्तेमाल किए जा रहे हैंdist_sync_device जीपीयू पर ग्रेडिएटर्स और अपडेट वेट को एग्री करता है, dist_sync सीपीयू मेमोरी पर ग्रेडिएटर्स और अपडेट वेट्स को एकत्रित करता है।

यह GPU और CPU के बीच महंगे संचार को कम करता है। इसीलिए, इससे तेज हैdist_sync। दोष यह है कि यह GPU पर मेमोरी उपयोग को बढ़ाता है।

dist_async_device

यह मोड उसी तरह काम करता है dist_sync_device मोड, लेकिन अतुल्यकालिक मोड में।