PyTorch - त्वरित गाइड

पायथन को पाइथन के लिए एक ओपन सोर्स मशीन लर्निंग लाइब्रेरी के रूप में परिभाषित किया गया है। इसका उपयोग प्राकृतिक भाषा प्रसंस्करण जैसे अनुप्रयोगों के लिए किया जाता है। यह शुरू में फेसबुक कृत्रिम-बुद्धिमत्ता अनुसंधान समूह और उबेर के पायरो प्रोबेबिलिस्टिक प्रोग्रामिंग के लिए सॉफ्टवेयर द्वारा विकसित किया गया है जो इस पर बनाया गया है।

मूल रूप से, PyTorch को ह्यूग पर्किन्स ने मशाल ढांचे के आधार पर LusJIT के लिए पायथन रैपर के रूप में विकसित किया था। दो प्योरटेक वैरिएंट हैं।

PyTorch ने बैकएंड कोड के लिए एक ही कोर C लाइब्रेरी को साझा करते हुए पायथन में टार्च को फिर से डिज़ाइन और कार्यान्वित किया। पायथन डेवलपर्स ने पायथन को कुशलता से चलाने के लिए इस बैक-एंड कोड को ट्यून किया। उन्होंने GPU आधारित हार्डवेयर त्वरण के साथ-साथ Lua- आधारित मशाल बनाने वाली एक्स्टेंसिबिलिटी सुविधाओं को भी रखा।

विशेषताएं

PyTorch की प्रमुख विशेषताएं नीचे उल्लिखित हैं -

Easy Interface- PyTorch API का उपयोग करना आसान बनाता है; इसलिए इसे संचालित करने के लिए बहुत सरल माना जाता है और पायथन पर चलता है। इस ढांचे में कोड निष्पादन काफी आसान है।

Python usage- इस लाइब्रेरी को पाइथोनिक माना जाता है जो पाइथन डेटा साइंस स्टैक के साथ आसानी से एकीकृत हो जाता है। इस प्रकार, यह पायथन पर्यावरण द्वारा दी जाने वाली सभी सेवाओं और कार्यात्मकताओं का लाभ उठा सकता है।

Computational graphs- PyTorch एक उत्कृष्ट मंच प्रदान करता है जो गतिशील कम्प्यूटेशनल रेखांकन प्रदान करता है। इस प्रकार एक उपयोगकर्ता रनटाइम के दौरान उन्हें बदल सकता है। यह बहुत उपयोगी है जब एक डेवलपर को यह पता नहीं होता है कि न्यूरल नेटवर्क मॉडल बनाने के लिए कितनी मेमोरी की आवश्यकता है।

PyTorch को नीचे दिए गए अनुसार अमूर्त के तीन स्तर होने के लिए जाना जाता है -

  • Tensor - Imperative n-आयामी सरणी जो GPU पर चलती है।

  • परिवर्तनीय - कम्प्यूटेशनल ग्राफ में नोड। यह डेटा और ग्रेडिएंट को स्टोर करता है।

  • मॉड्यूल - तंत्रिका नेटवर्क परत जो राज्य या सीखने योग्य भार को संग्रहीत करेगा।

PyTorch के लाभ

निम्नलिखित PyTorch के फायदे हैं -

  • कोड को डीबग करना और समझना आसान है।

  • इसमें मशाल के रूप में कई परतें शामिल हैं।

  • इसमें बहुत सारे नुकसान कार्य शामिल हैं।

  • इसे GPU के लिए NumPy एक्सटेंशन माना जा सकता है।

  • यह उन नेटवर्कों के निर्माण की अनुमति देता है जिनकी संरचना कम्प्यूटेशन पर ही निर्भर है।

टेंसोरफ्लो बनाम पिएटोर

हम नीचे TensorFlow और PyTorch के बीच प्रमुख अंतरों पर गौर करेंगे -

PyTorch TensorFlow

PyTorch, Lua- आधारित मशाल ढांचे से निकटता से जुड़ा हुआ है जो कि फेसबुक में सक्रिय रूप से उपयोग किया जाता है।

TensorFlow Google मस्तिष्क द्वारा विकसित किया गया है और Google पर सक्रिय रूप से उपयोग किया जाता है।

PyTorch अन्य प्रतिस्पर्धी प्रौद्योगिकियों की तुलना में अपेक्षाकृत नया है।

TensorFlow नया नहीं है और कई शोधकर्ताओं और उद्योग के पेशेवरों द्वारा एक जाने-माने उपकरण के रूप में माना जाता है।

PyTorch में अनिवार्य और गतिशील तरीके से सब कुछ शामिल है।

TensorFlow में संयोजन के रूप में स्थिर और गतिशील ग्राफ़ शामिल हैं।

PyTorch में कम्प्यूटिंग ग्राफ रनटाइम के दौरान परिभाषित किया गया है।

TensorFlow में कोई रन टाइम विकल्प शामिल नहीं है।

PyTorch में मोबाइल और एम्बेडेड फ्रेमवर्क के लिए चित्रित तैनाती शामिल है।

TensorFlow एम्बेडेड फ्रेमवर्क के लिए बेहतर काम करता है।

PyTorch एक लोकप्रिय गहन शिक्षण ढांचा है। इस ट्यूटोरियल में, हम "विंडोज 10" को अपना ऑपरेटिंग सिस्टम मानते हैं। एक सफल पर्यावरण सेटअप के लिए कदम इस प्रकार हैं -

चरण 1

निम्नलिखित लिंक में पैकेजों की एक सूची शामिल है जिसमें PyTorch के लिए उपयुक्त पैकेज शामिल हैं।

https://drive.google.com/drive/folders/0B-X0-FlSGfCYdTNldW02UGl4MXM

आपको बस संबंधित पैकेज डाउनलोड करने और इसे निम्न स्क्रीनशॉट में दिखाए अनुसार स्थापित करने की आवश्यकता है -

चरण 2

इसमें एनाकोंडा फ्रेमवर्क का उपयोग करके PyTorch फ्रेमवर्क की स्थापना की पुष्टि करना शामिल है।

इसके सत्यापन के लिए निम्नलिखित आदेश का उपयोग किया जाता है -

conda list

"कॉनडा सूची" उन रूपरेखाओं की सूची को दर्शाता है जो स्थापित है।

हाइलाइट किए गए भाग से पता चलता है कि PyTorch को हमारे सिस्टम में सफलतापूर्वक इंस्टॉल किया गया है।

किसी भी मशीन लर्निंग एल्गोरिदम में गणित महत्वपूर्ण है और इसमें एक विशिष्ट तरीके से डिज़ाइन किए गए सही एल्गोरिदम को प्राप्त करने के लिए गणित की विभिन्न मुख्य अवधारणाएँ शामिल हैं।

मशीन लर्निंग और डेटा साइंस के लिए गणित विषय का महत्व निम्नानुसार है -

अब, हम मशीन लर्निंग की प्रमुख गणितीय अवधारणाओं पर ध्यान केंद्रित करते हैं जो प्राकृतिक भाषा प्रसंस्करण के दृष्टिकोण से महत्वपूर्ण है -

वैक्टर

वेक्टर को संख्या की सरणी माना जाता है जो या तो निरंतर या असतत होती है और जिस स्थान में वैक्टर होते हैं उसे वेक्टर अंतरिक्ष कहा जाता है। वैक्टर के अंतरिक्ष आयाम या तो परिमित या अनंत हो सकते हैं लेकिन यह देखा गया है कि मशीन लर्निंग और डेटा विज्ञान की समस्याएं निश्चित लंबाई वाले वैक्टरों से निपटती हैं।

वेक्टर प्रतिनिधित्व नीचे दिए गए अनुसार प्रदर्शित किया गया है -

temp = torch.FloatTensor([23,24,24.5,26,27.2,23.0])
temp.size()
Output - torch.Size([6])

मशीन लर्निंग में, हम बहुआयामी डेटा से निपटते हैं। इसलिए वैक्टर बहुत महत्वपूर्ण हो जाते हैं और किसी भी भविष्यवाणी समस्या बयान के लिए इनपुट सुविधाओं के रूप में माने जाते हैं।

Scalars

स्केलरों को शून्य मान दिया जाता है जिसमें केवल एक मान होता है। जब PyTorch की बात आती है, तो इसमें शून्य आयामों के साथ एक विशेष टेंसर शामिल नहीं होता है; इसलिए घोषणा निम्नानुसार की जाएगी -

x = torch.rand(10)
x.size()
Output - torch.Size([10])

मैट्रिसेस

संरचित डेटा के अधिकांश को आमतौर पर तालिकाओं या एक विशिष्ट मैट्रिक्स के रूप में दर्शाया जाता है। हम बोस्टन हाउस प्राइस नामक एक डेटासेट का उपयोग करेंगे, जो कि पायथन स्किट-लर्न मशीन लर्निंग लाइब्रेरी में आसानी से उपलब्ध है।

boston_tensor = torch.from_numpy(boston.data)
boston_tensor.size()
Output: torch.Size([506, 13])
boston_tensor[:2]
Output:
Columns 0 to 7
0.0063 18.0000 2.3100 0.0000 0.5380 6.5750 65.2000 4.0900
0.0273 0.0000 7.0700 0.0000 0.4690 6.4210 78.9000 4.9671
Columns 8 to 12
1.0000 296.0000 15.3000 396.9000 4.9800
2.0000 242.0000 17.8000 396.9000 9.1400

तंत्रिका नेटवर्क के मुख्य सिद्धांत में मूल तत्वों का एक संग्रह शामिल है, अर्थात, कृत्रिम न्यूरॉन या परसेप्ट्रॉन। इसमें कई मूल इनपुट शामिल हैं जैसे कि X1, x2… .. xn जो बाइनरी आउटपुट का उत्पादन करता है यदि राशि सक्रियण क्षमता से अधिक है।

नमूना न्यूरॉन का योजनाबद्ध प्रतिनिधित्व नीचे उल्लेखित है -

उत्पन्न आउटपुट को सक्रियण क्षमता या पूर्वाग्रह के साथ भारित योग माना जा सकता है।

$$Output=\sum_jw_jx_j+Bias$$

ठेठ तंत्रिका नेटवर्क वास्तुकला नीचे वर्णित है -

इनपुट और आउटपुट के बीच की परतों को छिपी हुई परतों के रूप में जाना जाता है, और परतों के बीच घनत्व और प्रकार के कनेक्शन कॉन्फ़िगरेशन हैं। उदाहरण के लिए, एक पूरी तरह से जुड़े कॉन्फ़िगरेशन में L + 1 से जुड़े लेयर L के सभी न्यूरॉन्स होते हैं। अधिक स्पष्ट स्थानीयकरण के लिए, हम केवल एक स्थानीय पड़ोस को जोड़ सकते हैं, अगली परत तक, नौ न्यूरॉन्स कह सकते हैं। चित्र 1-9 घने कनेक्शन के साथ दो छिपी हुई परतों को दिखाता है।

तंत्रिका नेटवर्क के विभिन्न प्रकार इस प्रकार हैं -

फीडफॉर्वर्ड न्यूरल नेटवर्क

Feedforward तंत्रिका नेटवर्क में तंत्रिका नेटवर्क परिवार की बुनियादी इकाइयां शामिल हैं। इस प्रकार के तंत्रिका नेटवर्क में डेटा की गति इनपुट परत से आउटपुट परत तक, वर्तमान छिपी परतों के माध्यम से होती है। एक परत का आउटपुट नेटवर्क आर्किटेक्चर में किसी भी तरह के लूप पर प्रतिबंध के साथ इनपुट लेयर के रूप में कार्य करता है।

आवर्तक तंत्रिका नेटवर्क

आवर्तक तंत्रिका नेटवर्क तब होते हैं जब एक अवधि में डेटा पैटर्न में परिवर्तन होता है। आरएनएन में, एक ही परत को इनपुट मापदंडों को स्वीकार करने और निर्दिष्ट तंत्रिका नेटवर्क में आउटपुट मापदंडों को प्रदर्शित करने के लिए लागू किया जाता है।

Torch.nn पैकेज का उपयोग करके तंत्रिका नेटवर्क का निर्माण किया जा सकता है।

यह एक साधारण फीड-फ़ॉरवर्ड नेटवर्क है। यह इनपुट लेता है, एक के बाद एक कई परतों के माध्यम से इसे खिलाता है, और फिर अंत में आउटपुट देता है।

PyTorch की सहायता से, हम तंत्रिका नेटवर्क के लिए विशिष्ट प्रशिक्षण प्रक्रिया के लिए निम्नलिखित चरणों का उपयोग कर सकते हैं -

  • तंत्रिका नेटवर्क को परिभाषित करें जिसमें कुछ सीखने योग्य पैरामीटर (या वजन) हैं।
  • इनपुट के डेटासेट पर Iterate करें।
  • नेटवर्क के माध्यम से प्रक्रिया इनपुट।
  • नुकसान की गणना करें (सही होने से आउटपुट कितना दूर है)।
  • ग्रेडिएंट्स को नेटवर्क के मापदंडों में वापस लाएं।
  • आमतौर पर नीचे दिए गए अनुसार एक साधारण अद्यतन का उपयोग करके, नेटवर्क के वजन को अपडेट करें
rule: weight = weight -learning_rate * gradient

आजकल आर्टिफिशियल इंटेलिजेंस काफी हद तक ट्रेंड में है। मशीन लर्निंग और डीप लर्निंग आर्टिफिशियल इंटेलिजेंस का निर्माण करती है। नीचे दिए गए वेन आरेख मशीन सीखने और गहन सीखने के संबंध को बताते हैं।

मशीन लर्निंग

मशीन लर्निंग विज्ञान की कला है जो कंप्यूटर को डिज़ाइन किए गए और प्रोग्राम किए गए एल्गोरिदम के अनुसार कार्य करने की अनुमति देती है। कई शोधकर्ता सोचते हैं कि मशीन लर्निंग मानव-स्तरीय AI की दिशा में प्रगति करने का सबसे अच्छा तरीका है। इसमें विभिन्न प्रकार के पैटर्न शामिल हैं जैसे -

  • सुपरवाइज्ड लर्निंग पैटर्न
  • अनसर्विज्ड लर्निंग पैटर्न

ध्यान लगा के पढ़ना या सीखना

डीप लर्निंग मशीन लर्निंग का सबफील्ड है जहां संबंधित एल्गोरिदम आर्टिफिशियल न्यूरल नेटवर्क्स नामक मस्तिष्क की संरचना और कार्य से प्रेरित होते हैं।

डीप लर्निंग को लेबल किए गए डेटा और एल्गोरिदम से पर्यवेक्षित सीखने या सीखने के माध्यम से बहुत महत्व मिला है। गहरी शिक्षा में प्रत्येक एल्गोरिथ्म एक ही प्रक्रिया से गुजरता है। इसमें इनपुट के nonlinear परिवर्तन का पदानुक्रम शामिल है और आउटपुट के रूप में एक सांख्यिकीय मॉडल बनाने के लिए उपयोग करता है।

मशीन सीखने की प्रक्रिया को निम्नलिखित चरणों का उपयोग करके परिभाषित किया गया है -

  • प्रासंगिक डेटा सेट की पहचान करता है और उन्हें विश्लेषण के लिए तैयार करता है।
  • उपयोग करने के लिए एल्गोरिथ्म के प्रकार को चुनता है।
  • उपयोग किए गए एल्गोरिथ्म के आधार पर एक विश्लेषणात्मक मॉडल बनाता है।
  • मॉडल को परीक्षण डेटा सेट पर प्रशिक्षित करता है, इसे आवश्यकतानुसार संशोधित करता है।
  • परीक्षण स्कोर उत्पन्न करने के लिए मॉडल चलाता है।

इस अध्याय में, हम मशीन और डीप सीखने की अवधारणाओं के बीच प्रमुख अंतर पर चर्चा करेंगे।

डाटा की मात्रा

मशीन लर्निंग अलग-अलग मात्रा में डेटा के साथ काम करता है और मुख्य रूप से छोटी मात्रा में डेटा के लिए उपयोग किया जाता है। दूसरी ओर डीप लर्निंग कुशलता से काम करता है अगर डेटा की मात्रा तेजी से बढ़ती है। निम्नलिखित आरेख में मशीन सीखने और डेटा की मात्रा के संबंध में गहन सीखने के कार्य को दर्शाया गया है -

हार्डवेयर निर्भरताएँ

डीप लर्निंग एल्गोरिदम को पारंपरिक मशीन लर्निंग एल्गोरिदम के विपरीत उच्च अंत मशीनों पर निर्भर करने के लिए डिज़ाइन किया गया है। डीप लर्निंग एल्गोरिदम बड़ी मात्रा में मैट्रिक्स गुणन क्रिया करते हैं जिसके लिए एक विशाल हार्डवेयर समर्थन की आवश्यकता होती है।

फ़ीचर इंजीनियरिंग

फ़ीचर इंजीनियरिंग, डेटा की जटिलता को कम करने और सीखने के एल्गोरिदम के लिए दिखाई देने वाले पैटर्न बनाने के लिए डोमेन ज्ञान को निर्दिष्ट सुविधाओं में डालने की प्रक्रिया है।

उदाहरण के लिए, पारंपरिक मशीन लर्निंग पैटर्न पिक्सल्स पर फोकस करते हैं और फीचर इंजीनियरिंग प्रक्रिया के लिए आवश्यक अन्य विशेषताएँ। डीप लर्निंग एल्गोरिदम डेटा से उच्च स्तर की सुविधाओं पर ध्यान केंद्रित करता है। यह हर नई समस्या के लिए नए फीचर एक्सट्रैक्टर के विकास के कार्य को कम करता है।

PyTorch में तंत्रिका नेटवर्क बनाने और कार्यान्वित करने की एक विशेष सुविधा शामिल है। इस अध्याय में, हम एक एकल उत्पादन इकाई विकसित करने वाली एक छिपी हुई परत के साथ एक सरल तंत्रिका नेटवर्क बनाएंगे।

हम PyTorch का उपयोग करते हुए पहले तंत्रिका नेटवर्क को लागू करने के लिए निम्नलिखित चरणों का उपयोग करेंगे -

चरण 1

सबसे पहले, हमें नीचे दिए गए आदेश का उपयोग करते हुए PyTorch लाइब्रेरी को आयात करना होगा -

import torch 
import torch.nn as nn

चरण 2

नीचे दिखाए गए अनुसार तंत्रिका नेटवर्क को निष्पादित करना शुरू करने के लिए सभी परतों और बैच आकार को परिभाषित करें -

# Defining input size, hidden layer size, output size and batch size respectively
n_in, n_h, n_out, batch_size = 10, 5, 1, 10

चरण 3

जैसा कि तंत्रिका नेटवर्क में संबंधित आउटपुट डेटा प्राप्त करने के लिए इनपुट डेटा का एक संयोजन शामिल है, हम उसी प्रक्रिया का पालन करेंगे जैसे कि नीचे दिया गया है -

# Create dummy input and target tensors (data)
x = torch.randn(batch_size, n_in)
y = torch.tensor([[1.0], [0.0], [0.0], 
[1.0], [1.0], [1.0], [0.0], [0.0], [1.0], [1.0]])

चरण 4

इन-बिल्ट फ़ंक्शन की मदद से एक अनुक्रमिक मॉडल बनाएं। कोड की नीचे की पंक्तियों का उपयोग करके, एक अनुक्रमिक मॉडल बनाएं -

# Create a model
model = nn.Sequential(nn.Linear(n_in, n_h),
   nn.ReLU(),
   nn.Linear(n_h, n_out),
   nn.Sigmoid())

चरण 5

नीचे दिए गए अनुसार ग्रेडिएंट डिसेंट ऑप्टिमाइज़र की मदद से नुकसान फ़ंक्शन का निर्माण करें -

Construct the loss function
criterion = torch.nn.MSELoss()
# Construct the optimizer (Stochastic Gradient Descent in this case)
optimizer = torch.optim.SGD(model.parameters(), lr = 0.01)

चरण 6

कोड की दी गई पंक्तियों के साथ चलने वाले लूप के साथ ढाल वंश मॉडल को लागू करें -

# Gradient Descent
for epoch in range(50):
   # Forward pass: Compute predicted y by passing x to the model
   y_pred = model(x)

   # Compute and print loss
   loss = criterion(y_pred, y)
   print('epoch: ', epoch,' loss: ', loss.item())

   # Zero gradients, perform a backward pass, and update the weights.
   optimizer.zero_grad()

   # perform a backward pass (backpropagation)
   loss.backward()

   # Update the parameters
   optimizer.step()

चरण 7

उत्पन्न उत्पादन इस प्रकार है -

epoch: 0 loss: 0.2545787990093231
epoch: 1 loss: 0.2545052170753479
epoch: 2 loss: 0.254431813955307
epoch: 3 loss: 0.25435858964920044
epoch: 4 loss: 0.2542854845523834
epoch: 5 loss: 0.25421255826950073
epoch: 6 loss: 0.25413978099823
epoch: 7 loss: 0.25406715273857117
epoch: 8 loss: 0.2539947032928467
epoch: 9 loss: 0.25392240285873413
epoch: 10 loss: 0.25385022163391113
epoch: 11 loss: 0.25377824902534485
epoch: 12 loss: 0.2537063956260681
epoch: 13 loss: 0.2536346912384033
epoch: 14 loss: 0.25356316566467285
epoch: 15 loss: 0.25349172949790955
epoch: 16 loss: 0.25342053174972534
epoch: 17 loss: 0.2533493936061859
epoch: 18 loss: 0.2532784342765808
epoch: 19 loss: 0.25320762395858765
epoch: 20 loss: 0.2531369626522064
epoch: 21 loss: 0.25306645035743713
epoch: 22 loss: 0.252996027469635
epoch: 23 loss: 0.2529257833957672
epoch: 24 loss: 0.25285571813583374
epoch: 25 loss: 0.25278574228286743
epoch: 26 loss: 0.25271597504615784
epoch: 27 loss: 0.25264623761177063
epoch: 28 loss: 0.25257670879364014
epoch: 29 loss: 0.2525072991847992
epoch: 30 loss: 0.2524380087852478
epoch: 31 loss: 0.2523689270019531
epoch: 32 loss: 0.25229987502098083
epoch: 33 loss: 0.25223103165626526
epoch: 34 loss: 0.25216227769851685
epoch: 35 loss: 0.252093642950058
epoch: 36 loss: 0.25202515721321106
epoch: 37 loss: 0.2519568204879761
epoch: 38 loss: 0.251888632774353
epoch: 39 loss: 0.25182053446769714
epoch: 40 loss: 0.2517525553703308
epoch: 41 loss: 0.2516847252845764
epoch: 42 loss: 0.2516169846057892
epoch: 43 loss: 0.2515493929386139
epoch: 44 loss: 0.25148195028305054
epoch: 45 loss: 0.25141456723213196
epoch: 46 loss: 0.2513473629951477
epoch: 47 loss: 0.2512802183628082
epoch: 48 loss: 0.2512132525444031
epoch: 49 loss: 0.2511464059352875

एक गहरी शिक्षण एल्गोरिथ्म के प्रशिक्षण में निम्नलिखित चरण शामिल हैं -

  • एक डेटा पाइपलाइन का निर्माण
  • एक नेटवर्क वास्तुकला का निर्माण
  • नुकसान फ़ंक्शन का उपयोग करके आर्किटेक्चर का मूल्यांकन करना
  • एक अनुकूलन एल्गोरिथ्म का उपयोग करके नेटवर्क आर्किटेक्चर वजन का अनुकूलन

एक विशिष्ट गहरी शिक्षण एल्गोरिथ्म को प्रशिक्षित करना एक तंत्रिका नेटवर्क को कार्यात्मक ब्लॉकों में परिवर्तित करने की सटीक आवश्यकता है जैसा कि नीचे दिखाया गया है -

उपरोक्त आरेख के संबंध में, किसी भी गहन शिक्षण एल्गोरिथ्म में इनपुट डेटा प्राप्त करना, संबंधित आर्किटेक्चर का निर्माण करना शामिल है जिसमें परतों की एक गुच्छा शामिल है।

यदि आप उपरोक्त आरेख का निरीक्षण करते हैं, तो तंत्रिका नेटवर्क के वजन के अनुकूलन के संबंध में हानि फ़ंक्शन का उपयोग करके सटीकता का मूल्यांकन किया जाता है।

इस अध्याय में, हम PyTorch में सबसे अधिक इस्तेमाल किए जाने वाले कुछ शब्दों पर चर्चा करेंगे।

PyTorch NumPy

एक PyTorch टेंसर एक NumPy सरणी के समान है। एक टेंसर एक n- आयामी सरणी है और PyTorch के संबंध में, यह इन टेनर्स पर काम करने के लिए कई कार्य प्रदान करता है।

PyTorch टेंसर आमतौर पर अपने संख्यात्मक अभिकलन में तेजी लाने के लिए GPU का उपयोग करते हैं। PyTorch में बनाए गए इन टेंसरों का उपयोग यादृच्छिक डेटा के लिए दो-परत नेटवर्क को फिट करने के लिए किया जा सकता है। उपयोगकर्ता मैन्युअल रूप से नेटवर्क के माध्यम से आगे और पिछड़े पास को लागू कर सकता है।

चर और आटोग्राड

ऑटोग्रैड का उपयोग करते समय, आपके नेटवर्क का फ़ॉरवर्ड पास परिभाषित करेगा computational graph - ग्राफ में नोड्स टेन्सर होंगे, और किनारे ऐसे कार्य होंगे जो इनपुट टेंसर से आउटपुट टेंसर का उत्पादन करते हैं।

PyTorch Tensors को वैरिएबल ऑब्जेक्ट्स के रूप में बनाया जा सकता है जहाँ एक वैरिएबल कम्प्यूटेशनल ग्राफ में एक नोड का प्रतिनिधित्व करता है।

गतिशील रेखांकन

स्टेटिक ग्राफ अच्छे हैं क्योंकि उपयोगकर्ता ग्राफ को फ्रंट में ऑप्टिमाइज़ कर सकता है। यदि प्रोग्रामर एक ही ग्राफ को बार-बार उपयोग कर रहे हैं, तो यह संभावित रूप से महंगा फ्रंट-ऑप्टिमाइज़ेशन बनाए रखा जा सकता है क्योंकि एक ही ग्राफ़ बार-बार फिर से चालू हो जाता है।

उनके बीच प्रमुख अंतर यह है कि टेन्सर फ्लो के कम्प्यूटेशनल ग्राफ स्थिर हैं और पाइरॉच गतिशील कम्प्यूटेशनल ग्राफ़ का उपयोग करता है।

ऑप्टिमाइज़ेशन पैकेज

PyTorch में आशातीत पैकेज एक अनुकूलन एल्गोरिथ्म के विचार को अमूर्त करता है जो कई तरीकों से कार्यान्वित किया जाता है और आमतौर पर उपयोग किए जाने वाले अनुकूलन एल्गोरिदम के चित्र प्रदान करता है। इसे आयात विवरण के भीतर कहा जा सकता है।

बहु

मल्टीप्रोसेसिंग समान संचालन का समर्थन करता है, ताकि सभी टेंसर्स कई प्रोसेसर पर काम करें। कतार में उनका डेटा साझा की गई मेमोरी में चला जाएगा और केवल दूसरी प्रक्रिया को हैंडल भेजेगा।

PyTorch में एक टार्चविजन नामक पैकेज शामिल है जिसका उपयोग डेटासेट को लोड करने और तैयार करने के लिए किया जाता है। इसमें डेटासेट और डेटालॉडर जैसे दो बुनियादी कार्य शामिल हैं जो डेटासेट के रूपांतरण और लोडिंग में मदद करते हैं।

डेटासेट

डेटासेट को पढ़ने और दिए गए डेटासेट से डेटापॉइंट को बदलने के लिए उपयोग किया जाता है। लागू करने के लिए मूल वाक्यविन्यास नीचे उल्लिखित है -

trainset = torchvision.datasets.CIFAR10(root = './data', train = True,
   download = True, transform = transform)

DataLoader का उपयोग फेरबदल और बैच डेटा के लिए किया जाता है। इसका उपयोग मल्टीप्रोसेसिंग श्रमिकों के समानांतर डेटा को लोड करने के लिए किया जा सकता है।

trainloader = torch.utils.data.DataLoader(trainset, batch_size = 4,
   shuffle = True, num_workers = 2)

उदाहरण: लोड हो रहा है CSV फ़ाइल

हम csv फ़ाइल को लोड करने के लिए पायथन पैकेज पांडा का उपयोग करते हैं। मूल फ़ाइल में निम्न प्रारूप है: (छवि नाम, 68 स्थल - प्रत्येक मील का पत्थर कुल्हाड़ी, y निर्देशांक है)।

landmarks_frame = pd.read_csv('faces/face_landmarks.csv')

n = 65
img_name = landmarks_frame.iloc[n, 0]
landmarks = landmarks_frame.iloc[n, 1:].as_matrix()
landmarks = landmarks.astype('float').reshape(-1, 2)

इस अध्याय में, हम TensorFlow का उपयोग करके रैखिक प्रतिगमन कार्यान्वयन के मूल उदाहरण पर ध्यान केंद्रित करेंगे। लॉजिस्टिक रिग्रेशन या लीनियर रिग्रेशन ऑर्डर डिसक्रीट श्रेणियों के वर्गीकरण के लिए एक पर्यवेक्षित मशीन लर्निंग अप्रोच है। इस अध्याय में हमारा लक्ष्य एक मॉडल का निर्माण करना है जिसके द्वारा एक उपयोगकर्ता भविष्यवक्ता चर और एक या अधिक स्वतंत्र चर के बीच संबंधों की भविष्यवाणी कर सकता है।

इन दो चर के बीच संबंध को रैखिक माना जाता है अर्थात, यदि y निर्भर चर है और x को स्वतंत्र चर के रूप में माना जाता है, तो दो चर के रैखिक प्रतिगमन संबंध समीकरण की तरह दिखेगा जो नीचे उल्लेखित है -

Y = Ax+b

अगला, हम रैखिक प्रतिगमन के लिए एक एल्गोरिथ्म डिजाइन करेंगे जो हमें नीचे दिए गए दो महत्वपूर्ण अवधारणाओं को समझने की अनुमति देता है -

  • लागत कार्य
  • ग्रेडिएंट डिसेंट अल्गोरिथम

रैखिक प्रतिगमन का योजनाबद्ध प्रतिनिधित्व नीचे वर्णित है

परिणाम की व्याख्या करना

$$Y=ax+b$$

  • का मूल्य a ढलान है।

  • का मूल्य b है y − intercept

  • r है correlation coefficient

  • r2 है correlation coefficient

रेखीय प्रतिगमन के समीकरण का ग्राफिकल दृश्य नीचे उल्लिखित है -

निम्नलिखित चरणों का उपयोग PyTorch का उपयोग करके रैखिक प्रतिगमन को लागू करने के लिए किया जाता है -

चरण 1

नीचे दिए गए कोड का उपयोग करके PyTorch में एक रेखीय प्रतिगमन बनाने के लिए आवश्यक पैकेजों को आयात करें -

import numpy as np
import matplotlib.pyplot as plt
from matplotlib.animation import FuncAnimation
import seaborn as sns
import pandas as pd
%matplotlib inline

sns.set_style(style = 'whitegrid')
plt.rcParams["patch.force_edgecolor"] = True

चरण 2

नीचे दिखाए गए अनुसार उपलब्ध डेटा सेट के साथ एकल प्रशिक्षण सेट बनाएं -

m = 2 # slope
c = 3 # interceptm = 2 # slope
c = 3 # intercept
x = np.random.rand(256)

noise = np.random.randn(256) / 4

y = x * m + c + noise

df = pd.DataFrame()
df['x'] = x
df['y'] = y

sns.lmplot(x ='x', y ='y', data = df)

चरण 3

नीचे वर्णित के रूप में PyTorch पुस्तकालयों के साथ रैखिक प्रतिगमन को लागू करें -

import torch
import torch.nn as nn
from torch.autograd import Variable
x_train = x.reshape(-1, 1).astype('float32')
y_train = y.reshape(-1, 1).astype('float32')

class LinearRegressionModel(nn.Module):
   def __init__(self, input_dim, output_dim):
      super(LinearRegressionModel, self).__init__()
      self.linear = nn.Linear(input_dim, output_dim)

   def forward(self, x):
      out = self.linear(x)
      return out
input_dim = x_train.shape[1]
output_dim = y_train.shape[1]
input_dim, output_dim(1, 1)
model = LinearRegressionModel(input_dim, output_dim)
criterion = nn.MSELoss()
[w, b] = model.parameters()

def get_param_values():
   return w.data[0][0], b.data[0]

def plot_current_fit(title = ""):
plt.figure(figsize = (12,4))
plt.title(title)
plt.scatter(x, y, s = 8)
w1 = w.data[0][0]
b1 = b.data[0]
x1 = np.array([0., 1.])
y1 = x1 * w1 + b1
plt.plot(x1, y1, 'r', label = 'Current Fit ({:.3f}, {:.3f})'.format(w1, b1))
plt.xlabel('x (input)')
plt.ylabel('y (target)')
plt.legend()
plt.show()
plot_current_fit('Before training')

उत्पन्न की गई साजिश इस प्रकार है -

डीप लर्निंग मशीन लर्निंग का एक प्रभाग है और इसे हाल के दशकों में शोधकर्ताओं द्वारा उठाया गया एक महत्वपूर्ण कदम माना जाता है। गहन शिक्षण कार्यान्वयन के उदाहरणों में छवि मान्यता और भाषण मान्यता जैसे अनुप्रयोग शामिल हैं।

दो महत्वपूर्ण प्रकार के गहरे तंत्रिका नेटवर्क नीचे दिए गए हैं -

  • संवादी तंत्रिका नेटवर्क
  • आवर्तक तंत्रिका नेटवर्क।

इस अध्याय में, हम पहले प्रकार पर ध्यान केंद्रित करेंगे, अर्थात, कन्वर्सेशनल न्यूरल नेटवर्क्स (CNN)।

संवादी तंत्रिका नेटवर्क

कन्वर्सेशनल न्यूरल नेटवर्क को एरे की कई परतों के माध्यम से डेटा को प्रोसेस करने के लिए डिज़ाइन किया गया है। इस प्रकार के तंत्रिका नेटवर्क का उपयोग छवि पहचान या चेहरा पहचान जैसे अनुप्रयोगों में किया जाता है।

सीएनएन और किसी भी अन्य सामान्य तंत्रिका नेटवर्क के बीच प्राथमिक अंतर यह है कि सीएनएन इनपुट को दो आयामी सरणी के रूप में लेता है और फीचर निष्कर्षण पर ध्यान केंद्रित करने के बजाय छवियों पर सीधे संचालित होता है जो अन्य तंत्रिका नेटवर्क पर ध्यान केंद्रित करते हैं।

सीएनएन के प्रमुख दृष्टिकोण में मान्यता की समस्याओं का समाधान शामिल है। Google और फेसबुक जैसी शीर्ष कंपनियों ने मान्यता परियोजनाओं के अनुसंधान और विकास परियोजनाओं में निवेश किया है ताकि अधिक गति के साथ गतिविधियां हो सकें।

हर दृढ़ तंत्रिका नेटवर्क में तीन मूल विचार शामिल हैं -

  • स्थानीय संबंधित क्षेत्र
  • Convolution
  • Pooling

आइए हम इनमें से प्रत्येक शब्दावली को विस्तार से समझें।

स्थानीय प्रतिक्रियाशील क्षेत्र

सीएनएन स्थानिक सहसंबंधों का उपयोग करता है जो इनपुट डेटा के भीतर मौजूद हैं। तंत्रिका नेटवर्क के समवर्ती परतों में प्रत्येक कुछ इनपुट न्यूरॉन्स के जोड़ता है। इस विशिष्ट क्षेत्र को स्थानीय ग्रहणशील क्षेत्र कहा जाता है। यह केवल छिपे हुए न्यूरॉन्स पर ध्यान केंद्रित करता है। छिपे हुए न्यूरॉन निर्दिष्ट सीमा के बाहर परिवर्तनों को साकार नहीं करते हुए उल्लेखित क्षेत्र के अंदर इनपुट डेटा को संसाधित करेंगे।

स्थानीय संबंधित क्षेत्रों को उत्पन्न करने का चित्रण प्रतिनिधित्व नीचे दिया गया है -

कनवल्शन

उपरोक्त आंकड़े में, हम मानते हैं कि प्रत्येक कनेक्शन एक परत से दूसरी परत के साथ जुड़े हुए कनेक्शन के साथ छिपे हुए न्यूरॉन का एक भार सीखता है। यहां, व्यक्तिगत न्यूरॉन्स समय-समय पर एक बदलाव करते हैं। इस प्रक्रिया को "कनविक्शन" कहा जाता है।

इनपुट परत से छिपे हुए फीचर मैप में कनेक्शन की मैपिंग को "साझा भार" के रूप में परिभाषित किया गया है और इसमें शामिल पूर्वाग्रह को "साझा पूर्वाग्रह" कहा जाता है।

पूलिंग

संवैधानिक तंत्रिका नेटवर्क पूलिंग परतों का उपयोग करते हैं जो सीएनएन घोषणा के तुरंत बाद तैनात होते हैं। यह उपयोगकर्ता से इनपुट को एक फीचर मैप के रूप में लेता है जो कंसेंट नेटवर्क से बाहर आता है और एक कंडेंस्ड फीचर मैप तैयार करता है। पूलिंग परतें पिछली परतों के न्यूरॉन्स के साथ परत बनाने में मदद करती हैं।

PyTorch का कार्यान्वयन

PyTorch का उपयोग करके एक कन्वर्नल न्यूरल नेटवर्क बनाने के लिए निम्न चरणों का उपयोग किया जाता है।

चरण 1

एक सरल तंत्रिका नेटवर्क बनाने के लिए आवश्यक पैकेज आयात करें।

from torch.autograd import Variable
import torch.nn.functional as F

चरण 2

सजातीय तंत्रिका नेटवर्क के बैच प्रतिनिधित्व के साथ एक वर्ग बनाएं। इनपुट x के लिए हमारे बैच का आकार (3, 32, 32) के आयाम के साथ है।

class SimpleCNN(torch.nn.Module):
   def __init__(self):
      super(SimpleCNN, self).__init__()
      #Input channels = 3, output channels = 18
      self.conv1 = torch.nn.Conv2d(3, 18, kernel_size = 3, stride = 1, padding = 1)
      self.pool = torch.nn.MaxPool2d(kernel_size = 2, stride = 2, padding = 0)
      #4608 input features, 64 output features (see sizing flow below)
      self.fc1 = torch.nn.Linear(18 * 16 * 16, 64)
      #64 input features, 10 output features for our 10 defined classes
      self.fc2 = torch.nn.Linear(64, 10)

चरण 3

(3, 32, 32) से (18, 32, 32) में पहले कनवल्शन साइज़ के परिवर्तनों की सक्रियता की गणना करें।

आयाम का आकार (18, 32, 32) से (18, 16, 16) बदल जाता है। तंत्रिका जाल की इनपुट परत का डेटा आयाम फिर से सेट करें जिसके कारण आकार (18, 16, 16) से (1, 4608) में बदल जाता है।

स्मरण करो कि -1 इस आयाम को दूसरे दिए गए आयाम से प्रभावित करता है।

def forward(self, x):
   x = F.relu(self.conv1(x))
   x = self.pool(x)
   x = x.view(-1, 18 * 16 *16)
   x = F.relu(self.fc1(x))
   #Computes the second fully connected layer (activation applied later)
   #Size changes from (1, 64) to (1, 10)
   x = self.fc2(x)
   return(x)

आवर्तक तंत्रिका नेटवर्क एक प्रकार का गहन शिक्षण-उन्मुख एल्गोरिथ्म है जो क्रमबद्ध दृष्टिकोण का अनुसरण करता है। तंत्रिका नेटवर्क में, हम हमेशा यह मानते हैं कि प्रत्येक इनपुट और आउटपुट अन्य सभी परतों से स्वतंत्र है। इस प्रकार के तंत्रिका नेटवर्क को आवर्तक कहा जाता है क्योंकि वे क्रमबद्ध तरीके से गणितीय गणना करते हैं और एक के बाद एक कार्य पूरा करते हैं।

नीचे दिया गया आरेख पूर्ण दृष्टिकोण और आवर्तक तंत्रिका नेटवर्क के कार्य को निर्दिष्ट करता है -

उपरोक्त आकृति में, c1, c2, c3 और X1 को इनपुट के रूप में माना जाता है जिसमें कुछ छिपे हुए इनपुट मूल्य जैसे h1, h2 और h3 ओ 1 के संबंधित आउटपुट प्रदान करते हैं। अब हम पुनरावर्ती तंत्रिका नेटवर्क की सहायता से साइन लहर बनाने के लिए PyTorch को लागू करने पर ध्यान केंद्रित करेंगे।

प्रशिक्षण के दौरान, हम एक समय में एक डेटा बिंदु के साथ अपने मॉडल के लिए एक प्रशिक्षण दृष्टिकोण का पालन करेंगे। इनपुट अनुक्रम x में 20 डेटा बिंदु होते हैं, और लक्ष्य अनुक्रम को इनपुट अनुक्रम के समान माना जाता है।

चरण 1

नीचे दिए गए कोड का उपयोग करके आवर्तक तंत्रिका नेटवर्क को लागू करने के लिए आवश्यक पैकेज आयात करें -

import torch
from torch.autograd import Variable
import numpy as np
import pylab as pl
import torch.nn.init as init

चरण 2

हम मॉडल हाइपर मापदंडों को इनपुट लेयर के आकार के साथ 7 पर सेट करेंगे। लक्ष्य अनुक्रम बनाने के लिए 6 संदर्भ न्यूरॉन्स और 1 इनपुट न्यूरॉन होंगे।

dtype = torch.FloatTensor
input_size, hidden_size, output_size = 7, 6, 1
epochs = 300
seq_length = 20
lr = 0.1
data_time_steps = np.linspace(2, 10, seq_length + 1)
data = np.sin(data_time_steps)
data.resize((seq_length + 1, 1))

x = Variable(torch.Tensor(data[:-1]).type(dtype), requires_grad=False)
y = Variable(torch.Tensor(data[1:]).type(dtype), requires_grad=False)

हम प्रशिक्षण डेटा उत्पन्न करेंगे, जहां x इनपुट डेटा अनुक्रम है और y के लिए लक्ष्य अनुक्रम आवश्यक है।

चरण 3

शून्य अर्थ के साथ सामान्य वितरण का उपयोग करके आवर्तक तंत्रिका नेटवर्क में वज़न को आरंभ किया जाता है। W1 इनपुट चर की स्वीकृति का प्रतिनिधित्व करेगा और w2 आउटपुट को दर्शाएगा जो नीचे दिखाया गया है -

w1 = torch.FloatTensor(input_size, 
hidden_size).type(dtype)
init.normal(w1, 0.0, 0.4)
w1 = Variable(w1, requires_grad = True)
w2 = torch.FloatTensor(hidden_size, output_size).type(dtype)
init.normal(w2, 0.0, 0.3)
w2 = Variable(w2, requires_grad = True)

चरण 4

अब, आगे फ़ीड के लिए एक फ़ंक्शन बनाना महत्वपूर्ण है जो विशिष्ट रूप से तंत्रिका नेटवर्क को परिभाषित करता है।

def forward(input, context_state, w1, w2):
   xh = torch.cat((input, context_state), 1)
   context_state = torch.tanh(xh.mm(w1))
   out = context_state.mm(w2)
   return (out, context_state)

चरण 5

अगला कदम आवर्तक तंत्रिका नेटवर्क के साइन वेव कार्यान्वयन की प्रशिक्षण प्रक्रिया शुरू करना है। बाहरी लूप प्रत्येक लूप पर पुनरावृति करता है और आंतरिक लूप अनुक्रम के तत्व के माध्यम से पुनरावृत्त करता है। यहां, हम मीन स्क्वायर एरर (MSE) की गणना भी करेंगे जो निरंतर चर की भविष्यवाणी में मदद करता है।

for i in range(epochs):
   total_loss = 0
   context_state = Variable(torch.zeros((1, hidden_size)).type(dtype), requires_grad = True)
   for j in range(x.size(0)):
      input = x[j:(j+1)]
      target = y[j:(j+1)]
      (pred, context_state) = forward(input, context_state, w1, w2)
      loss = (pred - target).pow(2).sum()/2
      total_loss += loss
      loss.backward()
      w1.data -= lr * w1.grad.data
      w2.data -= lr * w2.grad.data
      w1.grad.data.zero_()
      w2.grad.data.zero_()
      context_state = Variable(context_state.data)
   if i % 10 == 0:
      print("Epoch: {} loss {}".format(i, total_loss.data[0]))

context_state = Variable(torch.zeros((1, hidden_size)).type(dtype), requires_grad = False)
predictions = []

for i in range(x.size(0)):
   input = x[i:i+1]
   (pred, context_state) = forward(input, context_state, w1, w2)
   context_state = context_state
   predictions.append(pred.data.numpy().ravel()[0])

चरण 6

अब, जिस तरह से जरूरत है, साइन लहर को प्लॉट करने का समय आ गया है।

pl.scatter(data_time_steps[:-1], x.data.numpy(), s = 90, label = "Actual")
pl.scatter(data_time_steps[1:], predictions, label = "Predicted")
pl.legend()
pl.show()

उत्पादन

उपरोक्त प्रक्रिया के लिए आउटपुट निम्नानुसार है -

इस अध्याय में, हम अधिक ध्यान केंद्रित करेंगे torchvision.datasetsऔर इसके विभिन्न प्रकार। PyTorch में निम्नलिखित लोडर लोडर शामिल हैं -

  • MNIST
  • COCO (कैप्शनिंग एंड डिटेक्शन)

डेटासेट में नीचे दिए गए अधिकांश प्रकार के दो कार्य शामिल हैं -

  • Transform- एक फ़ंक्शन जो एक छवि में लेता है और मानक सामान का एक संशोधित संस्करण देता है। इन्हें रूपांतरों के साथ मिलकर बनाया जा सकता है।

  • Target_transform- एक फ़ंक्शन जो लक्ष्य लेता है और इसे बदल देता है। उदाहरण के लिए, कैप्शन स्ट्रिंग में ले जाता है और दुनिया के दसियों सूचकांकों को लौटाता है।

Mnist

निम्नलिखित MNIST डेटासेट के लिए नमूना कोड है -

dset.MNIST(root, train = TRUE, transform = NONE, 
target_transform = None, download = FALSE)

पैरामीटर निम्नानुसार हैं -

  • root - डेटासेट की रूट डायरेक्टरी जहां संसाधित डेटा मौजूद है।

  • train - ट्रू = ट्रेनिंग सेट, गलत = टेस्ट सेट

  • download - ट्रू = इंटरनेट से डेटासेट डाउनलोड करता है और इसे रूट में डालता है।

कोको

इसके लिए COCO API को इंस्टॉल करना होगा। निम्नलिखित उदाहरण PyTorch का उपयोग करके डेटासेट के COCO कार्यान्वयन को प्रदर्शित करने के लिए उपयोग किया जाता है -

import torchvision.dataset as dset
import torchvision.transforms as transforms
cap = dset.CocoCaptions(root = ‘ dir where images are’, 
annFile = ’json annotation file’,
transform = transforms.ToTensor())
print(‘Number of samples: ‘, len(cap))
print(target)

प्राप्त उत्पादन इस प्रकार है -

Number of samples: 82783
Image Size: (3L, 427L, 640L)

रूपांतरण से सीएनएन मॉडल के निर्माण के बारे में सभी बातें हैं। नेटवर्क आर्किटेक्चर में निम्नलिखित चरणों का संयोजन होगा -

  • Conv2d
  • MaxPool2d
  • रेक्टिफाइड लीनियर यूनिट
  • View
  • रैखिक परत

मॉडल को प्रशिक्षित करना

मॉडल का प्रशिक्षण एक ही प्रक्रिया है जैसे छवि वर्गीकरण समस्याएं। निम्नलिखित कोड स्निपेट प्रदान किए गए डेटासेट पर एक प्रशिक्षण मॉडल की प्रक्रिया को पूरा करता है -

def fit(epoch,model,data_loader,phase 
= 'training',volatile = False):
   if phase == 'training':
      model.train()
   if phase == 'training':
      model.train()
   if phase == 'validation':
      model.eval()
   volatile=True
   running_loss = 0.0
   running_correct = 0
   for batch_idx , (data,target) in enumerate(data_loader):
      if is_cuda:
         data,target = data.cuda(),target.cuda()
         data , target = Variable(data,volatile),Variable(target)
      if phase == 'training':
         optimizer.zero_grad()
         output = model(data)
         loss = F.nll_loss(output,target)
         running_loss + = 
         F.nll_loss(output,target,size_average = 
         False).data[0]
         preds = output.data.max(dim = 1,keepdim = True)[1]
         running_correct + = 
         preds.eq(target.data.view_as(preds)).cpu().sum()
         if phase == 'training':
            loss.backward()
            optimizer.step()
   loss = running_loss/len(data_loader.dataset)
   accuracy = 100. * running_correct/len(data_loader.dataset)
   print(f'{phase} loss is {loss:{5}.{2}} and {phase} accuracy is {running_correct}/{len(data_loader.dataset)}{accuracy:{return loss,accuracy}})

विधि में प्रशिक्षण और सत्यापन के लिए अलग-अलग तर्क शामिल हैं। विभिन्न तरीकों का उपयोग करने के दो प्राथमिक कारण हैं -

  • ट्रेन मोड में, ड्रॉपआउट मानों का प्रतिशत निकालता है, जो सत्यापन या परीक्षण चरण में नहीं होना चाहिए।

  • प्रशिक्षण मोड के लिए, हम ग्रेडिएंट्स की गणना करते हैं और मॉडल के मापदंडों के मान को बदलते हैं, लेकिन परीक्षण या सत्यापन चरणों के दौरान वापस प्रसार की आवश्यकता नहीं होती है।

इस अध्याय में, हम स्क्रैच से एक कॉन्वेंट बनाने पर ध्यान केंद्रित करेंगे। यह मशाल के साथ संबंधित कॉन्वेंट या सैंपल न्यूरल नेटवर्क बनाने में बाधा डालता है।

चरण 1

संबंधित मापदंडों के साथ एक आवश्यक वर्ग बनाएं। मापदंडों में यादृच्छिक मूल्य के साथ वजन शामिल हैं।

class Neural_Network(nn.Module):
   def __init__(self, ):
      super(Neural_Network, self).__init__()
      self.inputSize = 2
      self.outputSize = 1
      self.hiddenSize = 3
      # weights
      self.W1 = torch.randn(self.inputSize, 
      self.hiddenSize) # 3 X 2 tensor
      self.W2 = torch.randn(self.hiddenSize, self.outputSize) # 3 X 1 tensor

चरण 2

सिग्मॉइड फ़ंक्शन के साथ फ़ंक्शन के फ़ीड फॉरवर्ड पैटर्न बनाएं।

def forward(self, X):
   self.z = torch.matmul(X, self.W1) # 3 X 3 ".dot" 
   does not broadcast in PyTorch
   self.z2 = self.sigmoid(self.z) # activation function
   self.z3 = torch.matmul(self.z2, self.W2)
   o = self.sigmoid(self.z3) # final activation 
   function
   return o
   def sigmoid(self, s):
      return 1 / (1 + torch.exp(-s))
   def sigmoidPrime(self, s):
      # derivative of sigmoid
      return s * (1 - s)
   def backward(self, X, y, o):
      self.o_error = y - o # error in output
      self.o_delta = self.o_error * self.sigmoidPrime(o) # derivative of sig to error
      self.z2_error = torch.matmul(self.o_delta, torch.t(self.W2))
      self.z2_delta = self.z2_error * self.sigmoidPrime(self.z2)
      self.W1 + = torch.matmul(torch.t(X), self.z2_delta)
      self.W2 + = torch.matmul(torch.t(self.z2), self.o_delta)

चरण 3

नीचे दिए गए अनुसार एक प्रशिक्षण और भविष्यवाणी मॉडल बनाएं -

def train(self, X, y):
   # forward + backward pass for training
   o = self.forward(X)
   self.backward(X, y, o)
def saveWeights(self, model):
   # Implement PyTorch internal storage functions
   torch.save(model, "NN")
   # you can reload model with all the weights and so forth with:
   # torch.load("NN")
def predict(self):
   print ("Predicted data based on trained weights: ")
   print ("Input (scaled): \n" + str(xPredicted))
   print ("Output: \n" + str(self.forward(xPredicted)))

संवैधानिक तंत्रिका नेटवर्क में एक प्राथमिक विशेषता शामिल होती है, extraction। निम्नलिखित चरणों का उपयोग दृढ़ तंत्रिका नेटवर्क की सुविधा निष्कर्षण को लागू करने के लिए किया जाता है।

चरण 1

"PyTorch" के साथ फीचर निष्कर्षण मॉडल बनाने के लिए संबंधित मॉडल आयात करें।

import torch
import torch.nn as nn
from torchvision import models

चरण 2

फ़ीचर एक्सट्रैक्टर की एक क्लास बनाएं, जिसे ज़रूरत पड़ने पर बुलाया जा सके।

class Feature_extractor(nn.module):
   def forward(self, input):
      self.feature = input.clone()
      return input
new_net = nn.Sequential().cuda() # the new network
target_layers = [conv_1, conv_2, conv_4] # layers you want to extract`
i = 1
for layer in list(cnn):
   if isinstance(layer,nn.Conv2d):
      name = "conv_"+str(i)
      art_net.add_module(name,layer)
      if name in target_layers:
         new_net.add_module("extractor_"+str(i),Feature_extractor())
      i+=1
   if isinstance(layer,nn.ReLU):
      name = "relu_"+str(i)
      new_net.add_module(name,layer)
   if isinstance(layer,nn.MaxPool2d):
      name = "pool_"+str(i)
      new_net.add_module(name,layer)
new_net.forward(your_image)
print (new_net.extractor_3.feature)

इस अध्याय में, हम डेटा विज़ुअलाइज़ेशन मॉडल पर कन्टेंट की मदद से ध्यान केंद्रित करेंगे। पारंपरिक तंत्रिका नेटवर्क के साथ दृश्य की एक आदर्श तस्वीर प्राप्त करने के लिए निम्नलिखित चरणों की आवश्यकता होती है।

चरण 1

आवश्यक मॉड्यूल आयात करें जो पारंपरिक तंत्रिका नेटवर्क के दृश्य के लिए महत्वपूर्ण है।

import os
import numpy as np
import pandas as pd
from scipy.misc import imread
from sklearn.metrics import accuracy_score

import keras
from keras.models import Sequential, Model
from keras.layers import Dense, Dropout, Flatten, Activation, Input
from keras.layers import Conv2D, MaxPooling2D
import torch

चरण 2

प्रशिक्षण और परीक्षण डेटा के साथ संभावित यादृच्छिकता को रोकने के लिए, नीचे दिए गए कोड में दिए गए संबंधित डेटा सेट को कॉल करें -

seed = 128
rng = np.random.RandomState(seed)
data_dir = "../../datasets/MNIST"
train = pd.read_csv('../../datasets/MNIST/train.csv')
test = pd.read_csv('../../datasets/MNIST/Test_fCbTej3.csv')
img_name = rng.choice(train.filename)
filepath = os.path.join(data_dir, 'train', img_name)
img = imread(filepath, flatten=True)

चरण 3

नीचे दिए गए कोड का उपयोग करके सही तरीके से परिभाषित प्रशिक्षण और परीक्षण डेटा प्राप्त करने के लिए आवश्यक चित्र प्लॉट करें -

pylab.imshow(img, cmap ='gray')
pylab.axis('off')
pylab.show()

आउटपुट नीचे प्रदर्शित किया गया है -

इस अध्याय में, हम एक वैकल्पिक दृष्टिकोण का प्रस्ताव करते हैं जो इसके बजाय दोनों अनुक्रमों में एक एकल 2 डी दृढ़ संकल्प तंत्रिका नेटवर्क पर निर्भर करता है। हमारे नेटवर्क की प्रत्येक परत का स्रोत अब तक उत्पादित आउटपुट अनुक्रम के आधार पर स्रोत टोकन बनाता है। ध्यान देने योग्य गुण पूरे नेटवर्क में व्याप्त हैं।

यहां, हम पर ध्यान केंद्रित करेंगे creating the sequential network with specific pooling from the values included in dataset। यह प्रक्रिया "छवि मान्यता मॉड्यूल" में भी लागू की जाती है।

निम्नलिखित चरणों का उपयोग PyTorch का उपयोग करते हुए दीक्षांत के साथ एक अनुक्रम प्रसंस्करण मॉडल बनाने के लिए किया जाता है -

चरण 1

आक्षेपों का उपयोग करके अनुक्रम प्रसंस्करण के प्रदर्शन के लिए आवश्यक मॉड्यूल आयात करें।

import keras 
from keras.datasets import mnist 
from keras.models import Sequential 
from keras.layers import Dense, Dropout, Flatten 
from keras.layers import Conv2D, MaxPooling2D 
import numpy as np

चरण 2

नीचे दिए गए कोड का उपयोग करके संबंधित अनुक्रम में एक पैटर्न बनाने के लिए आवश्यक संचालन करें -

batch_size = 128 
num_classes = 10 
epochs = 12
# input image dimensions 
img_rows, img_cols = 28, 28
# the data, split between train and test sets 
(x_train, y_train), (x_test, y_test) = mnist.load_data()
x_train = x_train.reshape(60000,28,28,1) 
x_test = x_test.reshape(10000,28,28,1)
print('x_train shape:', x_train.shape) 
print(x_train.shape[0], 'train samples') 
print(x_test.shape[0], 'test samples')
y_train = keras.utils.to_categorical(y_train, num_classes) 
y_test = keras.utils.to_categorical(y_test, num_classes)

चरण 3

मॉडल को संकलित करें और नीचे दिखाए गए अनुसार पारंपरिक तंत्रिका नेटवर्क मॉडल में पैटर्न फिट करें -

model.compile(loss = 
keras.losses.categorical_crossentropy, 
optimizer = keras.optimizers.Adadelta(), metrics = 
['accuracy'])
model.fit(x_train, y_train, 
batch_size = batch_size, epochs = epochs, 
verbose = 1, validation_data = (x_test, y_test)) 
score = model.evaluate(x_test, y_test, verbose = 0) 
print('Test loss:', score[0]) 
print('Test accuracy:', score[1])

उत्पन्न उत्पादन इस प्रकार है -

इस अध्याय में, हम प्रसिद्ध शब्द एम्बेडिंग मॉडल - word2vec को समझेंगे। Word2vec मॉडल का उपयोग संबंधित मॉडल के समूह की मदद से शब्द एम्बेडिंग का उत्पादन करने के लिए किया जाता है। Word2vec मॉडल को शुद्ध C- कोड के साथ कार्यान्वित किया जाता है और ढाल को मैन्युअल रूप से गणना की जाती है।

PyTorch में word2vec मॉडल के कार्यान्वयन को निम्न चरणों में समझाया गया है -

चरण 1

नीचे उल्लिखित शब्द एम्बेडिंग में पुस्तकालयों को लागू करें -

import torch
from torch.autograd import Variable
import torch.nn as nn
import torch.nn.functional as F

चरण 2

छोड़ें शब्द का मॉडल लागू करें वर्ग को शब्द 2vec के साथ एम्बेड करना। उसमे समाविष्ट हैंemb_size, emb_dimension, u_embedding, v_embedding विशेषताओं का प्रकार।

class SkipGramModel(nn.Module):
   def __init__(self, emb_size, emb_dimension):
      super(SkipGramModel, self).__init__()
      self.emb_size = emb_size
      self.emb_dimension = emb_dimension
      self.u_embeddings = nn.Embedding(emb_size, emb_dimension, sparse=True)
      self.v_embeddings = nn.Embedding(emb_size, emb_dimension, sparse = True)
      self.init_emb()
   def init_emb(self):
      initrange = 0.5 / self.emb_dimension
      self.u_embeddings.weight.data.uniform_(-initrange, initrange)
      self.v_embeddings.weight.data.uniform_(-0, 0)
   def forward(self, pos_u, pos_v, neg_v):
      emb_u = self.u_embeddings(pos_u)
      emb_v = self.v_embeddings(pos_v)
      score = torch.mul(emb_u, emb_v).squeeze()
      score = torch.sum(score, dim = 1)
      score = F.logsigmoid(score)
      neg_emb_v = self.v_embeddings(neg_v)
      neg_score = torch.bmm(neg_emb_v, emb_u.unsqueeze(2)).squeeze()
      neg_score = F.logsigmoid(-1 * neg_score)
      return -1 * (torch.sum(score)+torch.sum(neg_score))
   def save_embedding(self, id2word, file_name, use_cuda):
      if use_cuda:
         embedding = self.u_embeddings.weight.cpu().data.numpy()
      else:
         embedding = self.u_embeddings.weight.data.numpy()
      fout = open(file_name, 'w')
      fout.write('%d %d\n' % (len(id2word), self.emb_dimension))
      for wid, w in id2word.items():
         e = embedding[wid]
         e = ' '.join(map(lambda x: str(x), e))
         fout.write('%s %s\n' % (w, e))
def test():
   model = SkipGramModel(100, 100)
   id2word = dict()
   for i in range(100):
      id2word[i] = str(i)
   model.save_embedding(id2word)

चरण 3

उचित तरीके से प्रदर्शित शब्द एम्बेडिंग मॉडल को प्राप्त करने के लिए मुख्य विधि को लागू करें।

if __name__  ==  '__main__':
   test()

डीप न्यूरल नेटवर्क में प्राकृतिक भाषा की प्रक्रिया को समझने वाली मशीन लर्निंग में सफलताओं को सक्षम करने के लिए एक विशेष सुविधा है। यह देखा गया है कि इनमें से अधिकांश मॉडल भाषा को शब्दों या पात्रों के एक सपाट अनुक्रम के रूप में मानते हैं, और एक प्रकार के मॉडल का उपयोग करते हैं जिसे आवर्तक तंत्रिका नेटवर्क या आरएनएन कहा जाता है।

कई शोधकर्ता इस निष्कर्ष पर पहुंचे कि भाषा को वाक्यांशों के पदानुक्रमित पेड़ के संबंध में सबसे अच्छा समझा जाता है। यह प्रकार पुनरावर्ती तंत्रिका नेटवर्क में शामिल है जो एक विशिष्ट संरचना को ध्यान में रखते हैं।

PyTorch की एक विशिष्ट विशेषता है जो इन जटिल प्राकृतिक भाषा प्रसंस्करण मॉडल को बहुत आसान बनाने में मदद करती है। यह कंप्यूटर विज़न के लिए मजबूत समर्थन के साथ सभी प्रकार के गहन शिक्षण के लिए एक पूरी तरह से चित्रित ढांचा है।

पुनरावर्ती तंत्रिका नेटवर्क की विशेषताएं

  • एक पुनरावर्ती तंत्रिका नेटवर्क इस तरह से बनाया गया है कि इसमें संरचनाओं जैसे विभिन्न ग्राफ के साथ भार का एक ही सेट लागू करना शामिल है।

  • नोड्स को टोपोलॉजिकल ऑर्डर में ट्रैवर्स किया गया है।

  • इस प्रकार के नेटवर्क को स्वचालित भेदभाव के रिवर्स मोड द्वारा प्रशिक्षित किया जाता है।

  • प्राकृतिक भाषा प्रसंस्करण में पुनरावर्ती तंत्रिका नेटवर्क का एक विशेष मामला शामिल है।

  • इस पुनरावर्ती तंत्रिका टेंसर नेटवर्क में पेड़ में विभिन्न रचना कार्यात्मक नोड्स शामिल हैं।

पुनरावर्ती तंत्रिका नेटवर्क का उदाहरण नीचे प्रदर्शित किया गया है -