पायथन के साथ एआई - डेटा तैयारी
हमने पहले से ही पर्यवेक्षित होने के साथ-साथ अनुपयोगी मशीन लर्निंग एल्गोरिदम का अध्ययन किया है। इन एल्गोरिदम को प्रशिक्षण प्रक्रिया शुरू करने के लिए स्वरूपित डेटा की आवश्यकता होती है। हमें डेटा को एक निश्चित तरीके से तैयार या प्रारूपित करना चाहिए ताकि उसे एमएल एल्गोरिदम के इनपुट के रूप में आपूर्ति की जा सके।
यह अध्याय मशीन लर्निंग एल्गोरिदम के लिए डेटा तैयार करने पर केंद्रित है।
डेटा को रोकना
अपने दैनिक जीवन में, हम बहुत सारे डेटा से निपटते हैं लेकिन यह डेटा कच्चे रूप में है। मशीन लर्निंग एल्गोरिदम के इनपुट के रूप में डेटा प्रदान करने के लिए, हमें इसे एक सार्थक डेटा में बदलने की आवश्यकता है। यह वह जगह है जहाँ डेटा प्रीप्रोसेसिंग तस्वीर में आता है। दूसरे सरल शब्दों में, हम कह सकते हैं कि मशीन लर्निंग एल्गोरिदम को डेटा प्रदान करने से पहले हमें डेटा को प्रीप्रोसेस करना होगा।
डेटा प्रीप्रोसेसिंग चरण
पायथन में डेटा को प्रीप्रोसेस करने के लिए इन चरणों का पालन करें -
Step 1 − Importing the useful packages - अगर हम पायथन का उपयोग कर रहे हैं तो यह डेटा को एक निश्चित प्रारूप में बदलने के लिए पहला कदम होगा, यानी प्रीप्रोसेसिंग। इसे निम्नानुसार किया जा सकता है -
import numpy as np
import sklearn.preprocessing
यहां हमने निम्नलिखित दो पैकेजों का उपयोग किया है -
NumPy मूल रूप से NumPy एक सामान्य उद्देश्य सरणी-प्रसंस्करण पैकेज है जिसे छोटे बहु-आयामी सरणियों के लिए बहुत अधिक गति का त्याग किए बिना मनमाने रिकॉर्ड के बड़े बहुआयामी सरणियों को कुशलतापूर्वक हेरफेर करने के लिए डिज़ाइन किया गया है।
Sklearn.preprocessing - यह पैकेज कच्चे फीचर वैक्टर को एक प्रतिनिधित्व में बदलने के लिए कई सामान्य उपयोगिता फ़ंक्शन और ट्रांसफार्मर कक्षाएं प्रदान करता है जो मशीन लर्निंग एल्गोरिदम के लिए अधिक उपयुक्त है।
Step 2 − Defining sample data - पैकेजों को आयात करने के बाद, हमें कुछ नमूना डेटा को परिभाषित करने की आवश्यकता है ताकि हम उस डेटा पर प्रीप्रोसेसिंग तकनीकों को लागू कर सकें। अब हम निम्नलिखित नमूना डेटा को परिभाषित करेंगे -
input_data = np.array([2.1, -1.9, 5.5],
[-1.5, 2.4, 3.5],
[0.5, -7.9, 5.6],
[5.9, 2.3, -5.8])
Step3 − Applying preprocessing technique - इस चरण में, हमें किसी भी प्रीप्रोसेसिंग तकनीक को लागू करने की आवश्यकता है।
निम्न अनुभाग डेटा प्रीप्रोसेसिंग तकनीकों का वर्णन करता है।
डेटा प्रीप्रोसेसिंग के लिए तकनीक
डेटा प्रीप्रोसेसिंग की तकनीकें नीचे वर्णित हैं -
binarization
यह प्रीप्रोसेसिंग तकनीक है जिसका उपयोग तब किया जाता है जब हमें अपने संख्यात्मक मूल्यों को बूलियन मूल्यों में बदलने की आवश्यकता होती है। हम निम्न तरीके से थ्रेशोल्ड मान के रूप में 0.5 का उपयोग करके इनपुट डेटा को बायनेरिज़ करने के लिए एक इनबिल्ट विधि का उपयोग कर सकते हैं -
data_binarized = preprocessing.Binarizer(threshold = 0.5).transform(input_data)
print("\nBinarized data:\n", data_binarized)
अब, उपरोक्त कोड को चलाने के बाद हम निम्नलिखित आउटपुट प्राप्त करेंगे, 0.5 (थ्रेशोल्ड वैल्यू) से ऊपर के सभी मान 1 में बदल जाएंगे और 0.5 से नीचे के सभी मान 0 में परिवर्तित हो जाएंगे।
Binarized data
[[ 1. 0. 1.]
[ 0. 1. 1.]
[ 0. 0. 1.]
[ 1. 1. 0.]]
मतलब निकालना
यह एक और बहुत ही सामान्य प्रीप्रोसेसिंग तकनीक है जिसका उपयोग मशीन लर्निंग में किया जाता है। मूल रूप से इसका उपयोग फीचर वेक्टर से माध्य को खत्म करने के लिए किया जाता है ताकि हर सुविधा शून्य पर केंद्रित हो। हम फीचर वेक्टर में सुविधाओं से पूर्वाग्रह को भी हटा सकते हैं। नमूना डेटा पर मीनिंग रिमूवल प्रीप्रोसेसिंग तकनीक को लागू करने के लिए, हम नीचे दिखाए गए पायथन कोड को लिख सकते हैं। कोड इनपुट डेटा के माध्य और मानक विचलन को प्रदर्शित करेगा -
print("Mean = ", input_data.mean(axis = 0))
print("Std deviation = ", input_data.std(axis = 0))
कोड की उपरोक्त पंक्तियाँ चलाने के बाद हमें निम्नलिखित आउटपुट मिलेंगे -
Mean = [ 1.75 -1.275 2.2]
Std deviation = [ 2.71431391 4.20022321 4.69414529]
अब, नीचे दिया गया कोड इनपुट डेटा के माध्य और मानक विचलन को हटा देगा -
data_scaled = preprocessing.scale(input_data)
print("Mean =", data_scaled.mean(axis=0))
print("Std deviation =", data_scaled.std(axis = 0))
कोड की उपरोक्त पंक्तियाँ चलाने के बाद हमें निम्नलिखित आउटपुट मिलेंगे -
Mean = [ 1.11022302e-16 0.00000000e+00 0.00000000e+00]
Std deviation = [ 1. 1. 1.]
स्केलिंग
यह एक अन्य डेटा प्रीप्रोसेसिंग तकनीक है जिसका उपयोग फीचर वैक्टर को स्केल करने के लिए किया जाता है। फीचर वैक्टर की स्केलिंग की आवश्यकता है क्योंकि हर सुविधा के मान कई यादृच्छिक मूल्यों के बीच भिन्न हो सकते हैं। दूसरे शब्दों में हम कह सकते हैं कि स्केलिंग महत्वपूर्ण है क्योंकि हम नहीं चाहते कि कोई भी सुविधा वाक्यगत रूप से बड़ी या छोटी हो। निम्नलिखित पायथन कोड की मदद से, हम अपने इनपुट डेटा की स्केलिंग कर सकते हैं, अर्थात, फीचर वेक्टर -
# Min max scaling
data_scaler_minmax = preprocessing.MinMaxScaler(feature_range=(0,1))
data_scaled_minmax = data_scaler_minmax.fit_transform(input_data)
print ("\nMin max scaled data:\n", data_scaled_minmax)
कोड की उपरोक्त पंक्तियाँ चलाने के बाद हमें निम्नलिखित आउटपुट मिलेंगे -
Min max scaled data
[ [ 0.48648649 0.58252427 0.99122807]
[ 0. 1. 0.81578947]
[ 0.27027027 0. 1. ]
[ 1. 0. 99029126 0. ]]
मानकीकरण
यह एक अन्य डेटा प्रीप्रोसेसिंग तकनीक है जिसका उपयोग फीचर वैक्टर को संशोधित करने के लिए किया जाता है। एक सामान्य पैमाने पर फीचर वैक्टर को मापने के लिए इस तरह का संशोधन आवश्यक है। अनुगमन सामान्यीकरण के दो प्रकार हैं जिनका उपयोग मशीन लर्निंग में किया जा सकता है -
L1 Normalization
इसे भी कहा जाता है Least Absolute Deviations। इस तरह का सामान्यीकरण मूल्यों को संशोधित करता है ताकि प्रत्येक पंक्ति में पूर्ण मूल्यों का योग हमेशा 1 तक हो। इसे निम्नलिखित पायथन कोड की मदद से इनपुट डेटा पर लागू किया जा सकता है -
# Normalize data
data_normalized_l1 = preprocessing.normalize(input_data, norm = 'l1')
print("\nL1 normalized data:\n", data_normalized_l1)
कोड की उपरोक्त पंक्ति निम्नलिखित आउटपुट और miuns उत्पन्न करती है;
L1 normalized data:
[[ 0.22105263 -0.2 0.57894737]
[ -0.2027027 0.32432432 0.47297297]
[ 0.03571429 -0.56428571 0.4 ]
[ 0.42142857 0.16428571 -0.41428571]]
L2 Normalization
इसे भी कहा जाता है least squares। इस तरह का सामान्यीकरण मूल्यों को संशोधित करता है ताकि वर्गों का योग हमेशा प्रत्येक पंक्ति में 1 तक हो। इसे निम्नलिखित पायथन कोड की मदद से इनपुट डेटा पर लागू किया जा सकता है -
# Normalize data
data_normalized_l2 = preprocessing.normalize(input_data, norm = 'l2')
print("\nL2 normalized data:\n", data_normalized_l2)
कोड की उपरोक्त लाइन निम्नलिखित आउटपुट उत्पन्न करेगी -
L2 normalized data:
[[ 0.33946114 -0.30713151 0.88906489]
[ -0.33325106 0.53320169 0.7775858 ]
[ 0.05156558 -0.81473612 0.57753446]
[ 0.68706914 0.26784051 -0.6754239 ]]
डेटा लेबल करना
हम पहले से ही जानते हैं कि मशीन लर्निंग एल्गोरिदम के लिए एक निश्चित प्रारूप में डेटा आवश्यक है। एक और महत्वपूर्ण आवश्यकता यह है कि डेटा को मशीन लर्निंग एल्गोरिदम के इनपुट के रूप में भेजने से पहले ठीक से लेबल किया जाना चाहिए। उदाहरण के लिए, यदि हम वर्गीकरण के बारे में बात करते हैं, तो डेटा पर बहुत सारे लेबल हैं। वे लेबल शब्द, संख्या, आदि के रूप में हैं। मशीन सीखने से संबंधित कार्यsklearnउम्मीद है कि डेटा में नंबर लेबल होना चाहिए। इसलिए, यदि डेटा अन्य रूप में है, तो उसे संख्याओं में परिवर्तित किया जाना चाहिए। शब्द लेबल को संख्यात्मक रूप में बदलने की इस प्रक्रिया को लेबल एन्कोडिंग कहा जाता है।
लेबल एन्कोडिंग चरण
पायथन में डेटा लेबल एन्कोडिंग के लिए इन चरणों का पालन करें -
Step1 − Importing the useful packages
यदि हम पायथन का उपयोग कर रहे हैं, तो यह डेटा को निश्चित प्रारूप में बदलने के लिए पहला कदम होगा, अर्थात प्रीप्रोसेसिंग। इसे निम्नानुसार किया जा सकता है -
import numpy as np
from sklearn import preprocessing
Step 2 − Defining sample labels
पैकेजों को आयात करने के बाद, हमें कुछ नमूना लेबलों को परिभाषित करने की आवश्यकता है ताकि हम लेबल एनकोडर को बना और प्रशिक्षित कर सकें। अब हम निम्नलिखित नमूना लेबल परिभाषित करेंगे -
# Sample input labels
input_labels = ['red','black','red','green','black','yellow','white']
Step 3 − Creating & training of label encoder object
इस चरण में, हमें लेबल एनकोडर बनाने और इसे प्रशिक्षित करने की आवश्यकता है। निम्नलिखित पायथन कोड ऐसा करने में मदद करेगा -
# Creating the label encoder
encoder = preprocessing.LabelEncoder()
encoder.fit(input_labels)
उपरोक्त पायथन कोड चलाने के बाद आउटपुट होगा -
LabelEncoder()
Step4 − Checking the performance by encoding random ordered list
इस चरण का उपयोग यादृच्छिक क्रमबद्ध सूची को एन्कोडिंग करके प्रदर्शन की जांच करने के लिए किया जा सकता है। पायथन कोड के बाद ऐसा करने के लिए लिखा जा सकता है -
# encoding a set of labels
test_labels = ['green','red','black']
encoded_values = encoder.transform(test_labels)
print("\nLabels =", test_labels)
लेबल निम्नानुसार मुद्रित होंगे -
Labels = ['green', 'red', 'black']
अब, हम एन्कोड किए गए मानों की सूची प्राप्त कर सकते हैं अर्थात शब्द लेबल संख्याओं में परिवर्तित हो सकते हैं -
print("Encoded values =", list(encoded_values))
एन्कोडेड मान निम्नानुसार मुद्रित हो जाएंगे -
Encoded values = [1, 2, 0]
Step 5 − Checking the performance by decoding a random set of numbers −
इस चरण का उपयोग संख्याओं के यादृच्छिक सेट को डिकोड करके प्रदर्शन की जांच करने के लिए किया जा सकता है। पायथन कोड के बाद ऐसा करने के लिए लिखा जा सकता है -
# decoding a set of values
encoded_values = [3,0,4,1]
decoded_list = encoder.inverse_transform(encoded_values)
print("\nEncoded values =", encoded_values)
अब, एन्कोडेड मान निम्नानुसार मुद्रित हो जाएंगे -
Encoded values = [3, 0, 4, 1]
print("\nDecoded labels =", list(decoded_list))
अब, डीकोड किए गए मान निम्नानुसार प्रिंट हो जाएंगे -
Decoded labels = ['white', 'black', 'yellow', 'green']
लेबल किया गया v / s अनलिस्टेड डेटा
बिना लेबल के डेटा में मुख्य रूप से प्राकृतिक या मानव निर्मित वस्तु के नमूने होते हैं जिन्हें आसानी से दुनिया से प्राप्त किया जा सकता है। उनमें ऑडियो, वीडियो, फोटो, समाचार लेख आदि शामिल हैं।
दूसरी ओर, लेबल किया गया डेटा अनलिस्टेड डेटा का एक सेट लेता है और उस टैग किए गए डेटा के प्रत्येक टुकड़े को कुछ टैग या लेबल या वर्ग के साथ संवर्धित करता है जो सार्थक है। उदाहरण के लिए, यदि हमारे पास एक फोटो है तो फोटो की सामग्री के आधार पर लेबल लगाया जा सकता है, अर्थात यह किसी लड़के या लड़की या जानवर या अन्य किसी की फोटो है। डेटा को लेबल करने के लिए मानव-रहित डेटा की आवश्यकता होती है।
ऐसे कई परिदृश्य हैं जहां गैर-सूचीबद्ध डेटा बहुतायत से और आसानी से प्राप्त होते हैं, लेकिन लेबल किए गए डेटा को अक्सर एनोटेट करने के लिए मानव / विशेषज्ञ की आवश्यकता होती है। अर्ध-पर्यवेक्षित शिक्षण बेहतर मॉडल बनाने के लिए लेबल और गैर-लेबल डेटा को संयोजित करने का प्रयास करता है।