एमएल परियोजनाओं के लिए डेटा लोड हो रहा है

मान लीजिए यदि आप एक एमएल प्रोजेक्ट शुरू करना चाहते हैं तो आपको सबसे पहले और सबसे महत्वपूर्ण बात क्या चाहिए होगी? यह वह डेटा है जिसे हमें किसी भी एमएल प्रोजेक्ट को शुरू करने के लिए लोड करने की आवश्यकता है। डेटा के संबंध में, एमएल परियोजनाओं के लिए डेटा का सबसे आम प्रारूप CSV (अल्पविराम से अलग किए गए मान) हैं।

मूल रूप से, CSV एक सरल फ़ाइल प्रारूप है, जिसका उपयोग सारणी में स्प्रेडशीट जैसे सारणीबद्ध डेटा (संख्या और पाठ) को संग्रहीत करने के लिए किया जाता है। पायथन में, हम विभिन्न तरीकों से CSV डेटा लोड कर सकते हैं लेकिन CSV डेटा लोड करने से पहले हमें कुछ विचारों पर ध्यान देना होगा।

सीएसवी डेटा लोड करते समय विचार

एमएलवी डेटा प्रारूप एमएल डेटा के लिए सबसे आम प्रारूप है, लेकिन हमें अपने एमएलए डेटा में लोड करते समय प्रमुख विचारों का पालन करने के बारे में ध्यान रखने की आवश्यकता है -

फ़ाइल हैडर

CSV डेटा फ़ाइलों में, हेडर में प्रत्येक फ़ील्ड की जानकारी होती है। हमें हेडर फ़ाइल के लिए और डेटा फ़ाइल के लिए समान सीमांकक का उपयोग करना चाहिए क्योंकि यह शीर्षलेख फ़ाइल है जो निर्दिष्ट करती है कि डेटा फ़ील्ड की व्याख्या कैसे की जानी चाहिए।

सीएसवी फ़ाइल हेडर से संबंधित दो मामले निम्नलिखित हैं जिन पर विचार किया जाना चाहिए -

  • Case-I: When Data file is having a file header - यदि डेटा फ़ाइल में फ़ाइल हेडर है, तो यह डेटा के प्रत्येक कॉलम को स्वचालित रूप से नाम निर्दिष्ट करेगा।

  • Case-II: When Data file is not having a file header - यदि डेटा फ़ाइल में फ़ाइल हेडर नहीं है, तो हमें मैन्युअल रूप से डेटा के प्रत्येक कॉलम को नाम निर्दिष्ट करने की आवश्यकता है।

दोनों ही मामलों में, हमें स्पष्ट रूप से निर्दिष्ट करना होगा कि हमारी CSV फ़ाइल में हेडर है या नहीं।

टिप्पणियाँ

किसी भी डेटा फ़ाइल में टिप्पणियाँ उनका महत्व रखती हैं। CSV डेटा फ़ाइल में, टिप्पणियों को लाइन के प्रारंभ में हैश (#) द्वारा दर्शाया जाता है। हमें एमएल परियोजनाओं में सीएसवी डेटा लोड करते समय टिप्पणियों पर विचार करने की आवश्यकता है क्योंकि अगर हम फ़ाइल में टिप्पणी कर रहे हैं, तो हमें संकेत करने की आवश्यकता हो सकती है, हम लोड करने के लिए चुनने की विधि पर निर्भर करते हैं, उन टिप्पणियों की अपेक्षा करें या नहीं।

सीमान्तक

CSV डेटा फ़ाइलों में, अल्पविराम (,) वर्ण मानक सीमांकक है। परिसीमन की भूमिका खेतों में मूल्यों को अलग करने के लिए है। CSV फ़ाइल को ML प्रोजेक्ट्स में अपलोड करते समय सीमांकक की भूमिका पर विचार करना महत्वपूर्ण है क्योंकि हम टैब या सफ़ेद स्थान जैसे भिन्न परिसीमन का भी उपयोग कर सकते हैं। लेकिन मानक एक से भिन्न परिसीमन का उपयोग करने के मामले में, हमें इसे स्पष्ट रूप से निर्दिष्ट करना होगा।

उद्धरण

CSV डेटा फ़ाइलों में, दोहरे उद्धरण ("") चिह्न डिफ़ॉल्ट उद्धरण वर्ण है। सीएसवी फ़ाइल को एमएल परियोजनाओं में अपलोड करते समय उद्धरणों की भूमिका पर विचार करना महत्वपूर्ण है क्योंकि हम दोहरे उद्धरण चिह्न के अलावा अन्य उद्धरण चरित्र का भी उपयोग कर सकते हैं। लेकिन मानक एक से भिन्न बोली वर्ण का उपयोग करने के मामले में, हमें इसे स्पष्ट रूप से निर्दिष्ट करना होगा।

CSV डेटा फ़ाइल लोड करने के तरीके

एमएल परियोजनाओं के साथ काम करते समय, सबसे महत्वपूर्ण कार्य डेटा को सही तरीके से लोड करना है। एमएल परियोजनाओं के लिए सबसे आम डेटा प्रारूप सीएसवी है और यह विभिन्न स्वादों और पार्स करने के लिए अलग-अलग कठिनाइयों में आता है। इस खंड में, हम CSV डेटा फ़ाइल को लोड करने के लिए पायथन में तीन सामान्य दृष्टिकोणों के बारे में चर्चा करने जा रहे हैं -

पायथन मानक पुस्तकालय के साथ सीएसवी लोड करें

CSV डेटा फ़ाइल को लोड करने के लिए पहला और सबसे अधिक उपयोग किया जाने वाला दृष्टिकोण पायथन मानक पुस्तकालय का उपयोग है जो हमें विभिन्न प्रकार के अंतर्निहित मॉड्यूल प्रदान करता है csv moduleऔर पाठक () फ़ंक्शन। निम्नलिखित इसकी मदद से CSV डेटा फ़ाइल लोड करने का एक उदाहरण है -

Example

इस उदाहरण में, हम आईरिस फूल डेटा सेट का उपयोग कर रहे हैं जिसे हमारे स्थानीय निर्देशिका में डाउनलोड किया जा सकता है। डेटा फ़ाइल लोड करने के बाद, हम इसे में बदल सकते हैंNumPyसरणी और एमएल परियोजनाओं के लिए इसका इस्तेमाल करते हैं। CSV डेटा फ़ाइल लोड करने के लिए पायथन स्क्रिप्ट निम्नलिखित है -

सबसे पहले, हमें पायथन मानक पुस्तकालय द्वारा दिए गए सीएसवी मॉड्यूल को निम्नानुसार आयात करना होगा -

import csv

इसके बाद, हमें लोड किए गए डेटा को NumPy सरणी में परिवर्तित करने के लिए Numpy मॉड्यूल आयात करना होगा।

import numpy as np

अब, हमारे स्थानीय निर्देशिका पर संग्रहीत फ़ाइल का पूरा पथ प्रदान करें, जिसमें CSV डेटा फ़ाइल है -

path = r"c:\iris.csv"

अगला, CSV फ़ाइल से डेटा पढ़ने के लिए csv.reader () फ़ंक्शन का उपयोग करें -

with open(path,'r') as f:
   reader = csv.reader(f,delimiter = ',')
   headers = next(reader)
   data = list(reader)
   data = np.array(data).astype(float)

हम स्क्रिप्ट की निम्नलिखित पंक्ति के साथ शीर्षलेखों के नाम प्रिंट कर सकते हैं -

print(headers)

स्क्रिप्ट की निम्न पंक्ति डेटा का आकार मुद्रित करेगी अर्थात फ़ाइल में पंक्तियों और स्तंभों की संख्या -

print(data.shape)

अगली स्क्रिप्ट लाइन डेटा फ़ाइल की पहली तीन लाइन देगी -

print(data[:3])

Output

['sepal_length', 'sepal_width', 'petal_length', 'petal_width']
(150, 4)
[  [5.1  3.5  1.4  0.2]
   [4.9  3.   1.4  0.2]
   [4.7  3.2  1.3  0.2]
]

NumPy के साथ CSV लोड करें

CSV डेटा फ़ाइल को लोड करने का एक और तरीका है NumPy और numpy.loadtxt () फ़ंक्शन। निम्नलिखित इसकी मदद से CSV डेटा फ़ाइल लोड करने का एक उदाहरण है -

उदाहरण

इस उदाहरण में, हम डायमाटिक रोगियों के डेटा वाले Pima Indian Dataset का उपयोग कर रहे हैं। यह डेटासेट एक संख्यात्मक डेटासेट है जिसमें कोई हेडर नहीं है। इसे हमारी स्थानीय निर्देशिका में भी डाउनलोड किया जा सकता है। डेटा फ़ाइल लोड करने के बाद, हम इसे NumPy सरणी में बदल सकते हैं और इसका उपयोग ML प्रोजेक्ट्स के लिए कर सकते हैं। CSV डेटा फ़ाइल लोड करने के लिए पायथन स्क्रिप्ट निम्न है -

from numpy import loadtxt
path = r"C:\pima-indians-diabetes.csv"
datapath= open(path, 'r')
data = loadtxt(datapath, delimiter=",")
print(data.shape)
print(data[:3])

उत्पादन

(768, 9)
[  [ 6.  148.  72.  35.  0.  33.6  0.627  50. 1.]
   [ 1.  85.   66.  29.  0.  26.6  0.351  31. 0.]
   [ 8.  183.  64.  0.   0.  23.3  0.672  32. 1.]
]

पंडों के साथ सीएसवी लोड करें

CSV डेटा फ़ाइल लोड करने का एक और तरीका है Pandas तथा pandas.read_csv()function। यह बहुत लचीला कार्य है जो एक रिटर्न देता हैpandas.DataFrameजिसे तुरंत प्लॉटिंग के लिए इस्तेमाल किया जा सकता है। निम्नलिखित इसकी मदद से CSV डेटा फ़ाइल लोड करने का एक उदाहरण है -

उदाहरण

यहां, हम दो पायथन लिपियों को लागू करेंगे, पहला है आइरिस डेटा सेट हेडर और दूसरा है पीमा इंडियंस डाटसेट का उपयोग करके जो बिना हेडर के एक संख्यात्मक डेटासेट है। दोनों डेटासेट को स्थानीय निर्देशिका में डाउनलोड किया जा सकता है।

Script-1

आईरिस डेटा सेट पर पंडों का उपयोग करके सीएसवी डेटा फ़ाइल लोड करने के लिए पायथन स्क्रिप्ट निम्नलिखित है -

from pandas import read_csv
path = r"C:\iris.csv"
data = read_csv(path)
print(data.shape)
print(data[:3])

Output:

(150, 4)
   sepal_length   sepal_width  petal_length   petal_width
0         5.1     3.5          1.4            0.2
1         4.9     3.0          1.4            0.2
2         4.7     3.2          1.3            0.2

Script-2

CSV डेटा फ़ाइल लोड करने के लिए पायथन स्क्रिप्ट निम्नलिखित है, साथ ही शीर्ष लेखों को नाम प्रदान करने के साथ-साथ, पाइमा इंडियन्स डायबिटीज डेटासेट पर पंडों का उपयोग करना -

from pandas import read_csv
path = r"C:\pima-indians-diabetes.csv"
headernames = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(path, names=headernames)
print(data.shape)
print(data[:3])

Output

(768, 9)
   preg  plas  pres   skin  test   mass    pedi    age   class
0   6    148    72      35    0     33.6   0.627    50      1
1   1    85     66      29    0     26.6   0.351    31      0
2   8    183    64      0     0     23.3   0.672    32      1

CSV डेटा फ़ाइल लोड करने के लिए उपर्युक्त तीन दृष्टिकोणों के बीच के अंतर को दिए गए उदाहरणों की सहायता से आसानी से समझा जा सकता है।