एजाइल डेटा साइंस - डेटा विज़ुअलाइज़ेशन
डेटा विज़ुअलाइज़ेशन डेटा साइंस में बहुत महत्वपूर्ण भूमिका निभाता है। हम डेटा विज़ुअलाइज़ेशन को डेटा साइंस के एक मॉड्यूल के रूप में मान सकते हैं। डेटा साइंस में पूर्वानुमान मॉडल के निर्माण से अधिक शामिल हैं। इसमें मॉडल की व्याख्या और डेटा को समझने और निर्णय लेने के लिए उनका उपयोग करना शामिल है। डेटा विज़ुअलाइज़ेशन, सबसे ठोस तरीके से डेटा प्रस्तुत करने का एक अभिन्न अंग है।
डेटा विज्ञान के दृष्टिकोण से, डेटा विज़ुअलाइज़ेशन एक हाइलाइटिंग सुविधा है जो परिवर्तनों और रुझानों को दिखाती है।
प्रभावी डेटा विज़ुअलाइज़ेशन के लिए निम्नलिखित दिशानिर्देशों पर विचार करें -
सामान्य पैमाने के साथ स्थिति डेटा।
मंडलियों और वर्गों की तुलना में सलाखों का उपयोग अधिक प्रभावी है।
तितर बितर भूखंडों के लिए उचित रंग का उपयोग किया जाना चाहिए।
अनुपात दिखाने के लिए पाई चार्ट का उपयोग करें।
सनबर्स्ट विज़ुअलाइज़ेशन पदानुक्रमित भूखंडों के लिए अधिक प्रभावी है।
एजाइल को डेटा विज़ुअलाइज़ेशन के लिए एक सरल स्क्रिप्टिंग भाषा की आवश्यकता है और डेटा साइंस के सहयोग से "पायथन" डेटा विज़ुअलाइज़ेशन के लिए सुझाई गई भाषा है।
उदाहरण 1
निम्न उदाहरण विशिष्ट वर्षों में गणना की गई जीडीपी के डेटा दृश्य को प्रदर्शित करता है। "Matplotlib" पायथन में डेटा विज़ुअलाइज़ेशन के लिए सबसे अच्छा पुस्तकालय है। इस पुस्तकालय की स्थापना नीचे दी गई है -
इसे समझने के लिए निम्नलिखित कोड पर विचार करें -
import matplotlib.pyplot as plt
years = [1950, 1960, 1970, 1980, 1990, 2000, 2010]
gdp = [300.2, 543.3, 1075.9, 2862.5, 5979.6, 10289.7, 14958.3]
# create a line chart, years on x-axis, gdp on y-axis
plt.plot(years, gdp, color='green', marker='o', linestyle='solid')
# add a title plt.title("Nominal GDP")
# add a label to the y-axis
plt.ylabel("Billions of $")
plt.show()
उत्पादन
उपरोक्त कोड निम्नलिखित आउटपुट उत्पन्न करता है -
अक्ष लेबल, रेखा शैलियों और बिंदु मार्कर के साथ चार्ट को अनुकूलित करने के कई तरीके हैं। आइए अगले उदाहरण पर ध्यान दें जो बेहतर डेटा विज़ुअलाइज़ेशन को प्रदर्शित करता है। इन परिणामों का उपयोग बेहतर आउटपुट के लिए किया जा सकता है।
उदाहरण 2
import datetime
import random
import matplotlib.pyplot as plt
# make up some data
x = [datetime.datetime.now() + datetime.timedelta(hours=i) for i in range(12)]
y = [i+random.gauss(0,1) for i,_ in enumerate(x)]
# plot
plt.plot(x,y)
# beautify the x-labels
plt.gcf().autofmt_xdate()
plt.show()
उत्पादन
उपरोक्त कोड निम्नलिखित आउटपुट उत्पन्न करता है -