Çevik Veri Bilimi - Veri Görselleştirme

Veri görselleştirme, veri biliminde çok önemli bir rol oynar. Veri görselleştirmeyi bir veri bilimi modülü olarak düşünebiliriz. Veri Bilimi, tahmine dayalı modeller oluşturmaktan daha fazlasını içerir. Modellerin açıklamalarını ve verileri anlamak ve kararlar almak için bunları kullanmayı içerir. Veri görselleştirme, verileri en ikna edici şekilde sunmanın ayrılmaz bir parçasıdır.

Veri bilimi açısından bakıldığında, veri görselleştirme, değişiklikleri ve eğilimleri gösteren vurgulayıcı bir özelliktir.

Etkili veri görselleştirme için aşağıdaki yönergeleri göz önünde bulundurun -

  • Verileri ortak ölçekte konumlandırın.

  • Çubukların kullanımı daire ve karelere göre daha etkilidir.

  • Dağılım grafikleri için uygun renk kullanılmalıdır.

  • Oranları göstermek için pasta grafiği kullanın.

  • Sunburst görselleştirme, hiyerarşik grafikler için daha etkilidir.

Agile, veri görselleştirme için basit bir komut dosyası diline ihtiyaç duyar ve veri bilimi ile işbirliği içinde "Python", veri görselleştirme için önerilen dildir.

örnek 1

Aşağıdaki örnek, belirli yıllarda hesaplanan GSYİH'nın veri görselleştirmesini göstermektedir. "Matplotlib" Python'da veri görselleştirme için en iyi kitaplıktır. Bu kütüphanenin kurulumu aşağıda gösterilmektedir -

Bunu anlamak için aşağıdaki kodu düşünün -

import matplotlib.pyplot as plt
years = [1950, 1960, 1970, 1980, 1990, 2000, 2010]
gdp = [300.2, 543.3, 1075.9, 2862.5, 5979.6, 10289.7, 14958.3]

# create a line chart, years on x-axis, gdp on y-axis
plt.plot(years, gdp, color='green', marker='o', linestyle='solid')

# add a title plt.title("Nominal GDP")
# add a label to the y-axis
plt.ylabel("Billions of $")
plt.show()

Çıktı

Yukarıdaki kod aşağıdaki çıktıyı üretir -

Grafikleri eksen etiketleri, çizgi stilleri ve nokta işaretleriyle özelleştirmenin birçok yolu vardır. Daha iyi veri görselleştirmesini gösteren bir sonraki örneğe odaklanalım. Bu sonuçlar daha iyi çıktı için kullanılabilir.

Örnek 2

import datetime
import random
import matplotlib.pyplot as plt

# make up some data
x = [datetime.datetime.now() + datetime.timedelta(hours=i) for i in range(12)]
y = [i+random.gauss(0,1) for i,_ in enumerate(x)]

# plot
plt.plot(x,y)

# beautify the x-labels
plt.gcf().autofmt_xdate()
plt.show()

Çıktı

Yukarıdaki kod aşağıdaki çıktıyı üretir -