Agile Data Science - Visualisasi Data
Visualisasi data memainkan peran yang sangat penting dalam ilmu data. Kita dapat menganggap visualisasi data sebagai modul ilmu data. Ilmu Data mencakup lebih dari sekadar membangun model prediktif. Ini mencakup penjelasan model dan menggunakannya untuk memahami data dan membuat keputusan. Visualisasi data merupakan bagian integral dari penyajian data dengan cara yang paling meyakinkan.
Dari sudut pandang ilmu data, visualisasi data merupakan fitur highlight yang menunjukkan perubahan dan tren.
Pertimbangkan panduan berikut untuk visualisasi data yang efektif -
Data posisi sepanjang skala umum.
Penggunaan palang lebih efektif dibandingkan dengan lingkaran dan persegi.
Warna yang tepat harus digunakan untuk plot pencar.
Gunakan diagram lingkaran untuk memperlihatkan proporsi.
Visualisasi sunburst lebih efektif untuk plot hierarki.
Agile membutuhkan bahasa skrip sederhana untuk visualisasi data dan dengan kolaborasi ilmu data, "Python" adalah bahasa yang disarankan untuk visualisasi data.
Contoh 1
Contoh berikut menunjukkan visualisasi data PDB yang dihitung dalam tahun-tahun tertentu. "Matplotlib" adalah perpustakaan terbaik untuk visualisasi data dengan Python. Instalasi perpustakaan ini ditunjukkan di bawah -
Pertimbangkan kode berikut untuk memahami ini -
import matplotlib.pyplot as plt
years = [1950, 1960, 1970, 1980, 1990, 2000, 2010]
gdp = [300.2, 543.3, 1075.9, 2862.5, 5979.6, 10289.7, 14958.3]
# create a line chart, years on x-axis, gdp on y-axis
plt.plot(years, gdp, color='green', marker='o', linestyle='solid')
# add a title plt.title("Nominal GDP")
# add a label to the y-axis
plt.ylabel("Billions of $")
plt.show()
Keluaran
Kode di atas menghasilkan output berikut -
Ada banyak cara untuk menyesuaikan bagan dengan label sumbu, gaya garis, dan penanda titik. Mari fokus pada contoh berikutnya yang menunjukkan visualisasi data yang lebih baik. Hasil ini dapat digunakan untuk hasil yang lebih baik.
Contoh 2
import datetime
import random
import matplotlib.pyplot as plt
# make up some data
x = [datetime.datetime.now() + datetime.timedelta(hours=i) for i in range(12)]
y = [i+random.gauss(0,1) for i,_ in enumerate(x)]
# plot
plt.plot(x,y)
# beautify the x-labels
plt.gcf().autofmt_xdate()
plt.show()
Keluaran
Kode di atas menghasilkan output berikut -