Agile Data Science - Datenvisualisierung

Die Datenvisualisierung spielt in der Datenwissenschaft eine sehr wichtige Rolle. Wir können Datenvisualisierung als ein Modul der Datenwissenschaft betrachten. Data Science umfasst mehr als die Erstellung von Vorhersagemodellen. Es enthält Erklärungen zu Modellen und deren Verwendung, um Daten zu verstehen und Entscheidungen zu treffen. Die Datenvisualisierung ist ein wesentlicher Bestandteil der überzeugendsten Darstellung von Daten.

Aus datenwissenschaftlicher Sicht ist die Datenvisualisierung eine Hervorhebungsfunktion, die die Änderungen und Trends zeigt.

Beachten Sie die folgenden Richtlinien für eine effektive Datenvisualisierung:

  • Positionsdaten entlang der gemeinsamen Skala.

  • Die Verwendung von Balken ist im Vergleich von Kreisen und Quadraten effektiver.

  • Für Streudiagramme sollte die richtige Farbe verwendet werden.

  • Verwenden Sie ein Kreisdiagramm, um die Proportionen anzuzeigen.

  • Die Sunburst-Visualisierung ist für hierarchische Diagramme effektiver.

Agile benötigt eine einfache Skriptsprache für die Datenvisualisierung und in Zusammenarbeit mit Data Science ist „Python“ die vorgeschlagene Sprache für die Datenvisualisierung.

Beispiel 1

Das folgende Beispiel zeigt die Datenvisualisierung des BIP, berechnet in bestimmten Jahren. "Matplotlib" ist die beste Bibliothek für die Datenvisualisierung in Python. Die Installation dieser Bibliothek ist unten dargestellt -

Betrachten Sie den folgenden Code, um dies zu verstehen:

import matplotlib.pyplot as plt
years = [1950, 1960, 1970, 1980, 1990, 2000, 2010]
gdp = [300.2, 543.3, 1075.9, 2862.5, 5979.6, 10289.7, 14958.3]

# create a line chart, years on x-axis, gdp on y-axis
plt.plot(years, gdp, color='green', marker='o', linestyle='solid')

# add a title plt.title("Nominal GDP")
# add a label to the y-axis
plt.ylabel("Billions of $")
plt.show()

Ausgabe

Der obige Code generiert die folgende Ausgabe:

Es gibt viele Möglichkeiten, die Diagramme mit Achsenbeschriftungen, Linienstilen und Punktmarkierungen anzupassen. Konzentrieren wir uns auf das nächste Beispiel, das die bessere Datenvisualisierung demonstriert. Diese Ergebnisse können für eine bessere Ausgabe verwendet werden.

Beispiel 2

import datetime
import random
import matplotlib.pyplot as plt

# make up some data
x = [datetime.datetime.now() + datetime.timedelta(hours=i) for i in range(12)]
y = [i+random.gauss(0,1) for i,_ in enumerate(x)]

# plot
plt.plot(x,y)

# beautify the x-labels
plt.gcf().autofmt_xdate()
plt.show()

Ausgabe

Der obige Code generiert die folgende Ausgabe: