アジャイルデータサイエンス-データの視覚化
データの視覚化は、データサイエンスにおいて非常に重要な役割を果たします。データの視覚化は、データサイエンスのモジュールと見なすことができます。データサイエンスには、予測モデルの構築以上のものが含まれます。モデルの説明と、モデルを使用してデータを理解し、意思決定を行うことが含まれます。データの視覚化は、最も説得力のある方法でデータを提示するための不可欠な部分です。
データサイエンスの観点からは、データの視覚化は変化と傾向を示すハイライト機能です。
効果的なデータの視覚化のために、次のガイドラインを検討してください-
共通のスケールに沿ってデータを配置します。
バーの使用は、円や正方形と比較してより効果的です。
散布図には適切な色を使用する必要があります。
円グラフを使用して比率を表示します。
サンバーストの視覚化は、階層プロットに対してより効果的です。
Agileは、データの視覚化のためにシンプルなスクリプト言語を必要とし、データサイエンスと協力して「Python」がデータの視覚化に推奨される言語です。
例1
次の例は、特定の年に計算されたGDPのデータ視覚化を示しています。「matplotlib」は、Pythonでのデータ視覚化に最適なライブラリです。このライブラリのインストールを以下に示します-
これを理解するには、次のコードを検討してください-
import matplotlib.pyplot as plt
years = [1950, 1960, 1970, 1980, 1990, 2000, 2010]
gdp = [300.2, 543.3, 1075.9, 2862.5, 5979.6, 10289.7, 14958.3]
# create a line chart, years on x-axis, gdp on y-axis
plt.plot(years, gdp, color='green', marker='o', linestyle='solid')
# add a title plt.title("Nominal GDP")
# add a label to the y-axis
plt.ylabel("Billions of $")
plt.show()
出力
上記のコードは次の出力を生成します-
軸ラベル、線のスタイル、ポイントマーカーを使用してグラフをカスタマイズする方法はたくさんあります。より良いデータの視覚化を示す次の例に焦点を当てましょう。これらの結果は、より良い出力のために使用できます。
例2
import datetime
import random
import matplotlib.pyplot as plt
# make up some data
x = [datetime.datetime.now() + datetime.timedelta(hours=i) for i in range(12)]
y = [i+random.gauss(0,1) for i,_ in enumerate(x)]
# plot
plt.plot(x,y)
# beautify the x-labels
plt.gcf().autofmt_xdate()
plt.show()
出力
上記のコードは次の出力を生成します-