アジャイルデータサイエンス-データの視覚化

データの視覚化は、データサイエンスにおいて非常に重要な役割を果たします。データの視覚化は、データサイエンスのモジュールと見なすことができます。データサイエンスには、予測モデルの構築以上のものが含まれます。モデルの説明と、モデルを使用してデータを理解し、意思決定を行うことが含まれます。データの視覚化は、最も説得力のある方法でデータを提示するための不可欠な部分です。

データサイエンスの観点からは、データの視覚化は変化と傾向を示すハイライト機能です。

効果的なデータの視覚化のために、次のガイドラインを検討してください-

  • 共通のスケールに沿ってデータを配置します。

  • バーの使用は、円や正方形と比較してより効果的です。

  • 散布図には適切な色を使用する必要があります。

  • 円グラフを使用して比率を表示します。

  • サンバーストの視覚化は、階層プロットに対してより効果的です。

Agileは、データの視覚化のためにシンプルなスクリプト言語を必要とし、データサイエンスと協力して「Python」がデータの視覚化に推奨される言語です。

例1

次の例は、特定の年に計算されたGDPのデータ視覚化を示しています。「matplotlib」は、Pythonでのデータ視覚化に最適なライブラリです。このライブラリのインストールを以下に示します-

これを理解するには、次のコードを検討してください-

import matplotlib.pyplot as plt
years = [1950, 1960, 1970, 1980, 1990, 2000, 2010]
gdp = [300.2, 543.3, 1075.9, 2862.5, 5979.6, 10289.7, 14958.3]

# create a line chart, years on x-axis, gdp on y-axis
plt.plot(years, gdp, color='green', marker='o', linestyle='solid')

# add a title plt.title("Nominal GDP")
# add a label to the y-axis
plt.ylabel("Billions of $")
plt.show()

出力

上記のコードは次の出力を生成します-

軸ラベル、線のスタイル、ポイントマーカーを使用してグラフをカスタマイズする方法はたくさんあります。より良いデータの視覚化を示す次の例に焦点を当てましょう。これらの結果は、より良い出力のために使用できます。

例2

import datetime
import random
import matplotlib.pyplot as plt

# make up some data
x = [datetime.datetime.now() + datetime.timedelta(hours=i) for i in range(12)]
y = [i+random.gauss(0,1) for i,_ in enumerate(x)]

# plot
plt.plot(x,y)

# beautify the x-labels
plt.gcf().autofmt_xdate()
plt.show()

出力

上記のコードは次の出力を生成します-