Agile Data Science - Visualização de Dados

A visualização de dados desempenha um papel muito importante na ciência de dados. Podemos considerar a visualização de dados como um módulo da ciência de dados. Data Science inclui mais do que construir modelos preditivos. Inclui a explicação de modelos e como usá-los para entender os dados e tomar decisões. A visualização de dados é parte integrante da apresentação de dados da maneira mais convincente.

Do ponto de vista da ciência de dados, a visualização de dados é um recurso de destaque que mostra as mudanças e tendências.

Considere as seguintes diretrizes para uma visualização de dados eficaz -

  • Posicione os dados ao longo da escala comum.

  • O uso de barras é mais eficaz em comparação com círculos e quadrados.

  • A cor adequada deve ser usada para gráficos de dispersão.

  • Use o gráfico de pizza para mostrar as proporções.

  • A visualização Sunburst é mais eficaz para gráficos hierárquicos.

Agile precisa de uma linguagem de script simples para visualização de dados e com ciência de dados em colaboração “Python” é a linguagem sugerida para visualização de dados.

Exemplo 1

O exemplo a seguir demonstra a visualização de dados do PIB calculado em anos específicos. “Matplotlib” é a melhor biblioteca para visualização de dados em Python. A instalação desta biblioteca é mostrada abaixo -

Considere o seguinte código para entender isso -

import matplotlib.pyplot as plt
years = [1950, 1960, 1970, 1980, 1990, 2000, 2010]
gdp = [300.2, 543.3, 1075.9, 2862.5, 5979.6, 10289.7, 14958.3]

# create a line chart, years on x-axis, gdp on y-axis
plt.plot(years, gdp, color='green', marker='o', linestyle='solid')

# add a title plt.title("Nominal GDP")
# add a label to the y-axis
plt.ylabel("Billions of $")
plt.show()

Resultado

O código acima gera a seguinte saída -

Existem muitas maneiras de personalizar os gráficos com rótulos de eixo, estilos de linha e marcadores de ponto. Vamos nos concentrar no próximo exemplo que demonstra a melhor visualização de dados. Esses resultados podem ser usados ​​para uma melhor saída.

Exemplo 2

import datetime
import random
import matplotlib.pyplot as plt

# make up some data
x = [datetime.datetime.now() + datetime.timedelta(hours=i) for i in range(12)]
y = [i+random.gauss(0,1) for i,_ in enumerate(x)]

# plot
plt.plot(x,y)

# beautify the x-labels
plt.gcf().autofmt_xdate()
plt.show()

Resultado

O código acima gera a seguinte saída -