Agile Data Science - Visualização de Dados
A visualização de dados desempenha um papel muito importante na ciência de dados. Podemos considerar a visualização de dados como um módulo da ciência de dados. Data Science inclui mais do que construir modelos preditivos. Inclui a explicação de modelos e como usá-los para entender os dados e tomar decisões. A visualização de dados é parte integrante da apresentação de dados da maneira mais convincente.
Do ponto de vista da ciência de dados, a visualização de dados é um recurso de destaque que mostra as mudanças e tendências.
Considere as seguintes diretrizes para uma visualização de dados eficaz -
Posicione os dados ao longo da escala comum.
O uso de barras é mais eficaz em comparação com círculos e quadrados.
A cor adequada deve ser usada para gráficos de dispersão.
Use o gráfico de pizza para mostrar as proporções.
A visualização Sunburst é mais eficaz para gráficos hierárquicos.
Agile precisa de uma linguagem de script simples para visualização de dados e com ciência de dados em colaboração “Python” é a linguagem sugerida para visualização de dados.
Exemplo 1
O exemplo a seguir demonstra a visualização de dados do PIB calculado em anos específicos. “Matplotlib” é a melhor biblioteca para visualização de dados em Python. A instalação desta biblioteca é mostrada abaixo -
Considere o seguinte código para entender isso -
import matplotlib.pyplot as plt
years = [1950, 1960, 1970, 1980, 1990, 2000, 2010]
gdp = [300.2, 543.3, 1075.9, 2862.5, 5979.6, 10289.7, 14958.3]
# create a line chart, years on x-axis, gdp on y-axis
plt.plot(years, gdp, color='green', marker='o', linestyle='solid')
# add a title plt.title("Nominal GDP")
# add a label to the y-axis
plt.ylabel("Billions of $")
plt.show()
Resultado
O código acima gera a seguinte saída -
Existem muitas maneiras de personalizar os gráficos com rótulos de eixo, estilos de linha e marcadores de ponto. Vamos nos concentrar no próximo exemplo que demonstra a melhor visualização de dados. Esses resultados podem ser usados para uma melhor saída.
Exemplo 2
import datetime
import random
import matplotlib.pyplot as plt
# make up some data
x = [datetime.datetime.now() + datetime.timedelta(hours=i) for i in range(12)]
y = [i+random.gauss(0,1) for i,_ in enumerate(x)]
# plot
plt.plot(x,y)
# beautify the x-labels
plt.gcf().autofmt_xdate()
plt.show()
Resultado
O código acima gera a seguinte saída -