Tracciare un grafico usando gli array

Nov 20 2020

Ho una serie di dati che voglio tracciare in un grafico. Ho un elenco di timestamp che voglio raggruppare all'ora e quindi voglio vedere la quantità di punti all'ora in un grafico a linee (su un giorno, dove ho dati di più giorni, che voglio in un grafico al giorno ).

Ho il valore dei punti orari e ho le ore in cui si verificano. Non riesco a far funzionare il fatto che dia una linea nel mio grafico e penso che mi manchi una soluzione semplice. Ho postato anche una foto di cui puoi vedere l'output. Qual è il passaggio successivo da eseguire per visualizzare la riga?

Ho il codice seguente:

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import csv
from datetime import timedelta
import datetime as dt
 
data= pd.read_csv('test2.csv', header=0, index_col=None, parse_dates=True, sep=';', usecols=[0,1])
df=pd.DataFrame(data, columns=['Date', 'Time'])
df['DateTime'] = df['Date'] + df['Time']

#for date in df['DateTime']:


def RemoveMilliSeconds(x):
    return x[:-5]

df['Time'] = df['Time'].apply(RemoveMilliSeconds)

df['DateTime'] = df['Date'] + df['Time']
df['DateTime'] = pd.to_datetime(df['DateTime'], format="%Y:%m:%d %H:%M:%S")
df['TimeDelta'] = df.groupby('Date')['DateTime'].apply(lambda x: x.diff())

#print(df['TimeDelta'] / np.timedelta64(1, 'h'))
df['HourOfDay'] = df['DateTime'].dt.hour
df['Day'] = df['DateTime'].dt.day

grouped_df = df.groupby('Day')

for key, item in grouped_df:
    print(grouped_df.get_group(key)['HourOfDay'].value_counts(), "\n\n")


res=[]
for i in df['DateTime'].dt.hour:
    if i not in res:
        res.append(i)
print("enkele lijst:" + str(res))
#range = (0,24)
#bins = 2
#plt.hist(df['DateTime'].dt.hour, bins, range)

x=np.array([res])

y=np.array([df['HourOfDay'].value_counts()])
plt.plot(x,y)
plt.show()

#times = pd.DatetimeIndex(df.Time)
#grouped = df.groupby([times.hour])

L'immagine che mostra l'output

I miei dati di esempio:

Date;Time
2020:02:13 ;12:39:02:913 
2020:02:13 ;12:39:42:915 
2020:02:13 ;13:06:20:718 
2020:02:13 ;13:18:25:988 
2020:02:13 ;13:34:02:835 
2020:02:13 ;13:46:35:793 
2020:02:13 ;13:59:10:659 
2020:02:13 ;14:14:33:571 
2020:02:13 ;14:25:36:381 
2020:02:13 ;14:35:38:342 
2020:02:13 ;14:46:04:006 
2020:02:13 ;14:56:57:346 
2020:02:13 ;15:07:39:752 
2020:02:13 ;15:19:44:868 
2020:02:13 ;15:32:31:438 
2020:02:13 ;15:44:44:928 
2020:02:13 ;15:56:54:453 
2020:02:13 ;16:08:21:023 
2020:02:13 ;16:19:17:620 
2020:02:13 ;16:29:56:944 
2020:02:13 ;16:40:11:132 
2020:02:13 ;16:49:12:113 
2020:02:13 ;16:57:26:652 
2020:02:13 ;16:57:26:652 
2020:02:13 ;17:04:22:092 
2020:02:17 ;08:58:08:562 
2020:02:17 ;08:58:42:545

Risposte

Mr.T Nov 20 2020 at 11:51

Non hai preparato i tuoi dati xy in un modo che matplotlibpossa comprendere la loro relazione.

La facile "risposta" sarebbe quella di tracciare rese df['HourOfDay'].value_counts()direttamente uno contro l'altro:

#.....
#range = (0,24)
#bins = 2
#plt.hist(df['DateTime'].dt.hour, bins, range)

plt.plot(res, df['HourOfDay'].value_counts())
plt.show()

Ma l'output di esempio mostra il problema:

matplotlibnon ordina i x-valori per te (ciò rappresenterebbe in modo errato i dati in un contesto diverso). Quindi, dobbiamo farlo prima di tracciare:

#.....
#range = (0,24)
#bins = 2
#plt.hist(df['DateTime'].dt.hour, bins, range)

xy=np.stack((res, df['HourOfDay'].value_counts()))
xy = xy[:, np.argsort(xy[0,:])]
plt.plot(*xy)
plt.show()

Ora, i x-values sono nell'ordine corretto e i y-values sono stati ordinati con loro xynell'array combinato che abbiamo creato per questo scopo:

Ovviamente, sarebbe meglio preparare rese df['HourOfDay'].value_counts()direttamente, quindi non dobbiamo creare un array combinato per ordinarli insieme. Poiché non hai fornito una spiegazione su cosa dovrebbe fare il tuo codice, possiamo solo risolvere il problema dopo averlo creato - dovresti strutturarlo in modo diverso, in modo che questo problema non si verifichi in primo luogo. Ma solo tu puoi farlo (o le persone che capiscono l'intenzione del tuo codice - io no).

Suggerisco anche di passare un po 'di tempo con i tutorial istruttivi di matplotlib - questa volta non è sprecato.

Aggiorna
Sembra che tu provi a creare una sottotrama per ogni giorno e contare il numero di voci all'ora. Mi avvicinerei in questo modo (ma sono sicuro, alcuni esperti di panda hanno modi migliori per questo):