Wykreślanie wykresu za pomocą tablic

Nov 20 2020

Mam zestaw danych, które chcę przedstawić na wykresie. Mam listę znaczników czasu, które chcę pogrupować na godzinę, a następnie chcę zobaczyć ilość punktów na godzinę na wykresie liniowym (w ciągu jednego dnia, gdzie mam dane z wielu dni, które chcę na wykresie dziennie ).

Mam wartość punktów na godzinę i mam godziny, w których występują. Nie działam, że daje to linię na moim wykresie i myślę, że brakuje mi prostego rozwiązania. Wysłałem również zdjęcie, abyście mogli zobaczyć wyniki. Jaki jest następny krok, aby wyświetlić linię?

Mam następujący kod:

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import csv
from datetime import timedelta
import datetime as dt
 
data= pd.read_csv('test2.csv', header=0, index_col=None, parse_dates=True, sep=';', usecols=[0,1])
df=pd.DataFrame(data, columns=['Date', 'Time'])
df['DateTime'] = df['Date'] + df['Time']

#for date in df['DateTime']:


def RemoveMilliSeconds(x):
    return x[:-5]

df['Time'] = df['Time'].apply(RemoveMilliSeconds)

df['DateTime'] = df['Date'] + df['Time']
df['DateTime'] = pd.to_datetime(df['DateTime'], format="%Y:%m:%d %H:%M:%S")
df['TimeDelta'] = df.groupby('Date')['DateTime'].apply(lambda x: x.diff())

#print(df['TimeDelta'] / np.timedelta64(1, 'h'))
df['HourOfDay'] = df['DateTime'].dt.hour
df['Day'] = df['DateTime'].dt.day

grouped_df = df.groupby('Day')

for key, item in grouped_df:
    print(grouped_df.get_group(key)['HourOfDay'].value_counts(), "\n\n")


res=[]
for i in df['DateTime'].dt.hour:
    if i not in res:
        res.append(i)
print("enkele lijst:" + str(res))
#range = (0,24)
#bins = 2
#plt.hist(df['DateTime'].dt.hour, bins, range)

x=np.array([res])

y=np.array([df['HourOfDay'].value_counts()])
plt.plot(x,y)
plt.show()

#times = pd.DatetimeIndex(df.Time)
#grouped = df.groupby([times.hour])

Obraz przedstawiający dane wyjściowe

Moje przykładowe dane:

Date;Time
2020:02:13 ;12:39:02:913 
2020:02:13 ;12:39:42:915 
2020:02:13 ;13:06:20:718 
2020:02:13 ;13:18:25:988 
2020:02:13 ;13:34:02:835 
2020:02:13 ;13:46:35:793 
2020:02:13 ;13:59:10:659 
2020:02:13 ;14:14:33:571 
2020:02:13 ;14:25:36:381 
2020:02:13 ;14:35:38:342 
2020:02:13 ;14:46:04:006 
2020:02:13 ;14:56:57:346 
2020:02:13 ;15:07:39:752 
2020:02:13 ;15:19:44:868 
2020:02:13 ;15:32:31:438 
2020:02:13 ;15:44:44:928 
2020:02:13 ;15:56:54:453 
2020:02:13 ;16:08:21:023 
2020:02:13 ;16:19:17:620 
2020:02:13 ;16:29:56:944 
2020:02:13 ;16:40:11:132 
2020:02:13 ;16:49:12:113 
2020:02:13 ;16:57:26:652 
2020:02:13 ;16:57:26:652 
2020:02:13 ;17:04:22:092 
2020:02:17 ;08:58:08:562 
2020:02:17 ;08:58:42:545

Odpowiedzi

Mr.T Nov 20 2020 at 11:51

Nie przygotowałeś swoich danych xy w sposób, który matplotlibpozwala zrozumieć ich związek.

Łatwy „odpowiedź” byłoby wykreślić resi df['HourOfDay'].value_counts()bezpośrednio ze sobą:

#.....
#range = (0,24)
#bins = 2
#plt.hist(df['DateTime'].dt.hour, bins, range)

plt.plot(res, df['HourOfDay'].value_counts())
plt.show()

Ale przykładowe dane wyjściowe pokazują problem:

matplotlibnie zamawia x-wartości dla Ciebie (co spowodowałoby zniekształcenie danych w innym kontekście). Więc musimy to zrobić przed wykreśleniem:

#.....
#range = (0,24)
#bins = 2
#plt.hist(df['DateTime'].dt.hour, bins, range)

xy=np.stack((res, df['HourOfDay'].value_counts()))
xy = xy[:, np.argsort(xy[0,:])]
plt.plot(*xy)
plt.show()

Teraz x-wartości są we właściwej kolejności, a y-wartości zostały posortowane z nimi w połączonej xytablicy, którą utworzyliśmy w tym celu:

Oczywiście, byłoby lepiej, aby przygotować resi df['HourOfDay'].value_counts()bezpośrednio, więc nie trzeba tworzyć łączny tablicę posortować je razem. Ponieważ nie podałeś wyjaśnienia, co ma zrobić Twój kod, możemy tylko później naprawić problem utworzony przez kod - powinieneś go inaczej skonstruować, aby ten problem nie wystąpił w pierwszej kolejności. Ale tylko Ty możesz to zrobić (lub osoby, które rozumieją intencję Twojego kodu - ja nie).

Proponuję też poświęcić trochę czasu na pouczające samouczki matplotlib - ten czas nie jest zmarnowany.

Aktualizacja
Wygląda na to, że próbujesz utworzyć wykres cząstkowy dla każdego dnia i policzyć liczbę wpisów na godzinę. Podszedłbym do tego w ten sposób (ale jestem pewien, że niektórzy eksperci od pandy mają na to lepsze sposoby):