Wprowadzanie kolejności warstw jest niekompatybilne z błędem warstwa: kształty w LSTM
Nie mam doświadczenia w sieciach neuronowych i chcę ich używać do porównywania z innymi metodami uczenia maszynowego. Mam wielowymiarowe dane szeregów czasowych o zakresie około dwóch lat. Chcę przewidzieć „y” na kilka następnych dni w oparciu o inne zmienne przy użyciu LSTM. Ostatni dzień moich danych to 2020-07-31.
df.tail()
y holidays day_of_month day_of_week month quarter
Date
2020-07-27 32500 0 27 0 7 3
2020-07-28 33280 0 28 1 7 3
2020-07-29 31110 0 29 2 7 3
2020-07-30 37720 0 30 3 7 3
2020-07-31 32240 0 31 4 7 3
Aby wytrenować model LSTM, podzieliłem również dane na dane pociągowe i testowe.
from sklearn.model_selection import train_test_split
split_date = '2020-07-27' #to predict the next 4 days
df_train = df.loc[df.index <= split_date].copy()
df_test = df.loc[df.index > split_date].copy()
X1=df_train[['day_of_month','day_of_week','month','quarter','holidays']]
y1=df_train['y']
X2=df_test[['day_of_month','day_of_week','month','quarter','holidays']]
y2=df_test['y']
X_train, y_train =X1, y1
X_test, y_test = X2,y2
Ponieważ pracuję z LSTM, potrzebne jest pewne skalowanie:
scaler = MinMaxScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)
A teraz trudna część: model.
num_units=50
activation_function = 'sigmoid'
optimizer = 'adam'
loss_function = 'mean_squared_error'
batch_size = 10
num_epochs = 100
# Initialize the RNN
regressor = Sequential()
# Adding the input layer and the LSTM layer
regressor.add(LSTM(units = num_units, return_sequences=True ,activation = activation_function,
input_shape=(X_train.shape[1], 1)))
# Adding the output layer
regressor.add(Dense(units = 1))
# Compiling the RNN
regressor.compile(optimizer = optimizer, loss = loss_function)
# Using the training set to train the model
regressor.fit(X_train_scaled, y_train, batch_size = batch_size, epochs = num_epochs)
Jednak pojawia się następujący błąd:
ValueError: Input 0 of layer sequential_11 is incompatible with the layer: expected ndim=3, found
ndim=2. Full shape received: [None, 5]
Nie rozumiem, jak dobieramy parametry lub kształt danych wejściowych. Widziałem kilka filmów i przeczytałem kilka stron Github i wydaje się, że każdy uruchamia LSTM w inny sposób, co jeszcze bardziej utrudnia wdrożenie. Poprzedni błąd prawdopodobnie pochodzi z kształtu, ale poza tym wszystko inne jest w porządku? Jak mogę to naprawić, aby działało? Dzięki
EDYCJA: To podobne pytanie nie rozwiązuje mojego problemu. Stamtąd wypróbowałem rozwiązanie
x_train = X_train_scaled.reshape(-1, 1, 5)
x_test = X_test_scaled.reshape(-1, 1, 5)
(Moje X_test i y_test mają tylko jedną kolumnę). Wydaje się, że rozwiązanie również nie działa. Teraz pojawia się ten błąd:
ValueError: Input 0 is incompatible with layer sequential_22: expected shape=
(None, None, 1), found shape=[None, 1, 5]
Odpowiedzi
WEJŚCIE:
Problem polega na tym, że model spodziewasz się wprowadzenia kształtu 3D, (batch, sequence, features)
ale w X_train
rzeczywistości jest to wycinek ramki danych, więc tablica 2D:
X1=df_train[['day_of_month','day_of_week','month','quarter','holidays']]
X_train, y_train =X1, y1
Zakładam, że twoje kolumny mają być twoimi funkcjami, więc to, co zwykle robisz, to "układanie plasterków" swojego df, aby X_train
wyglądać mniej więcej tak:
Oto fikcyjny zestaw danych 2D w kształcie (15,5)
:
data = np.zeros((15,5))
array([[0., 0., 0., 0., 0.],
[0., 0., 0., 0., 0.],
[0., 0., 0., 0., 0.],
[0., 0., 0., 0., 0.],
[0., 0., 0., 0., 0.],
[0., 0., 0., 0., 0.],
[0., 0., 0., 0., 0.],
[0., 0., 0., 0., 0.],
[0., 0., 0., 0., 0.],
[0., 0., 0., 0., 0.],
[0., 0., 0., 0., 0.],
[0., 0., 0., 0., 0.],
[0., 0., 0., 0., 0.],
[0., 0., 0., 0., 0.],
[0., 0., 0., 0., 0.]])
Możesz zmienić jego kształt, aby dodać wymiar wsadowy, na przykład (15,1,5)
:
data = data[:,np.newaxis,:]
array([[[0., 0., 0., 0., 0.]],
[[0., 0., 0., 0., 0.]],
[[0., 0., 0., 0., 0.]],
[[0., 0., 0., 0., 0.]],
[[0., 0., 0., 0., 0.]],
[[0., 0., 0., 0., 0.]],
[[0., 0., 0., 0., 0.]],
[[0., 0., 0., 0., 0.]],
[[0., 0., 0., 0., 0.]],
[[0., 0., 0., 0., 0.]],
[[0., 0., 0., 0., 0.]],
[[0., 0., 0., 0., 0.]],
[[0., 0., 0., 0., 0.]],
[[0., 0., 0., 0., 0.]],
[[0., 0., 0., 0., 0.]]])
Te same dane, ale przedstawione w inny sposób. Teraz w tym przykładzie, batch = 15
i sequence = 1
, nie wiem co jest długością sekwencji w Twoim przypadku, ale może to być cokolwiek.
MODEL :
Teraz w swoim modelu, keras
input_shape
spodziewaj się (batch, sequence, features)
, kiedy zdasz to:
input_shape=(X_train.shape[1], 1)
Oto, co widzi model: (None, Sequence = X_train.shape[1] , num_features = 1)
None
dotyczy wymiaru partii. Nie sądzę, że właśnie to próbujesz zrobić, więc po zmianie kształtu powinieneś również poprawić, input_shape
aby dopasować nową tablicę.
Jest to wielowymiarowy problem regresji, który rozwiązujesz za pomocą LSTM. Zanim wskoczymy do kodu, zobaczmy, co to znaczy
Opis problemu:
- Masz
5
funkcjęholidays, day_of_month, day_of_week,month,quarter
dziennie odk
dni - Dla dowolnego dnia n, biorąc pod uwagę cechy, powiedzmy, ostatnich „m” dni, które chcesz przewidzieć
y
dlan
tego dnia
Tworzenie zestawu danych okna:
- Najpierw musimy zdecydować, ile dni chcemy karmić nasz model. Nazywa się to długością sekwencji (w tym przykładzie ustalmy ją na 3).
- Musimy podzielić dni długości sekwencji, aby utworzyć pociąg i zestaw danych testowych. Odbywa się to za pomocą przesuwanego okna, w którym rozmiar okna jest długością sekwencji.
- Jak widać, nie ma dostępnych prognoz na podstawie ostatnich
p
rekordów, w którychp
jest długość sekwencji. - Utworzymy zestaw danych okna przy użyciu
timeseries_dataset_from_array
metody. - Więcej informacji z wyprzedzeniem można znaleźć w oficjalnej dokumentacji tf .
Model LSTM
Tak więc obrazowo to, co chcemy osiągnąć, jest pokazane poniżej:

Dla każdego rozwijania komórki LSTM mijamy 5 cech dnia i rozwijamy w m
czasie, gdzie m
jest długość sekwencji. Przewidujemy y
ostatni dzień.
Kod:
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers, models
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
# Model
regressor = models.Sequential()
regressor.add(layers.LSTM(5, return_sequences=True))
regressor.add(layers.Dense(1))
regressor.compile(optimizer='sgd', loss='mse')
# Dummy data
n = 10000
df = pd.DataFrame(
{
'y': np.arange(n),
'holidays': np.random.randn(n),
'day_of_month': np.random.randn(n),
'day_of_week': np.random.randn(n),
'month': np.random.randn(n),
'quarter': np.random.randn(n),
}
)
# Train test split
train_df, test_df = train_test_split(df)
print (train_df.shape, test_df.shape)\
# Create y to be predicted
# given last n days predict todays y
# train data
sequence_length = 3
y_pred = train_df['y'][sequence_length-1:].values
train_df = train_df[:-2]
train_df['y_pred'] = y_pred
# Validataion data
y_pred = test_df['y'][sequence_length-1:].values
test_df = test_df[:-2]
test_df['y_pred'] = y_pred
# Create window datagenerators
# Train data generator
train_X = train_df[['holidays','day_of_month','day_of_week','month','month']]
train_y = train_df['y_pred']
train_dataset = tf.keras.preprocessing.timeseries_dataset_from_array(
train_X, train_y, sequence_length=sequence_length, shuffle=True, batch_size=4)
# Validation data generator
test_X = test_df[['holidays','day_of_month','day_of_week','month','month']]
test_y = test_df['y_pred']
test_dataset = tf.keras.preprocessing.timeseries_dataset_from_array(
test_X, test_y, sequence_length=sequence_length, shuffle=True, batch_size=4)
# Finally fit the model
regressor.fit(train_dataset, validation_data=test_dataset, epochs=3)
Wynik:
(7500, 6) (2500, 6)
Epoch 1/3
1874/1874 [==============================] - 8s 3ms/step - loss: 9974697.3664 - val_loss: 8242597.5000
Epoch 2/3
1874/1874 [==============================] - 6s 3ms/step - loss: 8367530.7117 - val_loss: 8256667.0000
Epoch 3/3
1874/1874 [==============================] - 6s 3ms/step - loss: 8379048.3237 - val_loss: 8233981.5000
<tensorflow.python.keras.callbacks.History at 0x7f3e94bdd198>