La entrada de la capa secuencial es incompatible con la capa: error de formas en LSTM

Dec 22 2020

Soy nuevo en las redes neuronales y quiero usarlas para compararlas con otros métodos de aprendizaje automático. Tengo datos de series de tiempo multivariantes con un rango de aproximadamente dos años. Quiero predecir 'y' para los próximos días en función de las otras variables usando LSTM. El último día de mis datos es 2020-07-31.

df.tail()

              y   holidays  day_of_month    day_of_week month   quarter
   Date                     
 2020-07-27 32500      0      27                 0        7        3
 2020-07-28 33280      0      28                 1        7        3
 2020-07-29 31110      0      29                 2        7        3
 2020-07-30 37720      0      30                 3        7        3
 2020-07-31 32240      0      31                 4        7        3

Para entrenar el modelo LSTM, también divido los datos en datos de prueba y de tren.

from sklearn.model_selection import train_test_split
split_date = '2020-07-27' #to predict the next 4 days
df_train = df.loc[df.index <= split_date].copy()
df_test = df.loc[df.index > split_date].copy()
X1=df_train[['day_of_month','day_of_week','month','quarter','holidays']]
y1=df_train['y']
X2=df_test[['day_of_month','day_of_week','month','quarter','holidays']]
y2=df_test['y']

X_train, y_train =X1, y1
X_test, y_test = X2,y2

Como estoy trabajando con LSTM, se necesita algo de escala:

scaler = MinMaxScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

Ahora, en la parte difícil: el modelo.

num_units=50
activation_function = 'sigmoid'
optimizer = 'adam'
loss_function = 'mean_squared_error'
batch_size = 10
num_epochs = 100

 # Initialize the RNN
regressor = Sequential()

 # Adding the input layer and the LSTM layer
regressor.add(LSTM(units = num_units, return_sequences=True ,activation = activation_function, 
input_shape=(X_train.shape[1], 1)))

 # Adding the output layer
regressor.add(Dense(units = 1))

 # Compiling the RNN
regressor.compile(optimizer = optimizer, loss = loss_function)

# Using the training set to train the model
regressor.fit(X_train_scaled, y_train, batch_size = batch_size, epochs = num_epochs)

Sin embargo, recibo el siguiente error:

ValueError: Input 0 of layer sequential_11 is incompatible with the layer: expected ndim=3, found 
ndim=2. Full shape received: [None, 5]

No entiendo cómo elegimos los parámetros o la forma de la entrada. He visto algunos videos y leído algunas páginas de Github y todos parecen ejecutar LSTM de una manera diferente, lo que hace que sea aún más difícil de implementar. El error anterior probablemente proviene de la forma, pero aparte de eso, ¿todo lo demás está bien? ¿Y cómo puedo arreglar esto para que funcione? Gracias

EDITAR: Esta pregunta similar no resuelve mi problema ... Probé la solución desde allí

x_train = X_train_scaled.reshape(-1, 1, 5)
x_test  = X_test_scaled.reshape(-1, 1, 5)

(Mi X_test y y_test solo tienen una columna). Y la solución tampoco parece funcionar. Recibo este error ahora:

ValueError: Input 0 is incompatible with layer sequential_22: expected shape= 
(None, None, 1), found shape=[None, 1, 5]

Respuestas

2 YoanB.M.Sc Dec 22 2020 at 21:18

APORTE:

El problema es que el modelo espera una entrada de forma 3D, (batch, sequence, features)pero en X_trainrealidad es una porción de marco de datos, por lo que una matriz 2D:

X1=df_train[['day_of_month','day_of_week','month','quarter','holidays']]
X_train, y_train =X1, y1

Supongo que se supone que sus columnas son sus características, por lo que lo que normalmente haría es "apilar porciones" de su df para que se X_trainvea así:

Aquí hay un conjunto de datos ficticio 2D de forma (15,5):

data = np.zeros((15,5))

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

Puede remodelarlo para agregar una dimensión de lote, por ejemplo (15,1,5):

data = data[:,np.newaxis,:] 

array([[[0., 0., 0., 0., 0.]],

       [[0., 0., 0., 0., 0.]],

       [[0., 0., 0., 0., 0.]],

       [[0., 0., 0., 0., 0.]],

       [[0., 0., 0., 0., 0.]],

       [[0., 0., 0., 0., 0.]],

       [[0., 0., 0., 0., 0.]],

       [[0., 0., 0., 0., 0.]],

       [[0., 0., 0., 0., 0.]],

       [[0., 0., 0., 0., 0.]],

       [[0., 0., 0., 0., 0.]],

       [[0., 0., 0., 0., 0.]],

       [[0., 0., 0., 0., 0.]],

       [[0., 0., 0., 0., 0.]],

       [[0., 0., 0., 0., 0.]]])

Mismos datos, pero presentados de forma diferente. Ahora, en este ejemplo, batch = 15y sequence = 1no sé cuál es la longitud de la secuencia en su caso, pero puede ser cualquier cosa.

MODELO:

Ahora en su modelo, keras input_shapeespere (batch, sequence, features), cuando pase esto:

input_shape=(X_train.shape[1], 1)

Esto es lo que ve su modelo: (None, Sequence = X_train.shape[1] , num_features = 1) Nonees para la dimensión de lote. No creo que eso sea lo que está tratando de hacer, así que una vez que haya remodelado, también debe corregir input_shapepara que coincida con la nueva matriz.

1 mujjiga Dec 24 2020 at 21:27

Es un problema de regresión multivariante que está resolviendo usando LSTM. Antes de saltar al código, veamos realmente lo que significa

Planteamiento del problema:

Tienes 5función holidays, day_of_month, day_of_week,month,quarterpor día durante kdías
Para cualquier día n, dadas las características de la voz últimos días 'm' que desea predecir el ydel ncuarto día

Creando dataset de ventana:

Primero tenemos que decidir la cantidad de días que queremos alimentar a nuestro modelo. Esto se llama longitud de secuencia (fijémoslo en 3 para este ejemplo).
Tenemos que dividir los días de duración de la secuencia para crear el tren y el conjunto de datos de prueba. Esto se hace usando una ventana deslizante donde el tamaño de la ventana es la longitud de la secuencia.
Como puede ver, no hay predicciones disponibles por los últimos pregistros donde pestá la longitud de la secuencia.
Haremos las creaciones del dataset de la ventana usando el timeseries_dataset_from_arraymétodo.
Para obtener más información avanzada, siga los documentos oficiales de tf .

Modelo LSTM

Así que pictóricamente lo que queremos lograr se muestra a continuación:

Para cada desenrollado de celda LSTM, pasamos las 5 características del día y lo desenrollamos en el mtiempo donde mestá la longitud de la secuencia. Estamos prediciendo el ydel último día.

La entrada de la capa secuencial es incompatible con la capa: error de formas en LSTM

Respuestas

Planteamiento del problema:

Creando dataset de ventana:

Modelo LSTM

Código: