レイヤーシーケンシャルの入力はレイヤーと互換性がありません:LSTMの形状エラー

Dec 22 2020

私はニューラルネットワークに不慣れで、他の機械学習方法と比較するためにそれらを使用したいと思います。約2年の範囲の多変量時系列データがあります。LSTMを使用して、他の変数に基づいて、今後数日間の「y」を予測したいと思います。私のデータの最終日は2020-07-31です。

df.tail()

              y   holidays  day_of_month    day_of_week month   quarter
   Date                     
 2020-07-27 32500      0      27                 0        7        3
 2020-07-28 33280      0      28                 1        7        3
 2020-07-29 31110      0      29                 2        7        3
 2020-07-30 37720      0      30                 3        7        3
 2020-07-31 32240      0      31                 4        7        3

LSTMモデルをトレーニングするために、データをトレーニングデータとテストデータに分割します。

from sklearn.model_selection import train_test_split
split_date = '2020-07-27' #to predict the next 4 days
df_train = df.loc[df.index <= split_date].copy()
df_test = df.loc[df.index > split_date].copy()
X1=df_train[['day_of_month','day_of_week','month','quarter','holidays']]
y1=df_train['y']
X2=df_test[['day_of_month','day_of_week','month','quarter','holidays']]
y2=df_test['y']

X_train, y_train =X1, y1
X_test, y_test = X2,y2

私はLSTMを使用しているため、ある程度のスケーリングが必要です。

scaler = MinMaxScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

さて、難しい部分、モデルについてです。

num_units=50
activation_function = 'sigmoid'
optimizer = 'adam'
loss_function = 'mean_squared_error'
batch_size = 10
num_epochs = 100

 # Initialize the RNN
regressor = Sequential()

 # Adding the input layer and the LSTM layer
regressor.add(LSTM(units = num_units, return_sequences=True ,activation = activation_function, 
input_shape=(X_train.shape[1], 1)))

 # Adding the output layer
regressor.add(Dense(units = 1))

 # Compiling the RNN
regressor.compile(optimizer = optimizer, loss = loss_function)

# Using the training set to train the model
regressor.fit(X_train_scaled, y_train, batch_size = batch_size, epochs = num_epochs)

ただし、次のエラーが発生します。

ValueError: Input 0 of layer sequential_11 is incompatible with the layer: expected ndim=3, found 
ndim=2. Full shape received: [None, 5]

パラメータや入力の形状をどのように選択するのかわかりません。私はいくつかのビデオを見たり、いくつかのGithubページを読んだりしましたが、誰もがLSTMを異なる方法で実行しているようで、実装がさらに困難になっています。前のエラーはおそらく形状に起因していますが、それ以外はすべて正しいですか?そして、どうすればこれを修正して機能させることができますか?ありがとう

編集:この同様の質問は私の問題を解決しません..私はそこから解決策を試しました

x_train = X_train_scaled.reshape(-1, 1, 5)
x_test  = X_test_scaled.reshape(-1, 1, 5)

(私のX_testとy_testには1つの列しかありません)。そして、解決策もうまくいかないようです。私は今このエラーを受け取ります:

ValueError: Input 0 is incompatible with layer sequential_22: expected shape= 
(None, None, 1), found shape=[None, 1, 5]

回答

2 YoanB.M.Sc Dec 22 2020 at 21:18

入力:

問題は、モデルが形状の3D入力を期待している(batch, sequence, features)のに、X_train実際にはデータフレームのスライスであるため、2D配列:

X1=df_train[['day_of_month','day_of_week','month','quarter','holidays']]
X_train, y_train =X1, y1

私はあなたの列があなたの特徴であると思われるので、あなたが通常することはあなたがそのようにX_train見えるようにあなたのdfの「スタックスライス」です:

これが形状のダミー2Dデータセットです(15,5)

data = np.zeros((15,5))

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

形状を変更して、バッチ寸法を追加できます。次に例を示し(15,1,5)ます。

data = data[:,np.newaxis,:] 

array([[[0., 0., 0., 0., 0.]],

       [[0., 0., 0., 0., 0.]],

       [[0., 0., 0., 0., 0.]],

       [[0., 0., 0., 0., 0.]],

       [[0., 0., 0., 0., 0.]],

       [[0., 0., 0., 0., 0.]],

       [[0., 0., 0., 0., 0.]],

       [[0., 0., 0., 0., 0.]],

       [[0., 0., 0., 0., 0.]],

       [[0., 0., 0., 0., 0.]],

       [[0., 0., 0., 0., 0.]],

       [[0., 0., 0., 0., 0.]],

       [[0., 0., 0., 0., 0.]],

       [[0., 0., 0., 0., 0.]],

       [[0., 0., 0., 0., 0.]]])

同じデータですが、表示方法が異なります。この例では、batch = 15そしてsequence = 1、あなたの場合のシーケンスの長さはわかりませんが、何でもかまいません。

モデル:

今あなたのモデルで、あなたがこれを渡すとき、keras input_shape期待してください(batch, sequence, features)

input_shape=(X_train.shape[1], 1)

これは、モデルに表示されるものです:(None, Sequence = X_train.shape[1] , num_features = 1) Noneバッチディメンション用です。形を変えたらinput_shape、新しい配列に一致するように修正する必要があります。

1 mujjiga Dec 24 2020 at 21:27

これは、LSTMを使用して解決している多変量回帰問題です。コードに飛び込む前に、それが何を意味するのかを実際に見てみましょう

問題文:

  • あなたは持っている5機能のholidays, day_of_month, day_of_week,month,quarter1日あたりのk
  • 任意の日nについて、たとえば最後の「m」日の特徴を考慮してyn3日目のを予測します。

ウィンドウデータセットの作成:

  • モデルにフィードする日数を最初に決定する必要があります。これはシーケンス長と呼ばれます(この例では3に固定します)。
  • トレインとテストのデータセットを作成するには、シーケンスの長さの日を分割する必要があります。これは、ウィンドウサイズがシーケンス長であるスライディングウィンドウを使用して行われます。
  • ご覧のとおり、シーケンスの長さは最後のpレコードで利用できる予測はありませんp
  • timeseries_dataset_from_arrayメソッドを使用してウィンドウデータセットの作成を行います。
  • より高度なものについては、公式のtfドキュメントに従ってください。

LSTMモデル

したがって、私たちが達成したい絵は以下のとおりです。

LSTMセルの展開ごとに、その日の5つの機能を渡し、シーケンスの長さであるm時間に展開しますmy最終日の予想です。

コード:

import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers, models
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split

# Model
regressor =  models.Sequential()
regressor.add(layers.LSTM(5, return_sequences=True))
regressor.add(layers.Dense(1))
regressor.compile(optimizer='sgd', loss='mse')

# Dummy data
n = 10000
df = pd.DataFrame(
    {
      'y': np.arange(n),
      'holidays': np.random.randn(n),
      'day_of_month': np.random.randn(n),
      'day_of_week': np.random.randn(n),
      'month': np.random.randn(n),
      'quarter': np.random.randn(n),     
    }
)

# Train test split
train_df, test_df = train_test_split(df)
print (train_df.shape, test_df.shape)\

# Create y to be predicted 
# given last n days predict todays y

# train data
sequence_length = 3
y_pred = train_df['y'][sequence_length-1:].values
train_df = train_df[:-2]
train_df['y_pred'] = y_pred

# Validataion data
y_pred = test_df['y'][sequence_length-1:].values
test_df = test_df[:-2]
test_df['y_pred'] = y_pred

# Create window datagenerators

# Train data generator
train_X = train_df[['holidays','day_of_month','day_of_week','month','month']]
train_y = train_df['y_pred']
train_dataset = tf.keras.preprocessing.timeseries_dataset_from_array(
    train_X, train_y, sequence_length=sequence_length, shuffle=True, batch_size=4)

# Validation data generator
test_X = test_df[['holidays','day_of_month','day_of_week','month','month']]
test_y = test_df['y_pred']
test_dataset = tf.keras.preprocessing.timeseries_dataset_from_array(
    test_X, test_y, sequence_length=sequence_length, shuffle=True, batch_size=4)

# Finally fit the model
regressor.fit(train_dataset, validation_data=test_dataset, epochs=3)

出力:

(7500, 6) (2500, 6)
Epoch 1/3
1874/1874 [==============================] - 8s 3ms/step - loss: 9974697.3664 - val_loss: 8242597.5000
Epoch 2/3
1874/1874 [==============================] - 6s 3ms/step - loss: 8367530.7117 - val_loss: 8256667.0000
Epoch 3/3
1874/1874 [==============================] - 6s 3ms/step - loss: 8379048.3237 - val_loss: 8233981.5000
<tensorflow.python.keras.callbacks.History at 0x7f3e94bdd198>