Keras-LSTM RNN을 사용한 시계열 예측

이 장에서는 시퀀스 분석을 수행하기 위해 간단한 LSTM (Long Short Term Memory) 기반 RNN을 작성해 보겠습니다. 시퀀스는 각 값이 특정 시간 인스턴스에 해당하는 값 집합입니다. 문장을 읽는 간단한 예를 살펴 보겠습니다. 문장을 읽고 이해하는 것은 주어진 순서로 단어를 읽고 주어진 문맥에서 각 단어와 그 의미를 이해하고 마지막으로 긍정적 또는 부정적인 감정으로 문장을 이해하는 것을 포함합니다.

여기에서 단어는 값으로 간주하고 첫 번째 값은 첫 번째 단어에 해당하고 두 번째 값은 두 번째 단어에 해당하며 순서는 엄격하게 유지됩니다. Sequence Analysis 주어진 텍스트의 감정 분석을 찾기 위해 자연어 처리에서 자주 사용됩니다.

IMDB 영화 리뷰를 분석하고 긍정적 / 부정적 감정을 찾기위한 LSTM 모델을 만들어 보겠습니다.

시퀀스 분석을위한 모델은 다음과 같이 나타낼 수 있습니다.

모델의 핵심 기능은 다음과 같습니다.

  • 128 개의 피처가있는 Embedding 레이어를 사용하는 입력 레이어입니다.

  • 첫 번째 레이어 인 Dense는 일반 드롭 아웃 및 반복 드롭 아웃이 0.2로 설정된 128 개 단위로 구성됩니다.

  • 출력 레이어, Dense 는 1 개의 단위와 '시그 모이 드'활성화 기능으로 구성됩니다.

  • 사용하다 binary_crossentropy 손실 함수로.

  • 사용하다 adam Optimizer로.

  • 사용하다 accuracy 메트릭으로.

  • 배치 크기로 32를 사용합니다.

  • 15를 시대로 사용하십시오.

  • 단어의 최대 길이로 80을 사용하십시오.

  • 주어진 문장의 최대 단어 수로 2000을 사용하십시오.

1 단계 : 모듈 가져 오기

필요한 모듈을 가져 오겠습니다.

from keras.preprocessing import sequence 
from keras.models import Sequential 
from keras.layers import Dense, Embedding 
from keras.layers import LSTM 
from keras.datasets import imdb

2 단계 : 데이터로드

imdb 데이터 셋을 가져 오겠습니다.

(x_train, y_train), (x_test, y_test) = imdb.load_data(num_words = 2000)

여기,

  • imdbKeras에서 제공하는 데이터 세트입니다. 영화 컬렉션과 리뷰를 나타냅니다.

  • num_words 리뷰의 최대 단어 수를 나타냅니다.

3 단계 : 데이터 처리

모델에 따라 데이터 세트를 변경하여 모델에 입력 할 수 있도록하겠습니다. 데이터는 아래 코드를 사용하여 변경할 수 있습니다-

x_train = sequence.pad_sequences(x_train, maxlen=80) 
x_test = sequence.pad_sequences(x_test, maxlen=80)

여기,

sequence.pad_sequences 입력 데이터 목록을 모양으로 변환하고, (data) 모양의 2D NumPy 배열로 (data, timesteps). 기본적으로 주어진 데이터에 시간 단계 개념을 추가합니다. 길이의 시간 단계를 생성합니다.maxlen.

4 단계 : 모델 생성

실제 모델을 만들어 보겠습니다.

model = Sequential() 
model.add(Embedding(2000, 128)) 
model.add(LSTM(128, dropout = 0.2, recurrent_dropout = 0.2)) 
model.add(Dense(1, activation = 'sigmoid'))

여기,

우리는 사용했습니다 Embedding layer입력 레이어로 추가 한 다음 LSTM 레이어를 추가했습니다. 마지막으로Dense layer 출력 레이어로 사용됩니다.

5 단계 : 모델 컴파일

선택한 손실 함수, 최적화 프로그램 및 메트릭을 사용하여 모델을 컴파일 해 보겠습니다.

model.compile(loss = 'binary_crossentropy', 
   optimizer = 'adam', metrics = ['accuracy'])

6 단계 : 모델 학습

다음을 사용하여 모델을 학습 시키십시오. fit() 방법.

model.fit(
   x_train, y_train, 
   batch_size = 32, 
   epochs = 15, 
   validation_data = (x_test, y_test)
)

응용 프로그램을 실행하면 아래 정보가 출력됩니다.

Epoch 1/15 2019-09-24 01:19:01.151247: I 
tensorflow/core/platform/cpu_feature_guard.cc:142] 
Your CPU supports instructions that this 
TensorFlow binary was not co mpiled to use: AVX2 
25000/25000 [==============================] - 101s 4ms/step - loss: 0.4707 
- acc: 0.7716 - val_loss: 0.3769 - val_acc: 0.8349 Epoch 2/15 
25000/25000 [==============================] - 95s 4ms/step - loss: 0.3058 
- acc: 0.8756 - val_loss: 0.3763 - val_acc: 0.8350 Epoch 3/15 
25000/25000 [==============================] - 91s 4ms/step - loss: 0.2100 
- acc: 0.9178 - val_loss: 0.5065 - val_acc: 0.8110 Epoch 4/15 
25000/25000 [==============================] - 90s 4ms/step - loss: 0.1394 
- acc: 0.9495 - val_loss: 0.6046 - val_acc: 0.8146 Epoch 5/15 
25000/25000 [==============================] - 90s 4ms/step - loss: 0.0973 
- acc: 0.9652 - val_loss: 0.5969 - val_acc: 0.8147 Epoch 6/15 
25000/25000 [==============================] - 98s 4ms/step - loss: 0.0759 
- acc: 0.9730 - val_loss: 0.6368 - val_acc: 0.8208 Epoch 7/15 
25000/25000 [==============================] - 95s 4ms/step - loss: 0.0578 
- acc: 0.9811 - val_loss: 0.6657 - val_acc: 0.8184 Epoch 8/15 
25000/25000 [==============================] - 97s 4ms/step - loss: 0.0448 
- acc: 0.9850 - val_loss: 0.7452 - val_acc: 0.8136 Epoch 9/15 
25000/25000 [==============================] - 95s 4ms/step - loss: 0.0324 
- acc: 0.9894 - val_loss: 0.7616 - val_acc: 0.8162Epoch 10/15 
25000/25000 [==============================] - 100s 4ms/step - loss: 0.0247 
- acc: 0.9922 - val_loss: 0.9654 - val_acc: 0.8148 Epoch 11/15 
25000/25000 [==============================] - 99s 4ms/step - loss: 0.0169 
- acc: 0.9946 - val_loss: 1.0013 - val_acc: 0.8104 Epoch 12/15 
25000/25000 [==============================] - 90s 4ms/step - loss: 0.0154 
- acc: 0.9948 - val_loss: 1.0316 - val_acc: 0.8100 Epoch 13/15 
25000/25000 [==============================] - 89s 4ms/step - loss: 0.0113 
- acc: 0.9963 - val_loss: 1.1138 - val_acc: 0.8108 Epoch 14/15 
25000/25000 [==============================] - 89s 4ms/step - loss: 0.0106 
- acc: 0.9971 - val_loss: 1.0538 - val_acc: 0.8102 Epoch 15/15 
25000/25000 [==============================] - 89s 4ms/step - loss: 0.0090 
- acc: 0.9972 - val_loss: 1.1453 - val_acc: 0.8129 
25000/25000 [==============================] - 10s 390us/step

7 단계-모델 평가

테스트 데이터를 사용하여 모델을 평가 해 보겠습니다.

score, acc = model.evaluate(x_test, y_test, batch_size = 32) 
   
print('Test score:', score) 
print('Test accuracy:', acc)

위의 코드를 실행하면 아래 정보가 출력됩니다.

Test score: 1.145306069601178 
Test accuracy: 0.81292