CNTK - Рекуррентная нейронная сеть

Теперь давайте поймем, как создать рекуррентную нейронную сеть (RNN) в CNTK.

Введение

Мы узнали, как классифицировать изображения с помощью нейронной сети, и это одна из знаковых задач в глубоком обучении. Но еще одна область, в которой нейронные сети преуспевают и в которой проводится много исследований, - это рекуррентные нейронные сети (RNN). Здесь мы узнаем, что такое RNN и как ее можно использовать в сценариях, где нам нужно иметь дело с данными временных рядов.

Что такое рекуррентная нейронная сеть?

Рекуррентные нейронные сети (RNN) можно определить как особую разновидность нейронных сетей, которые способны рассуждать с течением времени. RNN в основном используются в сценариях, где нам нужно иметь дело со значениями, которые меняются во времени, то есть данными временных рядов. Чтобы лучше понять это, давайте проведем небольшое сравнение между обычными нейронными сетями и рекуррентными нейронными сетями -

  • Как мы знаем, в обычной нейронной сети мы можем предоставить только один вход. Это ограничивает результат только одним предсказанием. Например, мы можем выполнить перевод текста с помощью обычных нейронных сетей.

  • С другой стороны, в рекуррентных нейронных сетях мы можем предоставить последовательность выборок, которые приводят к единственному прогнозу. Другими словами, используя RNN, мы можем предсказать выходную последовательность на основе входной последовательности. Например, было довольно много успешных экспериментов с RNN в задачах перевода.

Использование рекуррентной нейронной сети

RNN можно использовать несколькими способами. Некоторые из них следующие -

Прогнозирование одного выхода

Прежде чем углубляться в этапы того, как RNN может предсказать одиночный результат на основе последовательности, давайте посмотрим, как выглядит базовая RNN -

Как видно на приведенной выше диаграмме, RNN содержит петлевое соединение со входом, и всякий раз, когда мы вводим последовательность значений, он будет обрабатывать каждый элемент в последовательности как временные шаги.

Более того, благодаря кольцевому соединению RNN может комбинировать сгенерированный вывод с вводом для следующего элемента в последовательности. Таким образом, RNN создаст память по всей последовательности, которую можно использовать для прогнозирования.

Чтобы сделать прогноз с помощью RNN, мы можем выполнить следующие шаги:

  • Во-первых, чтобы создать начальное скрытое состояние, нам нужно скормить первый элемент входной последовательности.

  • После этого, чтобы создать обновленное скрытое состояние, нам нужно взять начальное скрытое состояние и объединить его со вторым элементом входной последовательности.

  • Наконец, чтобы создать окончательное скрытое состояние и предсказать результат для RNN, нам нужно взять последний элемент во входной последовательности.

Таким образом, с помощью этого петлевого соединения мы можем научить RNN распознавать закономерности, которые возникают с течением времени.

Прогнозирование последовательности

Рассмотренная выше базовая модель RNN может быть распространена и на другие варианты использования. Например, мы можем использовать его для прогнозирования последовательности значений на основе одного ввода. В этом сценарии, чтобы сделать прогноз с помощью RNN, мы можем выполнить следующие шаги:

  • Во-первых, чтобы создать начальное скрытое состояние и предсказать первый элемент в выходной последовательности, нам нужно передать входную выборку в нейронную сеть.

  • После этого, чтобы создать обновленное скрытое состояние и второй элемент в выходной последовательности, нам нужно объединить начальное скрытое состояние с тем же образцом.

  • Наконец, чтобы обновить скрытое состояние еще раз и предсказать последний элемент в выходной последовательности, мы подаем образец в другой раз.

Прогнозирование последовательностей

Как мы видели, как предсказать одно значение на основе последовательности и как предсказать последовательность на основе одного значения. Теперь давайте посмотрим, как мы можем предсказать последовательности для последовательностей. В этом сценарии, чтобы сделать прогноз с помощью RNN, мы можем выполнить следующие шаги:

  • Во-первых, чтобы создать начальное скрытое состояние и предсказать первый элемент в выходной последовательности, нам нужно взять первый элемент во входной последовательности.

  • После этого, чтобы обновить скрытое состояние и предсказать второй элемент в выходной последовательности, нам нужно взять начальное скрытое состояние.

  • Наконец, чтобы предсказать последний элемент в выходной последовательности, нам нужно взять обновленное скрытое состояние и последний элемент во входной последовательности.

Работа РНН

Чтобы понять работу рекуррентных нейронных сетей (RNN), нам нужно сначала понять, как работают повторяющиеся слои в сети. Итак, сначала давайте обсудим, как e может предсказать результат с помощью стандартного повторяющегося слоя.

Прогнозирование вывода со стандартным слоем RNN

Как мы уже обсуждали ранее, базовый уровень в RNN сильно отличается от обычного уровня в нейронной сети. В предыдущем разделе мы также продемонстрировали на схеме базовую архитектуру RNN. Чтобы обновить скрытое состояние для последовательности первого шага, мы можем использовать следующую формулу -

В приведенном выше уравнении мы вычисляем новое скрытое состояние путем вычисления скалярного произведения между начальным скрытым состоянием и набором весов.

Теперь для следующего шага скрытое состояние для текущего временного шага используется как начальное скрытое состояние для следующего временного шага в последовательности. Вот почему, чтобы обновить скрытое состояние для второго временного шага, мы можем повторить вычисления, выполненные на первом временном шаге, следующим образом:

Затем мы можем повторить процесс обновления скрытого состояния для третьего и последнего шага в последовательности, как показано ниже -

И когда мы обработали все вышеперечисленные шаги в последовательности, мы можем рассчитать результат следующим образом:

Для приведенной выше формулы мы использовали третий набор весов и скрытое состояние из последнего временного шага.

Продвинутые рекуррентные единицы

Основная проблема с базовым рекуррентным слоем - проблема исчезающего градиента, и из-за этого он не очень хорош для изучения долгосрочных корреляций. Проще говоря, базовый рекуррентный слой не очень хорошо обрабатывает длинные последовательности. Вот почему некоторые другие типы повторяющихся слоев, которые больше подходят для работы с более длинными последовательностями, следующие:

Долговременная память (LSTM)

Сети долговременной краткосрочной памяти (LSTM) были представлены Hochreiter & Schmidhuber. Это решило проблему получения базового повторяющегося слоя, чтобы запоминать вещи на долгое время. Архитектура LSTM приведена выше на схеме. Как мы видим, у него есть входные нейроны, ячейки памяти и выходные нейроны. Чтобы бороться с проблемой исчезающего градиента, сети долговременной памяти используют явную ячейку памяти (хранят предыдущие значения) и следующие ворота -

  • Forget gate- Как следует из названия, он указывает ячейке памяти забыть предыдущие значения. Ячейка памяти хранит значения до тех пор, пока вентиль, то есть «ворота забыть», не скажет ему забыть их.

  • Input gate- Как следует из названия, он добавляет в ячейку новый материал.

  • Output gate- Как следует из названия, выходной элемент решает, когда перейти по векторам от ячейки к следующему скрытому состоянию.

Закрытые рекуррентные единицы (ГРУ)

Gradient recurrent units(GRUs) - это небольшая вариация сети LSTM. У него на один вентиль меньше, и он немного отличается от LSTM. Его архитектура показана на схеме выше. Он имеет входные нейроны, закрытые ячейки памяти и выходные нейроны. Сеть Gated Recurrent Units имеет следующие два входа:

  • Update gate- Он определяет следующие две вещи:

    • Какой объем информации нужно сохранить из последнего состояния?

    • Какое количество информации нужно впустить с предыдущего слоя?

  • Reset gate- Функциональность шлюза сброса очень похожа на функцию шлюза забывания сети LSTM. Единственное отличие в том, что он расположен немного иначе.

В отличие от сети с долгосрочной памятью, сети Gated Recurrent Unit немного быстрее и проще в эксплуатации.

Создание структуры RNN

Прежде чем мы сможем начать прогнозирование выходных данных любого из наших источников данных, нам нужно сначала построить RNN, и построение RNN точно такое же, как мы строили обычную нейронную сеть в предыдущем разделе. Ниже приведен код для создания одного:

from cntk.losses import squared_error
from cntk.io import CTFDeserializer, MinibatchSource, INFINITELY_REPEAT, StreamDefs, StreamDef
from cntk.learners import adam
from cntk.logging import ProgressPrinter
from cntk.train import TestConfig
BATCH_SIZE = 14 * 10
EPOCH_SIZE = 12434
EPOCHS = 10

Размещение нескольких слоев

Мы также можем складывать несколько повторяющихся слоев в CNTK. Например, мы можем использовать следующую комбинацию слоев:

from cntk import sequence, default_options, input_variable
from cntk.layers import Recurrence, LSTM, Dropout, Dense, Sequential, Fold
features = sequence.input_variable(1)
with default_options(initial_state = 0.1):
   model = Sequential([
      Fold(LSTM(15)),
      Dense(1)
   ])(features)
target = input_variable(1, dynamic_axes=model.dynamic_axes)

Как мы видим в приведенном выше коде, у нас есть два следующих способа смоделировать RNN в CNTK:

  • Во-первых, если нам нужен только окончательный результат повторяющегося слоя, мы можем использовать Fold Layer в сочетании с повторяющимся слоем, например GRU, LSTM или даже RNNStep.

  • Во-вторых, в качестве альтернативы мы также можем использовать Recurrence блок.

Обучение RNN с данными временных рядов

Когда мы построим модель, давайте посмотрим, как мы можем обучить RNN в CNTK -

from cntk import Function
@Function
def criterion_factory(z, t):
   loss = squared_error(z, t)
   metric = squared_error(z, t)
   return loss, metric
loss = criterion_factory(model, target)
learner = adam(model.parameters, lr=0.005, momentum=0.9)

Теперь, чтобы загрузить данные в процесс обучения, нам нужно десериализовать последовательности из набора файлов CTF. Следующий код имеетcreate_datasource функция, которая является полезной служебной функцией для создания как обучающего, так и тестового источника данных.

target_stream = StreamDef(field='target', shape=1, is_sparse=False)
features_stream = StreamDef(field='features', shape=1, is_sparse=False)
deserializer = CTFDeserializer(filename, StreamDefs(features=features_stream, target=target_stream))
   datasource = MinibatchSource(deserializer, randomize=True, max_sweeps=sweeps)
return datasource
train_datasource = create_datasource('Training data filename.ctf')#we need to provide the location of training file we created from our dataset.
test_datasource = create_datasource('Test filename.ctf', sweeps=1) #we need to provide the location of testing file we created from our dataset.

Теперь, когда мы настроили источники данных, модель и функцию потерь, мы можем начать процесс обучения. Это очень похоже на то, что мы делали в предыдущих разделах с основными нейронными сетями.

progress_writer = ProgressPrinter(0)
test_config = TestConfig(test_datasource)
input_map = {
   features: train_datasource.streams.features,
   target: train_datasource.streams.target
}
history = loss.train(
   train_datasource,
   epoch_size=EPOCH_SIZE,
   parameter_learners=[learner],
   model_inputs_to_streams=input_map,
   callbacks=[progress_writer, test_config],
   minibatch_size=BATCH_SIZE,
   max_epochs=EPOCHS
)

Мы получим следующий результат:

Выход

average  since  average  since  examples
loss      last  metric  last
------------------------------------------------------
Learning rate per minibatch: 0.005
0.4      0.4    0.4      0.4      19
0.4      0.4    0.4      0.4      59
0.452    0.495  0.452    0.495   129
[…]

Проверка модели

На самом деле повторение с помощью RNN очень похоже на прогнозирование с помощью любой другой модели CNK. Единственная разница в том, что нам нужно предоставлять последовательности, а не отдельные образцы.

Теперь, когда наша RNN, наконец, закончила обучение, мы можем проверить модель, протестировав ее с использованием последовательности нескольких образцов следующим образом:

import pickle
with open('test_samples.pkl', 'rb') as test_file:
test_samples = pickle.load(test_file)
model(test_samples) * NORMALIZE

Выход

array([[ 8081.7905],
[16597.693 ],
[13335.17 ],
...,
[11275.804 ],
[15621.697 ],
[16875.555 ]], dtype=float32)