CNTK - Регрессия нейронной сети
Эта глава поможет вам понять регресс нейронной сети в отношении CNTK.
Введение
Как мы знаем, чтобы предсказать числовое значение из одной или нескольких переменных-предикторов, мы используем регрессию. Давайте рассмотрим пример прогнозирования средней стоимости дома, скажем, в одном из 100 городов. Для этого у нас есть данные, которые включают -
Статистика преступности для каждого города.
Возраст домов в каждом городе.
Мера расстояния от каждого города до главного места.
Соотношение учеников и учителей в каждом городе.
Расовая демографическая статистика для каждого города.
Средняя стоимость дома в каждом городе.
На основе этих пяти переменных-предикторов мы хотели бы спрогнозировать среднюю стоимость дома. И для этого мы можем создать модель линейной регрессии по линиям:
Y = a0+a1(crime)+a2(house-age)+(a3)(distance)+(a4)(ratio)+(a5)(racial)
В приведенном выше уравнении -
Y прогнозируемое медианное значение
a0 - константа и
a1 через a5 все константы, связанные с пятью предикторами, которые мы обсуждали выше.
У нас также есть альтернативный подход с использованием нейронной сети. Это позволит создать более точную модель прогноза.
Здесь мы будем создавать регрессионную модель нейронной сети с помощью CNTK.
Загрузка набора данных
Чтобы реализовать регрессию нейронной сети с использованием CNTK, мы будем использовать набор данных о стоимости домов в Бостоне. Набор данных можно загрузить из репозитория машинного обучения UCI, который доступен по адресуhttps://archive.ics.uci.edu/ml/machine-learning-databases/housing/. В этом наборе данных всего 14 переменных и 506 экземпляров.
Но для нашей программы реализации мы собираемся использовать шесть из 14 переменных и 100 экземпляров. Из 6, 5 как предсказатели и один как значение для предсказания. Из 100 экземпляров мы будем использовать 80 для обучения и 20 для тестирования. Величина, которую мы хотим спрогнозировать, - это средняя цена дома в городе. Давайте посмотрим на пять предикторов, которые мы будем использовать -
Crime per capita in the town - Мы ожидаем, что с этим предсказателем будут связаны меньшие значения.
Proportion of owner - жилые дома, построенные до 1940 г. - Мы ожидаем, что меньшие значения будут связаны с этим предиктором, поскольку большее значение означает более старый дом.
Weighed distance of the town to five Boston employment centers.
Area school pupil-to-teacher ratio.
An indirect metric of the proportion of black residents in the town.
Подготовка файлов для обучения и тестирования
Как и раньше, сначала нам нужно преобразовать необработанные данные в формат CNTK. Мы собираемся использовать первые 80 элементов данных для целей обучения, поэтому формат CNTK с разделителями-табуляторами выглядит следующим образом:
|predictors 1.612820 96.90 3.76 21.00 248.31 |medval 13.50
|predictors 0.064170 68.20 3.36 19.20 396.90 |medval 18.90
|predictors 0.097440 61.40 3.38 19.20 377.56 |medval 20.00
. . .
Следующие 20 предметов, также преобразованных в формат CNTK, будут использованы для целей тестирования.
Построение регрессионной модели
Во-первых, нам нужно обработать файлы данных в формате CNTK, и для этого мы собираемся использовать вспомогательную функцию с именем create_reader следующим образом -
def create_reader(path, input_dim, output_dim, rnd_order, sweeps):
x_strm = C.io.StreamDef(field='predictors', shape=input_dim, is_sparse=False)
y_strm = C.io.StreamDef(field='medval', shape=output_dim, is_sparse=False)
streams = C.io.StreamDefs(x_src=x_strm, y_src=y_strm)
deserial = C.io.CTFDeserializer(path, streams)
mb_src = C.io.MinibatchSource(deserial, randomize=rnd_order, max_sweeps=sweeps)
return mb_src
Затем нам нужно создать вспомогательную функцию, которая принимает объект мини-пакета CNTK и вычисляет настраиваемую метрику точности.
def mb_accuracy(mb, x_var, y_var, model, delta):
num_correct = 0
num_wrong = 0
x_mat = mb[x_var].asarray()
y_mat = mb[y_var].asarray()
for i in range(mb[x_var].shape[0]):
v = model.eval(x_mat[i])
y = y_mat[i]
if np.abs(v[0,0] – y[0,0]) < delta:
num_correct += 1
else:
num_wrong += 1
return (num_correct * 100.0)/(num_correct + num_wrong)
Теперь нам нужно установить аргументы архитектуры для нашей NN, а также указать расположение файлов данных. Это можно сделать с помощью следующего кода Python -
def main():
print("Using CNTK version = " + str(C.__version__) + "\n")
input_dim = 5
hidden_dim = 20
output_dim = 1
train_file = ".\\...\\" #provide the name of the training file(80 data items)
test_file = ".\\...\\" #provide the name of the test file(20 data items)
Теперь, с помощью следующей строки кода наша программа создаст необученную NN -
X = C.ops.input_variable(input_dim, np.float32)
Y = C.ops.input_variable(output_dim, np.float32)
with C.layers.default_options(init=C.initializer.uniform(scale=0.01, seed=1)):
hLayer = C.layers.Dense(hidden_dim, activation=C.ops.tanh, name='hidLayer')(X)
oLayer = C.layers.Dense(output_dim, activation=None, name='outLayer')(hLayer)
model = C.ops.alias(oLayer)
Теперь, когда мы создали двойную необученную модель, нам нужно настроить объект алгоритма Learner. Мы собираемся использовать учащийся SGD иsquared_error функция потерь -
tr_loss = C.squared_error(model, Y)
max_iter = 3000
batch_size = 5
base_learn_rate = 0.02
sch=C.learning_parameter_schedule([base_learn_rate, base_learn_rate/2], minibatch_size=batch_size, epoch_size=int((max_iter*batch_size)/2))
learner = C.sgd(model.parameters, sch)
trainer = C.Trainer(model, (tr_loss), [learner])
Теперь, когда мы закончили с объектом алгоритма обучения, нам нужно создать функцию чтения для чтения данных обучения -
rdr = create_reader(train_file, input_dim, output_dim, rnd_order=True, sweeps=C.io.INFINITELY_REPEAT)
boston_input_map = { X : rdr.streams.x_src, Y : rdr.streams.y_src }
Теперь пора обучить нашу модель NN -
for i in range(0, max_iter):
curr_batch = rdr.next_minibatch(batch_size, input_map=boston_input_map) trainer.train_minibatch(curr_batch)
if i % int(max_iter/10) == 0:
mcee = trainer.previous_minibatch_loss_average
acc = mb_accuracy(curr_batch, X, Y, model, delta=3.00)
print("batch %4d: mean squared error = %8.4f, accuracy = %5.2f%% " \ % (i, mcee, acc))
После того, как мы закончили обучение, давайте оценим модель, используя элементы тестовых данных -
print("\nEvaluating test data \n")
rdr = create_reader(test_file, input_dim, output_dim, rnd_order=False, sweeps=1)
boston_input_map = { X : rdr.streams.x_src, Y : rdr.streams.y_src }
num_test = 20
all_test = rdr.next_minibatch(num_test, input_map=boston_input_map)
acc = mb_accuracy(all_test, X, Y, model, delta=3.00)
print("Prediction accuracy = %0.2f%%" % acc)
После оценки точности нашей обученной модели NN мы будем использовать ее для прогнозирования невидимых данных -
np.set_printoptions(precision = 2, suppress=True)
unknown = np.array([[0.09, 50.00, 4.5, 17.00, 350.00], dtype=np.float32)
print("\nPredicting median home value for feature/predictor values: ")
print(unknown[0])
pred_prob = model.eval({X: unknown)
print("\nPredicted value is: ")
print(“$%0.2f (x1000)” %pred_value[0,0])
Полная модель регрессии
import numpy as np
import cntk as C
def create_reader(path, input_dim, output_dim, rnd_order, sweeps):
x_strm = C.io.StreamDef(field='predictors', shape=input_dim, is_sparse=False)
y_strm = C.io.StreamDef(field='medval', shape=output_dim, is_sparse=False)
streams = C.io.StreamDefs(x_src=x_strm, y_src=y_strm)
deserial = C.io.CTFDeserializer(path, streams)
mb_src = C.io.MinibatchSource(deserial, randomize=rnd_order, max_sweeps=sweeps)
return mb_src
def mb_accuracy(mb, x_var, y_var, model, delta):
num_correct = 0
num_wrong = 0
x_mat = mb[x_var].asarray()
y_mat = mb[y_var].asarray()
for i in range(mb[x_var].shape[0]):
v = model.eval(x_mat[i])
y = y_mat[i]
if np.abs(v[0,0] – y[0,0]) < delta:
num_correct += 1
else:
num_wrong += 1
return (num_correct * 100.0)/(num_correct + num_wrong)
def main():
print("Using CNTK version = " + str(C.__version__) + "\n")
input_dim = 5
hidden_dim = 20
output_dim = 1
train_file = ".\\...\\" #provide the name of the training file(80 data items)
test_file = ".\\...\\" #provide the name of the test file(20 data items)
X = C.ops.input_variable(input_dim, np.float32)
Y = C.ops.input_variable(output_dim, np.float32)
with C.layers.default_options(init=C.initializer.uniform(scale=0.01, seed=1)):
hLayer = C.layers.Dense(hidden_dim, activation=C.ops.tanh, name='hidLayer')(X)
oLayer = C.layers.Dense(output_dim, activation=None, name='outLayer')(hLayer)
model = C.ops.alias(oLayer)
tr_loss = C.squared_error(model, Y)
max_iter = 3000
batch_size = 5
base_learn_rate = 0.02
sch = C.learning_parameter_schedule([base_learn_rate, base_learn_rate/2], minibatch_size=batch_size, epoch_size=int((max_iter*batch_size)/2))
learner = C.sgd(model.parameters, sch)
trainer = C.Trainer(model, (tr_loss), [learner])
rdr = create_reader(train_file, input_dim, output_dim, rnd_order=True, sweeps=C.io.INFINITELY_REPEAT)
boston_input_map = { X : rdr.streams.x_src, Y : rdr.streams.y_src }
for i in range(0, max_iter):
curr_batch = rdr.next_minibatch(batch_size, input_map=boston_input_map) trainer.train_minibatch(curr_batch)
if i % int(max_iter/10) == 0:
mcee = trainer.previous_minibatch_loss_average
acc = mb_accuracy(curr_batch, X, Y, model, delta=3.00)
print("batch %4d: mean squared error = %8.4f, accuracy = %5.2f%% " \ % (i, mcee, acc))
print("\nEvaluating test data \n")
rdr = create_reader(test_file, input_dim, output_dim, rnd_order=False, sweeps=1)
boston_input_map = { X : rdr.streams.x_src, Y : rdr.streams.y_src }
num_test = 20
all_test = rdr.next_minibatch(num_test, input_map=boston_input_map)
acc = mb_accuracy(all_test, X, Y, model, delta=3.00)
print("Prediction accuracy = %0.2f%%" % acc)
np.set_printoptions(precision = 2, suppress=True)
unknown = np.array([[0.09, 50.00, 4.5, 17.00, 350.00], dtype=np.float32)
print("\nPredicting median home value for feature/predictor values: ")
print(unknown[0])
pred_prob = model.eval({X: unknown)
print("\nPredicted value is: ")
print(“$%0.2f (x1000)” %pred_value[0,0])
if __name__== ”__main__”:
main()
Вывод
Using CNTK version = 2.7
batch 0: mean squared error = 385.6727, accuracy = 0.00%
batch 300: mean squared error = 41.6229, accuracy = 20.00%
batch 600: mean squared error = 28.7667, accuracy = 40.00%
batch 900: mean squared error = 48.6435, accuracy = 40.00%
batch 1200: mean squared error = 77.9562, accuracy = 80.00%
batch 1500: mean squared error = 7.8342, accuracy = 60.00%
batch 1800: mean squared error = 47.7062, accuracy = 60.00%
batch 2100: mean squared error = 40.5068, accuracy = 40.00%
batch 2400: mean squared error = 46.5023, accuracy = 40.00%
batch 2700: mean squared error = 15.6235, accuracy = 60.00%
Evaluating test data
Prediction accuracy = 64.00%
Predicting median home value for feature/predictor values:
[0.09 50. 4.5 17. 350.]
Predicted value is:
$21.02(x1000)
Сохранение обученной модели
В этом наборе данных о стоимости дома в Бостоне всего 506 элементов данных (из которых мы подали в суд только 100). Следовательно, обучение модели регрессора NN займет всего несколько секунд, но обучение на большом наборе данных, содержащем сотни или тысячи элементов данных, может занять часы или даже дни.
Мы можем сохранить нашу модель, чтобы нам не пришлось сохранять ее с нуля. С помощью следующего кода Python мы можем сохранить нашу обученную NN -
nn_regressor = “.\\neuralregressor.model” #provide the name of the file
model.save(nn_regressor, format=C.ModelFormat.CNTKv2)
Ниже приведены аргументы функции save (), использованной выше:
Имя файла - это первый аргумент save()функция. Его также можно записать вместе с путем к файлу.
Другой параметр - это format параметр, имеющий значение по умолчанию C.ModelFormat.CNTKv2.
Загрузка обученной модели
После того, как вы сохранили обученную модель, ее очень легко загрузить. Нам нужно только использовать функцию load (). Давайте проверим это в следующем примере -
import numpy as np
import cntk as C
model = C.ops.functions.Function.load(“.\\neuralregressor.model”)
np.set_printoptions(precision = 2, suppress=True)
unknown = np.array([[0.09, 50.00, 4.5, 17.00, 350.00], dtype=np.float32)
print("\nPredicting area median home value for feature/predictor values: ")
print(unknown[0])
pred_prob = model.eval({X: unknown)
print("\nPredicted value is: ")
print(“$%0.2f (x1000)” %pred_value[0,0])
Преимущество сохраненной модели заключается в том, что после загрузки сохраненной модели ее можно использовать точно так же, как если бы модель только что была обучена.