CNTK - Измерение производительности

В этой главе объясняется, как измерить производительность модели в CNKT.

Стратегия проверки производительности модели

После построения модели машинного обучения мы использовали для ее обучения набор образцов данных. Благодаря этому обучению наша модель машинного обучения изучает и выводит некоторые общие правила. Производительность модели машинного обучения имеет значение, когда мы вводим в модель новые образцы, т. Е. Образцы, отличные от предоставленных во время обучения. В этом случае модель ведет себя иначе. Сделать хороший прогноз на этих новых образцах может быть хуже.

Но модель должна хорошо работать и для новых образцов, потому что в производственной среде мы получим разные входные данные, чем мы использовали образцы данных для целей обучения. По этой причине мы должны проверять модель машинного обучения, используя набор образцов, отличный от образцов, которые мы использовали для целей обучения. Здесь мы собираемся обсудить два разных метода создания набора данных для проверки NN.

Набор данных удержания

Это один из самых простых способов создания набора данных для проверки NN. Как следует из названия, в этом методе мы будем удерживать один набор образцов от обучения (скажем, 20%) и использовать его для проверки производительности нашей модели машинного обучения. На следующей диаграмме показано соотношение между обучающей и проверочной выборками.

Модель удерживаемого набора данных гарантирует, что у нас будет достаточно данных для обучения нашей модели машинного обучения, и в то же время у нас будет разумное количество выборок, чтобы получить хорошее измерение производительности модели.

Для включения в обучающий набор и набор тестов рекомендуется выбирать случайные выборки из основного набора данных. Это обеспечивает равномерное распределение между обучающим и тестовым набором.

Ниже приведен пример, в котором мы создаем собственный набор данных удержания, используя train_test_split функция от scikit-learn библиотека.

пример

from sklearn.datasets import load_iris
iris = load_iris()
X = iris.data
y = iris.target
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1)
# Here above test_size = 0.2 represents that we provided 20% of the data as test data.
from sklearn.neighbors import KNeighborsClassifier
from sklearn import metrics
classifier_knn = KNeighborsClassifier(n_neighbors=3)
classifier_knn.fit(X_train, y_train)
y_pred = classifier_knn.predict(X_test)
# Providing sample data and the model will make prediction out of that data
sample = [[5, 5, 3, 2], [2, 4, 3, 5]]
preds = classifier_knn.predict(sample)
pred_species = [iris.target_names[p] for p in preds] print("Predictions:", pred_species)

Вывод

Predictions: ['versicolor', 'virginica']

При использовании CNTK нам необходимо рандомизировать порядок нашего набора данных каждый раз, когда мы обучаем нашу модель, потому что -

  • На алгоритмы глубокого обучения сильно влияют генераторы случайных чисел.

  • Порядок, в котором мы предоставляем образцы NN во время обучения, сильно влияет на его производительность.

Основным недостатком использования метода удержания набора данных является то, что он ненадежен, поскольку иногда мы получаем очень хорошие результаты, а иногда - плохие.

K-кратная перекрестная проверка

Чтобы сделать нашу модель машинного обучения более надежной, существует метод, называемый перекрестной проверкой в ​​K-кратном порядке. В природе метод перекрестной проверки в K-кратном порядке такой же, как и предыдущий, но он повторяется несколько раз - обычно от 5 до 10 раз. Следующая диаграмма представляет его концепцию -

Работа K-кратной перекрестной проверки

Работу K-кратной перекрестной проверки можно понять с помощью следующих шагов:

Step 1- Как и в методе раздаточного набора данных, в методе перекрестной проверки в K-кратном порядке сначала нам нужно разделить набор данных на обучающий и тестовый набор. В идеале соотношение составляет 80-20, т.е. 80% обучающего набора и 20% тестового набора.

Step 2 - Далее нам нужно обучить нашу модель с помощью обучающего набора.

Step 3- Наконец, мы будем использовать набор тестов для измерения производительности нашей модели. Единственная разница между методом удержания набора данных и методом перекрестной проверки заключается в том, что описанный выше процесс повторяется обычно от 5 до 10 раз, и в конце рассчитывается среднее значение по всем показателям производительности. Это среднее значение будет окончательным показателем производительности.

Давайте посмотрим на пример с небольшим набором данных -

пример

from numpy import array
from sklearn.model_selection import KFold
data = array([0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0])
kfold = KFold(5, True, 1)
for train, test in kfold.split(data):
   print('train: %s, test: %s' % (data[train],(data[test]))

Вывод

train: [0.1 0.2 0.4 0.5 0.6 0.7 0.8 0.9], test: [0.3 1. ]
train: [0.1 0.2 0.3 0.4 0.6 0.8 0.9 1. ], test: [0.5 0.7]
train: [0.2 0.3 0.5 0.6 0.7 0.8 0.9 1. ], test: [0.1 0.4]
train: [0.1 0.3 0.4 0.5 0.6 0.7 0.9 1. ], test: [0.2 0.8]
train: [0.1 0.2 0.3 0.4 0.5 0.7 0.8 1. ], test: [0.6 0.9]

Как мы видим, из-за использования более реалистичного сценария обучения и тестирования метод перекрестной проверки в k-кратном размере дает нам гораздо более стабильное измерение производительности, но, с другой стороны, проверка моделей глубокого обучения занимает много времени.

CNTK не поддерживает проверку k-cross, поэтому для этого нам нужно написать собственный сценарий.

Выявление недостаточного и переоборудования

Независимо от того, используем ли мы раздаточный набор данных или метод перекрестной проверки в k-кратном размере, мы обнаружим, что выходные данные для метрик будут разными для набора данных, используемого для обучения, и набора данных, используемого для проверки.

Обнаружение переобучения

Явление, называемое переобучением, - это ситуация, когда наша модель машинного обучения исключительно хорошо моделирует обучающие данные, но не работает с данными тестирования, то есть не может предсказать тестовые данные.

Это происходит, когда модель машинного обучения изучает определенный паттерн и шум из обучающих данных до такой степени, что это отрицательно влияет на способность этой модели делать обобщения от обучающих данных к новым, то есть невидимым данным. Здесь шум - это нерелевантная информация или случайность в наборе данных.

Ниже приведены два способа, с помощью которых мы можем определить, является ли наша модель переоборудованной или нет.

  • Модель переобучения будет хорошо работать на тех же образцах, которые мы использовали для обучения, но она будет работать очень плохо на новых образцах, то есть на образцах, отличных от обучающих.

  • Модель переоборудована во время проверки, если метрика в тестовом наборе ниже, чем та же метрика, которую мы используем в нашем обучающем наборе.

Обнаружение недостаточного оснащения

Еще одна ситуация, которая может возникнуть в нашем машинном обучении, - это недостаточное оснащение. Это ситуация, когда наша модель машинного обучения плохо моделирует обучающие данные и не может предсказать полезный результат. Когда мы начнем тренироваться в первую эпоху, наша модель будет неадекватной, но по мере прогресса обучения она будет становиться все менее пригодной.

Один из способов определить, подходит ли наша модель или нет, - это посмотреть на метрики для обучающего набора и набора тестов. Наша модель будет недостаточно подходящей, если метрика в тестовом наборе выше, чем метрика в обучающем наборе.