CNTK-메모리 부족 데이터 세트

이 장에서는 메모리 부족 데이터 세트의 성능을 측정하는 방법에 대해 설명합니다.

이전 섹션에서 NN의 성능을 검증하는 다양한 방법에 대해 논의했지만 우리가 논의한 방법은 메모리에 맞는 데이터 세트를 처리하는 방법입니다.

여기서 질문은 메모리 부족 데이터 세트에 대해 발생합니다. 프로덕션 시나리오에서는 교육을 위해 많은 데이터가 필요하기 때문입니다. NN. 이 섹션에서는 미니 배치 소스 및 수동 미니 배치 루프로 작업 할 때 성능을 측정하는 방법에 대해 설명합니다.

미니 배치 소스

메모리 부족 데이터 세트 (예 : 미니 배치 소스)로 작업하는 동안 작은 데이터 세트 (예 : 메모리 내 데이터 세트)로 작업하는 동안 사용한 설정과는 약간 다른 손실 설정과 메트릭이 필요합니다. 먼저 NN 모델의 트레이너에게 데이터를 공급하는 방법을 설정하는 방법을 살펴 보겠습니다.

다음은 구현 단계입니다.

Step 1 − 먼저 cntk.io 모듈은 다음과 같이 미니 배치 소스를 만들기위한 구성 요소를 가져옵니다.

from cntk.io import StreamDef, StreamDefs, MinibatchSource, CTFDeserializer,
 INFINITY_REPEAT

Step 2 − 다음으로 say라는 새 함수를 만듭니다. create_datasource. 이 함수에는 두 개의 매개 변수, 즉 파일 이름과 제한이 있으며 기본값은INFINITELY_REPEAT.

def create_datasource(filename, limit =INFINITELY_REPEAT)

Step 3 − 이제 함수 내에서 StreamDefclass crate는 세 가지 기능이있는 레이블 필드에서 읽는 레이블에 대한 스트림 정의를 생성합니다. 우리는 또한 설정해야합니다is_sparse ...에 False 다음과 같이-

labels_stream = StreamDef(field=’labels’, shape=3, is_sparse=False)

Step 4 − 다음으로, 입력 파일에서 입력 된 기능을 읽기 위해 생성하고, 다른 인스턴스를 생성합니다. StreamDef 다음과 같이.

feature_stream = StreamDef(field=’features’, shape=4, is_sparse=False)

Step 5 − 이제 CTFDeserializer인스턴스 클래스. 다음과 같이 역 직렬화해야하는 파일 이름과 스트림을 지정합니다.

deserializer = CTFDeserializer(filename, StreamDefs(labels=
label_stream, features=features_stream)

Step 6 − 다음으로 deserializer를 이용하여 minisourceBatch의 인스턴스를 생성해야합니다. −

Minibatch_source = MinibatchSource(deserializer, randomize=True, max_sweeps=limit)
return minibatch_source

Step 7− 마지막으로 이전 섹션에서도 생성 한 교육 및 테스트 소스를 제공해야합니다. 붓꽃 데이터 셋을 사용하고 있습니다.

training_source = create_datasource(‘Iris_train.ctf’)
test_source = create_datasource(‘Iris_test.ctf’, limit=1)

일단 만들면 MinibatchSource예를 들어, 우리는 그것을 훈련시켜야합니다. 작은 인 메모리 데이터 세트로 작업 할 때 사용한 것과 동일한 학습 로직을 사용할 수 있습니다. 여기서 우리는MinibatchSource 예를 들어 다음과 같이 손실 함수에 대한 기차 방법의 입력으로-

다음은 구현 단계입니다.

Step 1 − 훈련 세션의 출력을 기록하려면 먼저 ProgressPrinter ...에서 cntk.logging 다음과 같이 모듈-

from cntk.logging import ProgressPrinter

Step 2 − 다음으로 교육 세션을 설정하려면 trainertraining_session ...에서 cntk.train 다음과 같이 모듈-

from cntk.train import Trainer, training_session

Step 3 − 이제 다음과 같은 상수 세트를 정의해야합니다. minibatch_size, samples_per_epochnum_epochs 다음과 같이-

minbatch_size = 16
samples_per_epoch = 150
num_epochs = 30
max_samples = samples_per_epoch * num_epochs

Step 4 − 다음으로 CNTK에서 학습하는 동안 데이터를 읽는 방법을 알기 위해 네트워크에 대한 입력 변수와 미니 배치 소스의 스트림 간의 매핑을 정의해야합니다.

input_map = {
   features: training_source.streams.features,
   labels: training_source.streams.labels
}

Step 5 − 훈련 과정의 출력을 기록하기 위해 다음을 초기화합니다. progress_printer 새로운 변수 ProgressPrinter예. 또한 초기화trainer 다음과 같이 모델과 함께 제공하십시오.

progress_writer = ProgressPrinter(0)
trainer: training_source.streams.labels

Step 6 − 마지막으로 훈련 과정을 시작하려면 다음을 호출해야합니다. training_session 다음과 같이 기능-

session = training_session(trainer,
   mb_source=training_source,
   mb_size=minibatch_size,
   model_inputs_to_streams=input_map,
   max_samples=max_samples,
   test_config=test_config)
session.train()

모델을 학습 한 후에는 다음을 사용하여이 설정에 유효성 검사를 추가 할 수 있습니다. TestConfig 개체에 할당하고 test_config 의 키워드 인수 train_session 함수.

다음은 구현 단계입니다.

Step 1 − 먼저 TestConfig 모듈의 클래스 cntk.train 다음과 같이-

from cntk.train import TestConfig

Step 2 − 이제 새로운 인스턴스를 생성해야합니다. TestConfig 와 더불어 test_source 입력으로

Test_config = TestConfig(test_source)

완전한 예

from cntk.io import StreamDef, StreamDefs, MinibatchSource, CTFDeserializer, INFINITY_REPEAT
def create_datasource(filename, limit =INFINITELY_REPEAT)
labels_stream = StreamDef(field=’labels’, shape=3, is_sparse=False)
feature_stream = StreamDef(field=’features’, shape=4, is_sparse=False)
deserializer = CTFDeserializer(filename, StreamDefs(labels=label_stream, features=features_stream)
Minibatch_source = MinibatchSource(deserializer, randomize=True, max_sweeps=limit)
return minibatch_source
training_source = create_datasource(‘Iris_train.ctf’)
test_source = create_datasource(‘Iris_test.ctf’, limit=1)
from cntk.logging import ProgressPrinter
from cntk.train import Trainer, training_session
minbatch_size = 16
samples_per_epoch = 150
num_epochs = 30
max_samples = samples_per_epoch * num_epochs
input_map = {
   features:   training_source.streams.features,
   labels: training_source.streams.labels
 }
progress_writer = ProgressPrinter(0)
trainer: training_source.streams.labels
session = training_session(trainer,
   mb_source=training_source,
   mb_size=minibatch_size,
   model_inputs_to_streams=input_map,
   max_samples=max_samples,
   test_config=test_config)
session.train()
from cntk.train import TestConfig
Test_config = TestConfig(test_source)

산출

-------------------------------------------------------------------
average   since   average   since  examples
loss      last    metric    last
------------------------------------------------------
Learning rate per minibatch: 0.1
1.57      1.57     0.214    0.214   16
1.38      1.28     0.264    0.289   48
[………]
Finished Evaluation [1]: Minibatch[1-1]:metric = 69.65*30;

수동 미니 배치 루프

위에서 볼 수 있듯이 CNTK에서 정규 API로 훈련 할 때 메트릭을 사용하여 훈련 중과 후에 NN 모델의 성능을 쉽게 측정 할 수 있습니다. 그러나 다른 한편으로는 수동 미니 배치 루프로 작업하는 동안 일이 그렇게 쉽지 않을 것입니다.

여기에서는 이전 섹션에서 생성 한 Iris Flower 데이터 세트의 입력 4 개와 출력 3 개로 아래에 제공된 모델을 사용하고 있습니다.

from cntk import default_options, input_variable
from cntk.layers import Dense, Sequential
from cntk.ops import log_softmax, relu, sigmoid
from cntk.learners import sgd
model = Sequential([
   Dense(4, activation=sigmoid),
   Dense(3, activation=log_softmax)
])
features = input_variable(4)
labels = input_variable(3)
z = model(features)

다음으로, 모델에 대한 손실은 이전 섹션에서 사용 된 교차 엔트로피 손실 함수와 F- 측정 메트릭의 조합으로 정의됩니다. 우리는criterion_factory 유틸리티를 사용하여 아래와 같이 CNTK 함수 객체로 생성합니다.

import cntk
from cntk.losses import cross_entropy_with_softmax, fmeasure
@cntk.Function
def criterion_factory(outputs, targets):
   loss = cross_entropy_with_softmax(outputs, targets)
   metric = fmeasure(outputs, targets, beta=1)
   return loss, metric
loss = criterion_factory(z, labels)
learner = sgd(z.parameters, 0.1)
label_mapping = {
   'Iris-setosa': 0,
   'Iris-versicolor': 1,
   'Iris-virginica': 2
}

이제 손실 함수를 정의 했으므로 트레이너에서이를 사용하여 수동 교육 세션을 설정하는 방법을 살펴 보겠습니다.

다음은 구현 단계입니다-

Step 1 − 먼저 다음과 같은 필수 패키지를 가져와야합니다. numpypandas 데이터를로드하고 전처리합니다.

import pandas as pd
import numpy as np

Step 2 − 다음으로, 훈련 중에 정보를 기록하기 위해 ProgressPrinter 다음과 같이 수업-

from cntk.logging import ProgressPrinter

Step 3 − 그런 다음 cntk.train 모듈에서 다음과 같이 trainer 모듈을 가져와야합니다.

from cntk.train import Trainer

Step 4 − 다음으로 새 인스턴스를 만듭니다. ProgressPrinter 다음과 같이-

progress_writer = ProgressPrinter(0)

Step 5 − 이제 손실, 학습자 및 손실 매개 변수를 사용하여 트레이너를 초기화해야합니다. progress_writer 다음과 같이-

trainer = Trainer(z, loss, learner, progress_writer)

Step 6− 다음으로 모델을 훈련하기 위해 데이터 세트를 30 번 반복하는 루프를 생성합니다. 이것이 외부 훈련 루프가 될 것입니다.

for _ in range(0,30):

Step 7− 이제 Pandas를 사용하여 디스크에서 데이터를로드해야합니다. 그런 다음 데이터 세트를로드하려면mini-batches, 설정 chunksize 키워드 인수를 16으로 설정합니다.

input_data = pd.read_csv('iris.csv',
names=['sepal_length', 'sepal_width','petal_length','petal_width', 'species'],
index_col=False, chunksize=16)

Step 8 − 이제 내부 학습 for 루프를 생성하여 각 mini-batches.

for df_batch in input_data:

Step 9 − 이제이 루프 내부에서 iloc 인덱서, features 훈련하고 float32로 변환하기-

feature_values = df_batch.iloc[:,:4].values
feature_values = feature_values.astype(np.float32)

Step 10 − 이제 다음과 같이 학습 할 레이블로 마지막 열을 읽습니다. −

label_values = df_batch.iloc[:,-1]

Step 11 − 다음으로 원-핫 벡터를 사용하여 다음과 같이 라벨 문자열을 숫자 표현으로 변환합니다.

label_values = label_values.map(lambda x: label_mapping[x])

Step 12− 그 후, 라벨을 숫자로 표시합니다. 다음으로, 그것들을 numpy 배열로 변환하여 다음과 같이 작업하는 것이 더 쉽습니다.

label_values = label_values.values

Step 13 − 이제 변환 한 레이블 값과 동일한 수의 행을 가진 새 numpy 배열을 만들어야합니다.

encoded_labels = np.zeros((label_values.shape[0], 3))

Step 14 − 이제 원-핫 인코딩 된 레이블을 생성하려면 숫자 레이블 값을 기준으로 열을 선택합니다.

encoded_labels[np.arange(label_values.shape[0]), label_values] = 1.

Step 15 − 마지막으로, 우리는 train_minibatch 방법을 사용하고 미니 배치에 대해 처리 된 기능과 레이블을 제공합니다.

trainer.train_minibatch({features: feature_values, labels: encoded_labels})

완전한 예

from cntk import default_options, input_variable
from cntk.layers import Dense, Sequential
from cntk.ops import log_softmax, relu, sigmoid
from cntk.learners import sgd
model = Sequential([
   Dense(4, activation=sigmoid),
   Dense(3, activation=log_softmax)
])
features = input_variable(4)
labels = input_variable(3)
z = model(features)
import cntk
from cntk.losses import cross_entropy_with_softmax, fmeasure
@cntk.Function
def criterion_factory(outputs, targets):
   loss = cross_entropy_with_softmax(outputs, targets)
   metric = fmeasure(outputs, targets, beta=1)
   return loss, metric
loss = criterion_factory(z, labels)
learner = sgd(z.parameters, 0.1)
label_mapping = {
   'Iris-setosa': 0,
   'Iris-versicolor': 1,
   'Iris-virginica': 2
}
import pandas as pd
import numpy as np
from cntk.logging import ProgressPrinter
from cntk.train import Trainer
progress_writer = ProgressPrinter(0)
trainer = Trainer(z, loss, learner, progress_writer)
for _ in range(0,30):
   input_data = pd.read_csv('iris.csv',
      names=['sepal_length', 'sepal_width','petal_length','petal_width', 'species'],
      index_col=False, chunksize=16)
for df_batch in input_data:
   feature_values = df_batch.iloc[:,:4].values
   feature_values = feature_values.astype(np.float32)
   label_values = df_batch.iloc[:,-1]
label_values = label_values.map(lambda x: label_mapping[x])
label_values = label_values.values
   encoded_labels = np.zeros((label_values.shape[0], 3))
   encoded_labels[np.arange(label_values.shape[0]), 
label_values] = 1.
   trainer.train_minibatch({features: feature_values, labels: encoded_labels})

산출

-------------------------------------------------------------------
average    since    average   since  examples
loss       last      metric   last
------------------------------------------------------
Learning rate per minibatch: 0.1
1.45       1.45     -0.189    -0.189   16
1.24       1.13     -0.0382    0.0371  48
[………]

위의 출력에서 ​​손실에 대한 출력과 훈련 중 측정 항목을 모두 얻었습니다. 그것은 우리가 함수 객체에서 메트릭과 손실을 결합하고 트레이너 구성에서 진행률 프린터를 사용했기 때문입니다.

이제 모델 성능을 평가하려면 모델 학습과 동일한 작업을 수행해야하지만 이번에는 Evaluator모델을 테스트하는 인스턴스입니다. 다음 Python 코드에서 볼 수 있습니다.

from cntk import Evaluator
evaluator = Evaluator(loss.outputs[1], [progress_writer])
input_data = pd.read_csv('iris.csv',
   names=['sepal_length', 'sepal_width','petal_length','petal_width', 'species'],
index_col=False, chunksize=16)
for df_batch in input_data:
   feature_values = df_batch.iloc[:,:4].values
   feature_values = feature_values.astype(np.float32)
   label_values = df_batch.iloc[:,-1]
   label_values = label_values.map(lambda x: label_mapping[x])
   label_values = label_values.values
   encoded_labels = np.zeros((label_values.shape[0], 3))
   encoded_labels[np.arange(label_values.shape[0]), label_values] = 1.
   evaluator.test_minibatch({ features: feature_values, labels:
      encoded_labels})
evaluator.summarize_test_progress()

이제 다음과 같은 출력을 얻습니다.

산출

Finished Evaluation [1]: Minibatch[1-11]:metric = 74.62*143;