CNTK-컨볼 루션 신경망

이 장에서는 CNTK에서 CNN (Convolutional Neural Network)을 구성하는 방법을 살펴 보겠습니다.

소개

컨볼 루션 신경망 (CNN)도 학습 가능한 가중치와 편향을 가진 뉴런으로 구성됩니다. 이것이 바로 이러한 방식으로 일반 신경망 (NN)과 같은 이유입니다.

일반적인 NN의 작동을 상기하면 모든 뉴런은 하나 이상의 입력을 받고 가중 합계를 받고 활성화 함수를 통과하여 최종 출력을 생성합니다. 여기에서 CNN과 일반 NN이 너무 많은 유사성을 가지고 있다면이 두 네트워크가 서로 다른 이유는 무엇입니까?

입력 데이터 및 레이어 유형의 처리가 다른 점은 무엇입니까? 입력 데이터의 구조는 일반 NN에서 무시되고 모든 데이터는 네트워크에 공급되기 전에 1D 배열로 변환됩니다.

그러나 Convolutional Neural Network 아키텍처는 이미지의 2D 구조를 고려하여 처리하고 이미지에 특정한 속성을 추출 할 수 있습니다. 또한 CNN은 CNN의 주요 구성 요소 인 하나 이상의 컨볼 루션 레이어와 풀링 레이어를 갖는 이점이 있습니다.

이러한 계층 뒤에는 표준 다중 계층 NN에서와 같이 하나 이상의 완전 연결 계층이 이어집니다. 따라서 CNN을 완전히 연결된 네트워크의 특별한 경우라고 생각할 수 있습니다.

컨볼 루션 신경망 (CNN) 아키텍처

CNN의 아키텍처는 기본적으로 이미지 볼륨의 너비, 높이 및 깊이와 같은 3 차원을 3 차원 출력 볼륨으로 변환하는 레이어 목록입니다. 여기서 주목해야 할 한 가지 중요한 점은 현재 계층의 모든 뉴런이 이전 계층의 출력의 작은 패치에 연결되어 있다는 것입니다. 이는 입력 이미지에 N * N 필터를 오버레이하는 것과 같습니다.

기본적으로 모서리, 모서리 등과 같은 기능을 추출하는 기능 추출기 인 M 필터를 사용합니다. 다음은 레이어입니다 [INPUT-CONV-RELU-POOL-FC] 컨볼 루션 신경망 (CNN)을 구성하는 데 사용됩니다.

  • INPUT− 이름에서 알 수 있듯이이 레이어는 원시 픽셀 값을 보유합니다. 원시 픽셀 값은 이미지의 데이터를 그대로 의미합니다. 예를 들어, INPUT [64 × 64 × 3]는 너비 -64, 높이 -64 및 깊이 -3의 3 채널 RGB 이미지입니다.

  • CONV−이 계층은 대부분의 계산이이 계층에서 수행되므로 CNN의 빌딩 블록 중 하나입니다. 예-위에서 언급 한 INPUT [64 × 64 × 3]에 6 개의 필터를 사용하면 볼륨 [64 × 64 × 6]이 될 수 있습니다.

  • RELU− 이전 계층의 출력에 활성화 함수를 적용하는 정류 선형 단위 계층이라고도합니다. 다른 방법으로 RELU에 의해 비선형 성이 네트워크에 추가됩니다.

  • POOL−이 계층, 즉 풀링 계층은 CNN의 또 다른 빌딩 블록입니다. 이 레이어의 주요 작업은 다운 샘플링입니다. 즉, 입력의 모든 조각에서 독립적으로 작동하고 공간적으로 크기를 조정합니다.

  • FC− Fully Connected 레이어 또는보다 구체적으로 출력 레이어라고합니다. 출력 클래스 점수를 계산하는 데 사용되며 결과 출력은 크기 1 * 1 * L의 부피입니다. 여기서 L은 클래스 점수에 해당하는 숫자입니다.

아래 다이어그램은 CNN의 일반적인 아키텍처를 나타냅니다.

CNN 구조 만들기

우리는 CNN의 아키텍처와 기본 사항을 보았으며 이제 CNTK를 사용하여 컨볼 루션 네트워크를 구축 할 것입니다. 여기서는 먼저 CNN의 구조를 구성하는 방법을 살펴본 다음 매개 변수를 훈련하는 방법을 살펴볼 것입니다.

마지막으로 다양한 레이어 설정으로 구조를 변경하여 신경망을 개선 할 수있는 방법을 살펴 보겠습니다. MNIST 이미지 데이터 셋을 사용할 것입니다.

자, 먼저 CNN 구조를 만들어 보겠습니다. 일반적으로 이미지의 패턴을 인식하기위한 CNN을 구축 할 때 다음을 수행합니다.

  • 우리는 컨볼 루션과 풀링 레이어의 조합을 사용합니다.

  • 네트워크 끝에있는 하나 이상의 숨겨진 레이어.

  • 마지막으로 분류 목적으로 소프트 맥스 레이어로 네트워크를 완성합니다.

다음 단계를 통해 네트워크 구조를 구축 할 수 있습니다.

Step 1− 먼저 CNN에 필요한 레이어를 가져와야합니다.

from cntk.layers import Convolution2D, Sequential, Dense, MaxPooling

Step 2− 다음으로 CNN에 대한 활성화 함수를 가져와야합니다.

from cntk.ops import log_softmax, relu

Step 3− 그 후 나중에 convolutional layer를 초기화하려면 glorot_uniform_initializer 다음과 같이-

from cntk.initializer import glorot_uniform

Step 4− 다음으로 입력 변수를 생성하려면 input_variable함수. 그리고 수입default_option 기능을 사용하여 NN 구성을 좀 더 쉽게 만듭니다.

from cntk import input_variable, default_options

Step 5− 이제 입력 이미지를 저장하려면 새로운 input_variable. 빨간색, 녹색 및 파란색의 세 가지 채널이 포함됩니다. 크기는 28 x 28 픽셀입니다.

features = input_variable((3,28,28))

Step 6− 다음으로, 우리는 또 다른 input_variable 예측할 레이블을 저장합니다.

labels = input_variable(10)

Step 7− 이제 우리는 default_optionNN. 그리고 우리는glorot_uniform 초기화 기능으로.

with default_options(initialization=glorot_uniform, activation=relu):

Step 8− 다음으로, NN의 구조를 설정하기 위해 새로운 Sequential 레이어 세트.

Step 9− 이제 우리는 Convolutional2D 레이어 filter_shape 5의 strides 설정 1, 내 Sequential레이어 세트. 또한 패딩을 활성화하여 이미지가 원래 크기를 유지하도록 패딩되도록합니다.

model = Sequential([
Convolution2D(filter_shape=(5,5), strides=(1,1), num_filters=8, pad=True),

Step 10− 이제 추가 할 시간입니다. MaxPooling 레이어 filter_shape 2의 strides 이미지를 반으로 압축하려면 2로 설정합니다.

MaxPooling(filter_shape=(2,2), strides=(2,2)),

Step 11− 이제 9 단계에서했던 것처럼 다른 Convolutional2D 레이어 filter_shape 5의 strides1로 설정하면 16 개의 필터를 사용합니다. 또한 패딩을 활성화하여 이전 풀링 레이어에서 생성 된 이미지의 크기를 유지해야합니다.

Convolution2D(filter_shape=(5,5), strides=(1,1), num_filters=16, pad=True),

Step 12− 이제 10 단계에서했던 것처럼 MaxPooling 레이어 filter_shape 3 및 a strides 이미지를 1/3로 줄이려면 3으로 설정하십시오.

MaxPooling(filter_shape=(3,3), strides=(3,3)),

Step 13− 마지막으로 10 개의 가능한 클래스에 대해 10 개의 뉴런이있는 Dense 레이어를 추가하면 네트워크가 예측할 수 있습니다. 네트워크를 분류 모델로 전환하려면log_siftmax 활성화 기능.

Dense(10, activation=log_softmax)
])

CNN 구조 생성을위한 완전한 예제

from cntk.layers import Convolution2D, Sequential, Dense, MaxPooling
from cntk.ops import log_softmax, relu
from cntk.initializer import glorot_uniform
from cntk import input_variable, default_options
features = input_variable((3,28,28))
labels = input_variable(10)
with default_options(initialization=glorot_uniform, activation=relu):
model = Sequential([
   Convolution2D(filter_shape=(5,5), strides=(1,1), num_filters=8, pad=True),
MaxPooling(filter_shape=(2,2), strides=(2,2)),
   Convolution2D(filter_shape=(5,5), strides=(1,1), num_filters=16, pad=True),
MaxPooling(filter_shape=(3,3), strides=(3,3)),
Dense(10, activation=log_softmax)
])
z = model(features)

이미지로 CNN 훈련

네트워크 구조를 만들었으므로 이제 네트워크를 훈련 할 때입니다. 그러나 네트워크 훈련을 시작하기 전에 미니 배치 소스를 설정해야합니다. 이미지와 함께 작동하는 NN을 훈련하려면 대부분의 컴퓨터보다 더 많은 메모리가 필요하기 때문입니다.

이전 섹션에서 이미 미니 배치 소스를 만들었습니다. 다음은 두 개의 미니 배치 소스를 설정하는 Python 코드입니다.

우리는 create_datasource 이제 두 개의 개별 데이터 소스 (학습 및 테스트)를 만들어 모델을 학습시킬 수 있습니다.

train_datasource = create_datasource('mnist_train')
test_datasource = create_datasource('mnist_test', max_sweeps=1, train=False)

이제 이미지를 준비 했으므로 NN 훈련을 시작할 수 있습니다. 이전 섹션에서했던 것처럼 손실 함수에 대해 훈련 방법을 사용하여 훈련을 시작할 수 있습니다. 다음은 이에 대한 코드입니다-

from cntk import Function
from cntk.losses import cross_entropy_with_softmax
from cntk.metrics import classification_error
from cntk.learners import sgd
@Function
def criterion_factory(output, targets):
loss = cross_entropy_with_softmax(output, targets)
metric = classification_error(output, targets)
return loss, metric
loss = criterion_factory(z, labels)
learner = sgd(z.parameters, lr=0.2)

이전 코드의 도움으로 NN에 대한 손실 및 학습자를 설정했습니다. 다음 코드는 NN을 훈련하고 검증합니다.

from cntk.logging import ProgressPrinter
from cntk.train import TestConfig
progress_writer = ProgressPrinter(0)
test_config = TestConfig(test_datasource)
input_map = {
   features: train_datasource.streams.features,
   labels: train_datasource.streams.labels
}
loss.train(train_datasource,
     max_epochs=10,
     minibatch_size=64,
     epoch_size=60000,
        parameter_learners=[learner],
     model_inputs_to_streams=input_map,
     callbacks=[progress_writer, test_config])

완전한 구현 예

from cntk.layers import Convolution2D, Sequential, Dense, MaxPooling
from cntk.ops import log_softmax, relu
from cntk.initializer import glorot_uniform
from cntk import input_variable, default_options
features = input_variable((3,28,28))
labels = input_variable(10)
with default_options(initialization=glorot_uniform, activation=relu):
model = Sequential([
   Convolution2D(filter_shape=(5,5), strides=(1,1), num_filters=8, pad=True),
MaxPooling(filter_shape=(2,2), strides=(2,2)),
   Convolution2D(filter_shape=(5,5), strides=(1,1), num_filters=16, pad=True),
MaxPooling(filter_shape=(3,3), strides=(3,3)),
Dense(10, activation=log_softmax)
])
z = model(features)
import os
from cntk.io import MinibatchSource, StreamDef, StreamDefs, ImageDeserializer, INFINITELY_REPEAT
import cntk.io.transforms as xforms
def create_datasource(folder, train=True, max_sweeps=INFINITELY_REPEAT):
   mapping_file = os.path.join(folder, 'mapping.bin')
   image_transforms = []
   if train:
    image_transforms += [
     xforms.crop(crop_type='randomside', side_ratio=0.8),
     xforms.scale(width=28, height=28, channels=3, interpolations='linear')
]
   stream_definitions = StreamDefs(
   features=StreamDef(field='image', transforms=image_transforms),
    labels=StreamDef(field='label', shape=10)
)
   deserializer = ImageDeserializer(mapping_file, stream_definitions)
return MinibatchSource(deserializer, max_sweeps=max_sweeps)
train_datasource = create_datasource('mnist_train')
test_datasource = create_datasource('mnist_test', max_sweeps=1, train=False)
from cntk import Function
from cntk.losses import cross_entropy_with_softmax
from cntk.metrics import classification_error
from cntk.learners import sgd
@Function
def criterion_factory(output, targets):
   loss = cross_entropy_with_softmax(output, targets)
   metric = classification_error(output, targets)
return loss, metric
loss = criterion_factory(z, labels)
learner = sgd(z.parameters, lr=0.2)
from cntk.logging import ProgressPrinter
from cntk.train import TestConfig
progress_writer = ProgressPrinter(0)
test_config = TestConfig(test_datasource)
input_map = {
   features: train_datasource.streams.features,
   labels: train_datasource.streams.labels
}
loss.train(train_datasource,
     max_epochs=10,
     minibatch_size=64,
     epoch_size=60000,
        parameter_learners=[learner],
     model_inputs_to_streams=input_map,
     callbacks=[progress_writer, test_config])

산출

-------------------------------------------------------------------
average  since  average  since  examples
loss     last   metric   last
------------------------------------------------------
Learning rate per minibatch: 0.2
142      142      0.922   0.922    64
1.35e+06 1.51e+07 0.896   0.883    192
[………]

이미지 변환

이미 살펴본 것처럼 이미지 인식에 사용되는 NN을 훈련하는 것은 어렵고 훈련을 위해 많은 데이터가 필요합니다. 또 하나의 문제는 훈련 중에 사용되는 이미지에 과도하게 맞추는 경향이 있다는 것입니다. 예를 들어 똑바로 세운 얼굴 사진이 있으면 모델이 다른 방향으로 회전하는 얼굴을 인식하는 데 어려움을 겪습니다.

이러한 문제를 극복하기 위해 이미지에 대한 미니 배치 소스를 만들 때 이미지 확대를 사용할 수 있으며 CNTK는 특정 변환을 지원합니다. 다음과 같이 여러 변환을 사용할 수 있습니다.

  • 단 몇 줄의 코드로 훈련에 사용되는 이미지를 무작위로자를 수 있습니다.

  • 스케일과 색상도 사용할 수 있습니다.

다음 Python 코드의 도움으로 이전에 미니 배치 소스를 만드는 데 사용 된 함수 내에 자르기 변환을 포함하여 변환 목록을 변경하는 방법을 살펴 보겠습니다.

import os
from cntk.io import MinibatchSource, StreamDef, StreamDefs, ImageDeserializer, INFINITELY_REPEAT
import cntk.io.transforms as xforms
def create_datasource(folder, train=True, max_sweeps=INFINITELY_REPEAT):
   mapping_file = os.path.join(folder, 'mapping.bin')
   image_transforms = []
   if train:
   image_transforms += [
     xforms.crop(crop_type='randomside', side_ratio=0.8),
xforms.scale(width=28, height=28, channels=3, interpolations='linear')
]
   stream_definitions = StreamDefs(
   features=StreamDef(field='image', transforms=image_transforms),
labels=StreamDef(field='label', shape=10)
)
   deserializer = ImageDeserializer(mapping_file, stream_definitions)
return MinibatchSource(deserializer, max_sweeps=max_sweeps)

위의 코드를 사용하여 이미지 변환 세트를 포함하도록 기능을 향상시킬 수 있습니다. 그러면 훈련 할 때 이미지를 무작위로자를 수 있으므로 이미지의 더 많은 변형을 얻을 수 있습니다.