사전 훈련 된 모델을 사용한 이미지 분류

이 단원에서는 사전 훈련 된 모델을 사용하여 주어진 이미지에서 객체를 감지하는 방법을 배웁니다. 당신은 사용할 것입니다squeezenet 주어진 이미지에서 물체를 매우 정확하게 감지하고 분류하는 사전 훈련 된 모듈입니다.

새로 열기 Juypter notebook 이 이미지 분류 응용 프로그램을 개발하는 단계를 따릅니다.

라이브러리 가져 오기

먼저 아래 코드를 사용하여 필요한 패키지를 가져옵니다.

from caffe2.proto import caffe2_pb2
from caffe2.python import core, workspace, models
import numpy as np
import skimage.io
import skimage.transform
from matplotlib import pyplot
import os
import urllib.request as urllib2
import operator

다음으로 몇 가지 설정 variables

INPUT_IMAGE_SIZE = 227
mean = 128

훈련에 사용되는 이미지는 분명히 다양한 크기입니다. 이러한 모든 이미지는 정확한 훈련을 위해 고정 된 크기로 변환되어야합니다. 마찬가지로 프로덕션 환경에서 예측하려는 테스트 이미지와 이미지도 훈련 중에 사용한 것과 동일한 크기로 변환해야합니다. 따라서 위의 변수를 만듭니다.INPUT_IMAGE_SIZE 가치가있는 227. 따라서 모든 이미지를 크기로 변환합니다.227x227 분류기에서 사용하기 전에

또한 다음과 같은 변수를 선언합니다. mean 가치가있는 128, 나중에 분류 결과를 개선하는 데 사용됩니다.

다음으로 이미지 처리를위한 두 가지 기능을 개발합니다.

이미지 처리

이미지 처리는 두 단계로 구성됩니다. 첫 번째는 이미지 크기를 조정하는 것이고 두 번째는 이미지를 중앙에서 자르는 것입니다. 이 두 단계에서는 크기 조정 및 자르기를위한 두 가지 함수를 작성합니다.

이미지 크기 조정

먼저 이미지 크기를 조정하는 함수를 작성합니다. 앞서 말했듯이 이미지 크기를227x227. 그래서 우리가 함수를 정의합시다resize 다음과 같이-

def resize(img, input_height, input_width):

너비를 높이로 나누어 이미지의 종횡비를 얻습니다.

original_aspect = img.shape[1]/float(img.shape[0])

종횡비가 1보다 크면 이미지가 넓다는 것을 나타냅니다. 즉, 가로 모드임을 나타냅니다. 이제 이미지 높이를 조정하고 다음 코드를 사용하여 크기가 조정 된 이미지를 반환합니다.

if(original_aspect>1):
   new_height = int(original_aspect * input_height)
   return skimage.transform.resize(img, (input_width,
   new_height), mode='constant', anti_aliasing=True, anti_aliasing_sigma=None)

가로 세로 비율이 less than 1, 그것은 나타냅니다 portrait mode. 이제 다음 코드를 사용하여 너비를 조정합니다.

if(original_aspect<1):
   new_width = int(input_width/original_aspect)
   return skimage.transform.resize(img, (new_width,
   input_height), mode='constant', anti_aliasing=True, anti_aliasing_sigma=None)

종횡비가 같으면 1, 높이 / 너비 조정은하지 않습니다.

if(original_aspect == 1):
   return skimage.transform.resize(img, (input_width,
   input_height), mode='constant', anti_aliasing=True, anti_aliasing_sigma=None)

빠른 참조를 위해 전체 기능 코드가 아래에 나와 있습니다.

def resize(img, input_height, input_width):
   original_aspect = img.shape[1]/float(img.shape[0])
   if(original_aspect>1):
      new_height = int(original_aspect * input_height)
      return skimage.transform.resize(img, (input_width,
	   new_height), mode='constant', anti_aliasing=True, anti_aliasing_sigma=None)
   if(original_aspect<1):
         new_width = int(input_width/original_aspect)
         return skimage.transform.resize(img, (new_width,
         input_height), mode='constant', anti_aliasing=True, anti_aliasing_sigma=None)
   if(original_aspect == 1):
         return skimage.transform.resize(img, (input_width,
         input_height), mode='constant', anti_aliasing=True, anti_aliasing_sigma=None)

이제 중앙에서 이미지를 자르는 함수를 작성합니다.

이미지 자르기

우리는 crop_image 다음과 같이 기능-

def crop_image(img,cropx,cropy):

다음 문을 사용하여 이미지의 크기를 추출합니다.

y,x,c = img.shape

다음 두 줄의 코드를 사용하여 이미지의 새로운 시작점을 만듭니다.

startx = x//2-(cropx//2)
starty = y//2-(cropy//2)

마지막으로 새로운 차원의 이미지 객체를 생성하여 잘린 이미지를 반환합니다.

return img[starty:starty+cropy,startx:startx+cropx]

빠른 참조를 위해 전체 기능 코드가 아래에 나와 있습니다.

def crop_image(img,cropx,cropy):
   y,x,c = img.shape
   startx = x//2-(cropx//2)
   starty = y//2-(cropy//2)
   return img[starty:starty+cropy,startx:startx+cropx]

이제 이러한 함수를 테스트하는 코드를 작성합니다.

처리 이미지

먼저 이미지 파일을 images 프로젝트 디렉토리 내의 하위 폴더. tree.jpg파일이 프로젝트에 복사됩니다. 다음 Python 코드는 이미지를로드하고 콘솔에 표시합니다.

img = skimage.img_as_float(skimage.io.imread("images/tree.jpg")).astype(np.float32)
print("Original Image Shape: " , img.shape)
pyplot.figure()
pyplot.imshow(img)
pyplot.title('Original image')

출력은 다음과 같습니다.

원본 이미지의 크기는 600 x 960. 사양에 맞게 크기를 조정해야합니다.227 x 227. 이전에 정의 된resize함수가이 일을합니다.

img = resize(img, INPUT_IMAGE_SIZE, INPUT_IMAGE_SIZE)
print("Image Shape after resizing: " , img.shape)
pyplot.figure()
pyplot.imshow(img)
pyplot.title('Resized image')

출력은 다음과 같습니다.

이제 이미지 크기는 227 x 363. 우리는 이것을자를 필요가 있습니다.227 x 227알고리즘에 대한 최종 피드입니다. 이를 위해 이전에 정의 된 자르기 함수를 호출합니다.

img = crop_image(img, INPUT_IMAGE_SIZE, INPUT_IMAGE_SIZE)
print("Image Shape after cropping: " , img.shape)
pyplot.figure()
pyplot.imshow(img)
pyplot.title('Center Cropped')

아래는 코드의 출력입니다.

이 시점에서 이미지의 크기는 227 x 227추가 처리 준비가되었습니다. 이제 이미지 축을 교체하여 세 가지 색상을 세 가지 다른 영역으로 추출합니다.

img = img.swapaxes(1, 2).swapaxes(0, 1)
print("CHW Image Shape: " , img.shape)

다음은 출력입니다.

CHW Image Shape: (3, 227, 227)

이제 마지막 축이 배열의 첫 번째 차원이되었습니다. 이제 다음 코드를 사용하여 세 채널을 플로팅합니다.

pyplot.figure()
for i in range(3):
   pyplot.subplot(1, 3, i+1)
   pyplot.imshow(img[i])
   pyplot.axis('off')
   pyplot.title('RGB channel %d' % (i+1))

출력은 다음과 같습니다.

마지막으로 이미지에 대해 변환과 같은 추가 처리를 수행합니다. Red Green Blue ...에 Blue Green Red (RGB to BGR), 더 나은 결과를 위해 평균을 제거하고 다음 세 줄의 코드를 사용하여 배치 크기 축을 추가합니다.

# convert RGB --> BGR
img = img[(2, 1, 0), :, :]
# remove mean
img = img * 255 - mean
# add batch size axis
img = img[np.newaxis, :, :, :].astype(np.float32)

이 시점에서 이미지는 NCHW format우리 네트워크에 공급할 준비가되었습니다. 다음으로 사전 학습 된 모델 파일을로드하고 예측을 위해 위의 이미지를 여기에 제공합니다.

처리 된 이미지의 개체 예측

먼저 경로를 설정합니다. initpredict 사전 훈련 된 Caffe 모델에 정의 된 네트워크.

모델 파일 경로 설정

이전 논의에서 기억하십시오. 모든 사전 훈련 된 모델은 models폴더. 이 폴더의 경로를 다음과 같이 설정합니다.

CAFFE_MODELS = os.path.expanduser("/anaconda3/lib/python3.7/site-packages/caffe2/python/models")

우리는 경로를 설정 init_net protobuf 파일 squeezenet 다음과 같이 모델-

INIT_NET = os.path.join(CAFFE_MODELS, 'squeezenet', 'init_net.pb')

마찬가지로, 우리는 경로를 설정 predict_net 다음과 같이 protobuf-

PREDICT_NET = os.path.join(CAFFE_MODELS, 'squeezenet', 'predict_net.pb')

진단 목적으로 두 경로를 인쇄합니다.

print(INIT_NET)
print(PREDICT_NET)

출력과 함께 위의 코드는 빠른 참조를 위해 여기에 제공됩니다.

CAFFE_MODELS = os.path.expanduser("/anaconda3/lib/python3.7/site-packages/caffe2/python/models")
INIT_NET = os.path.join(CAFFE_MODELS, 'squeezenet', 'init_net.pb')
PREDICT_NET = os.path.join(CAFFE_MODELS, 'squeezenet', 'predict_net.pb')
print(INIT_NET)
print(PREDICT_NET)

출력은 아래에 언급되어 있습니다.

/anaconda3/lib/python3.7/site-packages/caffe2/python/models/squeezenet/init_net.pb
/anaconda3/lib/python3.7/site-packages/caffe2/python/models/squeezenet/predict_net.pb

다음으로 예측자를 생성합니다.

예측 자 생성

다음 두 문장을 사용하여 모델 파일을 읽었습니다.

with open(INIT_NET, "rb") as f:
   init_net = f.read()
with open(PREDICT_NET, "rb") as f:
   predict_net = f.read()

예측자는 두 파일에 대한 포인터를 매개 변수로 전달하여 생성됩니다. Predictor 함수.

p = workspace.Predictor(init_net, predict_net)

그만큼 pobject는 주어진 이미지에서 개체를 예측하는 데 사용되는 예측 변수입니다. 각 입력 이미지는 이전에 수행 한 것과 같이 NCHW 형식이어야합니다.tree.jpg 파일.

개체 예측

주어진 이미지에서 물체를 예측하는 것은 간단합니다. 명령 한 줄만 실행하면됩니다. 우리는 부른다run 에 방법 predictor 주어진 이미지에서 물체 감지를위한 물체.

results = p.run({'data': img})

이제 예측 결과를 results 가독성을 위해 배열로 변환합니다.

results = np.asarray(results)

다음 문장을 사용하여 이해를 돕기 위해 배열의 차원을 인쇄하십시오-

print("results shape: ", results.shape)

출력은 다음과 같습니다.

results shape: (1, 1, 1000, 1, 1)

이제 불필요한 축을 제거합니다.

preds = np.squeeze(results)

이제 최상위 예측은 max 가치 preds 정렬.

curr_pred, curr_conf = max(enumerate(preds), key=operator.itemgetter(1))
print("Prediction: ", curr_pred)
print("Confidence: ", curr_conf)

출력은 다음과 같습니다.

Prediction: 984
Confidence: 0.89235985

보시다시피 모델은 인덱스 값이있는 개체를 예측했습니다. 98489%자신. 984의 인덱스는 어떤 종류의 물체가 감지되는지 이해하는 데별로 의미가 없습니다. 인덱스 값을 사용하여 객체의 문자열 이름을 가져와야합니다. 모델이 인식하는 객체의 종류는 해당 인덱스 값과 함께 github 저장소에서 사용할 수 있습니다.

이제 인덱스 값이 984 인 객체의 이름을 검색하는 방법을 살펴 보겠습니다.

결과 문자열 화

다음과 같이 github 저장소에 URL 객체를 생성합니다.

codes = "https://gist.githubusercontent.com/aaronmarkham/cd3a6b6ac0
71eca6f7b4a6e40e6038aa/raw/9edb4038a37da6b5a44c3b5bc52e448ff09bfe5b/alexnet_codes"

우리는 URL의 내용을 읽습니다-

response = urllib2.urlopen(codes)

응답에는 모든 코드 및 설명 목록이 포함됩니다. 여기에 포함 된 내용을 이해하기 위해 응답의 몇 줄이 아래에 나와 있습니다.

5: 'electric ray, crampfish, numbfish, torpedo',
6: 'stingray',
7: 'cock',
8: 'hen',
9: 'ostrich, Struthio camelus',
10: 'brambling, Fringilla montifringilla',

이제 전체 배열을 반복하여 원하는 코드 984를 찾습니다. for 다음과 같이 루프-

for line in response:
   mystring = line.decode('ascii')
   code, result = mystring.partition(":")[::2]
   code = code.strip()
   result = result.replace("'", "")
   if (code == str(curr_pred)):
      name = result.split(",")[0][1:]
      print("Model predicts", name, "with", curr_conf, "confidence")

코드를 실행하면 다음과 같은 출력이 표시됩니다.

Model predicts rapeseed with 0.89235985 confidence

이제 다른 이미지에서 모델을 사용해 볼 수 있습니다.

다른 이미지 예측

다른 이미지를 예측하려면 이미지 파일을 images프로젝트 디렉토리의 폴더. 이것은 우리의 이전tree.jpg파일이 저장됩니다. 코드에서 이미지 파일의 이름을 변경하십시오. 아래와 같이 한 번만 변경하면됩니다.

img = skimage.img_as_float(skimage.io.imread("images/pretzel.jpg")).astype(np.float32)

원본 그림과 예측 결과는 다음과 같습니다.

출력은 아래에 언급되어 있습니다.

Model predicts pretzel with 0.99999976 confidence

보시다시피 사전 훈련 된 모델은 주어진 이미지에서 매우 정확하게 물체를 감지 할 수 있습니다.

전체 소스

주어진 이미지에서 물체 감지를 위해 사전 훈련 된 모델을 사용하는 위 코드의 전체 소스는 빠른 참조를 위해 여기에 언급되어 있습니다.

def crop_image(img,cropx,cropy):
   y,x,c = img.shape
   startx = x//2-(cropx//2)
   starty = y//2-(cropy//2)
   return img[starty:starty+cropy,startx:startx+cropx]
img = skimage.img_as_float(skimage.io.imread("images/pretzel.jpg")).astype(np.float32)
print("Original Image Shape: " , img.shape)
pyplot.figure()
pyplot.imshow(img)
pyplot.title('Original image')
img = resize(img, INPUT_IMAGE_SIZE, INPUT_IMAGE_SIZE)
print("Image Shape after resizing: " , img.shape)
pyplot.figure()
pyplot.imshow(img)
pyplot.title('Resized image')
img = crop_image(img, INPUT_IMAGE_SIZE, INPUT_IMAGE_SIZE)
print("Image Shape after cropping: " , img.shape)
pyplot.figure()
pyplot.imshow(img)
pyplot.title('Center Cropped')
img = img.swapaxes(1, 2).swapaxes(0, 1)
print("CHW Image Shape: " , img.shape)
pyplot.figure()
for i in range(3):
pyplot.subplot(1, 3, i+1)
pyplot.imshow(img[i])
pyplot.axis('off')
pyplot.title('RGB channel %d' % (i+1))
# convert RGB --> BGR
img = img[(2, 1, 0), :, :]
# remove mean
img = img * 255 - mean
# add batch size axis
img = img[np.newaxis, :, :, :].astype(np.float32)
CAFFE_MODELS = os.path.expanduser("/anaconda3/lib/python3.7/site-packages/caffe2/python/models")
INIT_NET = os.path.join(CAFFE_MODELS, 'squeezenet', 'init_net.pb')
PREDICT_NET = os.path.join(CAFFE_MODELS, 'squeezenet', 'predict_net.pb')
print(INIT_NET)
print(PREDICT_NET)
with open(INIT_NET, "rb") as f:
   init_net = f.read()
with open(PREDICT_NET, "rb") as f:
   predict_net = f.read()
p = workspace.Predictor(init_net, predict_net)
results = p.run({'data': img})
results = np.asarray(results)
print("results shape: ", results.shape)
preds = np.squeeze(results)
curr_pred, curr_conf = max(enumerate(preds), key=operator.itemgetter(1))
print("Prediction: ", curr_pred)
print("Confidence: ", curr_conf)
codes = "https://gist.githubusercontent.com/aaronmarkham/cd3a6b6ac071eca6f7b4a6e40e6038aa/raw/9edb4038a37da6b5a44c3b5bc52e448ff09bfe5b/alexnet_codes"
response = urllib2.urlopen(codes)
for line in response:
   mystring = line.decode('ascii')
   code, result = mystring.partition(":")[::2]
   code = code.strip()
   result = result.replace("'", "")
   if (code == str(curr_pred)):
      name = result.split(",")[0][1:]
      print("Model predicts", name, "with", curr_conf, "confidence")

지금까지 데이터 세트에 대한 예측을 수행하기 위해 사전 학습 된 모델을 사용하는 방법을 알고 있습니다.

다음 단계는 neural network (NN) 아키텍처 Caffe2데이터 세트에 대해 교육합니다. 이제 간단한 단일 레이어 NN을 만드는 방법을 배웁니다.