KNN 알고리즘-가장 가까운 이웃 찾기

소개

KNN (K-nearest neighbours) 알고리즘은 분류 및 회귀 예측 문제 모두에 사용할 수있는 감독 된 ML 알고리즘 유형입니다. 그러나 주로 산업의 분류 예측 문제에 사용됩니다. 다음 두 속성은 KNN을 잘 정의합니다.

  • Lazy learning algorithm − KNN은 특화된 훈련 단계가없고 분류하는 동안 모든 데이터를 훈련에 사용하기 때문에 지연 학습 알고리즘입니다.

  • Non-parametric learning algorithm − KNN은 기본 데이터에 대해 어떤 것도 가정하지 않기 때문에 비모수 적 학습 알고리즘이기도합니다.

KNN 알고리즘의 작동

KNN (K-nearest neighbors) 알고리즘은 '특징 유사성'을 사용하여 새로운 데이터 포인트의 값을 예측합니다. 이는 새로운 데이터 포인트가 훈련 세트의 포인트와 얼마나 가깝게 일치하는지에 따라 값이 할당됨을 의미합니다. 우리는 다음 단계의 도움으로 작업을 이해할 수 있습니다.

  • Step 1− 알고리즘을 구현하려면 데이터 세트가 필요합니다. 따라서 KNN의 첫 번째 단계에서 학습 데이터와 테스트 데이터를로드해야합니다.

  • Step 2− 다음으로 가장 가까운 데이터 포인트 인 K의 값을 선택해야합니다. K는 임의의 정수일 수 있습니다.

  • Step 3 − 테스트 데이터의 각 포인트에 대해 다음을 수행합니다. −

    3.1− 유클리드, 맨해튼 또는 해밍 거리와 같은 방법 중 하나를 사용하여 테스트 데이터와 각 훈련 데이터 행 사이의 거리를 계산합니다. 거리를 계산하는 데 가장 일반적으로 사용되는 방법은 유클리드입니다.

    3.2 − 이제 거리 값을 기준으로 오름차순으로 정렬합니다.

    3.3 − 다음으로 정렬 된 배열에서 상위 K 개 행을 선택합니다.

    3.4 − 이제 이러한 행의 가장 빈번한 클래스를 기준으로 테스트 포인트에 클래스를 할당합니다.

  • Step 4 − 끝

다음은 K의 개념과 KNN 알고리즘의 작동을 이해하는 예입니다.

다음과 같이 그릴 수있는 데이터 세트가 있다고 가정합니다.

이제 검은 색 점 (60,60 점)이있는 새 데이터 포인트를 파란색 또는 빨간색 클래스로 분류해야합니다. 우리는 K = 3이라고 가정합니다. 즉, 가장 가까운 세 개의 데이터 포인트를 찾습니다. 다음 다이어그램에 나와 있습니다.

위의 다이어그램에서 검은 색 점이있는 데이터 포인트의 가장 가까운 이웃 세 개를 볼 수 있습니다. 이 세 가지 중 두 개는 빨간색 등급에 속하므로 검은 색 점도 빨간색 등급에 할당됩니다.

Python으로 구현

우리가 알고 있듯이 KNN (최근 접 이웃) 알고리즘은 분류와 회귀 모두에 사용할 수 있습니다. 다음은 회귀 자뿐만 아니라 분류기로 KNN을 사용하는 Python의 레시피입니다.

분류 자로서의 KNN

먼저 필요한 파이썬 패키지 가져 오기부터 시작하십시오.

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

다음으로 다음과 같이 웹 링크에서 홍채 데이터 세트를 다운로드하십시오.

path = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"

다음으로 다음과 같이 데이터 셋에 열 이름을 할당해야합니다.

headernames = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'Class']

이제 다음과 같이 pandas 데이터 프레임에 데이터 세트를 읽어야합니다.

dataset = pd.read_csv(path, names=headernames)
dataset.head()
slno. 꽃받침 길이 꽃받침 너비 꽃잎 길이 꽃잎 너비 수업
0 5.1 3.5 1.4 0.2 아이리스 세토 사
1 4.9 3.0 1.4 0.2 아이리스 세토 사
2 4.7 3.2 1.3 0.2 아이리스 세토 사
4.6 3.1 1.5 0.2 아이리스 세토 사
4 5.0 3.6 1.4 0.2 아이리스 세토 사

데이터 전처리는 다음 스크립트 줄의 도움으로 수행됩니다.

X = dataset.iloc[:, :-1].values
y = dataset.iloc[:, 4].values

다음으로 데이터를 학습 및 테스트 분할로 나눕니다. 다음 코드는 데이터 세트를 훈련 데이터의 60 %와 테스트 데이터의 40 %로 분할합니다.

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.40)

다음으로 데이터 스케일링은 다음과 같이 수행됩니다.

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit(X_train)
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

다음으로 다음과 같이 sklearn의 KNeighborsClassifier 클래스를 사용하여 모델을 훈련시킵니다.

from sklearn.neighbors import KNeighborsClassifier
classifier = KNeighborsClassifier(n_neighbors=8)
classifier.fit(X_train, y_train)

마침내 우리는 예측을해야합니다. 다음 스크립트의 도움으로 할 수 있습니다-

y_pred = classifier.predict(X_test)

다음으로 결과를 다음과 같이 인쇄하십시오-

from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
result = confusion_matrix(y_test, y_pred)
print("Confusion Matrix:")
print(result)
result1 = classification_report(y_test, y_pred)
print("Classification Report:",)
print (result1)
result2 = accuracy_score(y_test,y_pred)
print("Accuracy:",result2)

산출

Confusion Matrix:
[[21 0 0]
[ 0 16 0]
[ 0 7 16]]
Classification Report:
            precision      recall       f1-score       support
Iris-setosa       1.00        1.00         1.00          21
Iris-versicolor   0.70        1.00         0.82          16
Iris-virginica    1.00        0.70         0.82          23
micro avg         0.88        0.88         0.88          60
macro avg         0.90        0.90         0.88          60
weighted avg      0.92        0.88         0.88          60


Accuracy: 0.8833333333333333

회귀 자로서의 KNN

먼저 필요한 Python 패키지를 가져 오는 것부터 시작하십시오.

import numpy as np
import pandas as pd

다음으로 다음과 같이 웹 링크에서 홍채 데이터 세트를 다운로드하십시오.

path = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"

다음으로 다음과 같이 데이터 셋에 열 이름을 할당해야합니다.

headernames = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'Class']

이제 다음과 같이 pandas 데이터 프레임에 데이터 세트를 읽어야합니다.

data = pd.read_csv(url, names=headernames)
array = data.values
X = array[:,:2]
Y = array[:,2]
data.shape

output:(150, 5)

다음으로 sklearn에서 모델에 맞게 KNeighborsRegressor를 가져옵니다.

from sklearn.neighbors import KNeighborsRegressor
knnr = KNeighborsRegressor(n_neighbors=10)
knnr.fit(X, y)

마지막으로 다음과 같이 MSE를 찾을 수 있습니다.

print ("The MSE is:",format(np.power(y-knnr.predict(X),2).mean()))

산출

The MSE is: 0.12226666666666669

KNN의 장단점

장점

  • 이해하고 해석하는 것은 매우 간단한 알고리즘입니다.

  • 이 알고리즘에는 데이터에 대한 가정이 없기 때문에 비선형 데이터에 매우 유용합니다.

  • 분류 및 회귀에 사용할 수 있으므로 다목적 알고리즘입니다.

  • 상대적으로 정확도가 높지만 KNN보다 훨씬 더 나은지도 학습 모델이 있습니다.

단점

  • 모든 훈련 데이터를 저장하기 때문에 계산적으로 약간 비싼 알고리즘입니다.

  • 다른지도 학습 알고리즘에 비해 높은 메모리 저장 공간이 필요합니다.

  • 큰 N의 경우 예측이 느립니다.

  • 데이터의 규모와 관련없는 기능에 매우 민감합니다.

KNN의 응용

다음은 KNN이 성공적으로 적용될 수있는 몇 가지 영역입니다.

은행 시스템

KNN은 개인이 대출 승인에 적합한 날씨를 예측하기 위해 은행 시스템에서 사용할 수 있습니까? 그 개인은 불이행자와 유사한 특성을 가지고 있습니까?

신용 등급 계산

KNN 알고리즘은 유사한 특성을 가진 사람과 비교하여 개인의 신용 등급을 찾는 데 사용할 수 있습니다.

정치

KNN 알고리즘의 도움으로 잠재적 유권자를“Will Vote”,“Will not Vote”,“Will Vote to Party 'Congress',“Will Vote to Party 'BJP'와 같은 다양한 클래스로 분류 할 수 있습니다.

KNN 알고리즘을 사용할 수있는 다른 영역은 음성 인식, 필기 감지, 이미지 인식 및 비디오 인식입니다.