Algoritma KNN - Menemukan Tetangga Terdekat

pengantar

Algoritma K-terdekat tetangga (KNN) adalah jenis algoritma ML terbimbing yang dapat digunakan baik untuk klasifikasi maupun masalah prediksi regresi. Namun, ini terutama digunakan untuk masalah prediksi klasifikasi di industri. Dua properti berikut akan mendefinisikan sumur KNN -

  • Lazy learning algorithm - KNN adalah algoritma pembelajaran malas karena tidak memiliki fase pelatihan khusus dan menggunakan semua data untuk pelatihan saat klasifikasi.

  • Non-parametric learning algorithm - KNN juga merupakan algoritma pembelajaran non-parametrik karena tidak mengasumsikan apapun tentang data yang mendasarinya.

Pengerjaan Algoritma KNN

Algoritma K-terdekat tetangga (KNN) menggunakan 'kesamaan fitur' untuk memprediksi nilai titik data baru yang selanjutnya berarti bahwa titik data baru akan diberi nilai berdasarkan seberapa dekat cocok dengan poin dalam set pelatihan. Kami dapat memahami kerjanya dengan bantuan langkah-langkah berikut -

  • Step 1- Untuk mengimplementasikan algoritma apapun, kita membutuhkan dataset. Jadi selama langkah pertama KNN, kita harus memuat data pelatihan serta data pengujian.

  • Step 2- Selanjutnya, kita perlu memilih nilai K yaitu titik data terdekat. K bisa berupa bilangan bulat apa pun.

  • Step 3 - Untuk setiap poin dalam data pengujian lakukan hal berikut -

    3.1- Hitung jarak antara data uji dan setiap baris data latih dengan bantuan salah satu metode yaitu: jarak Euclidean, Manhattan atau Hamming. Metode yang paling umum digunakan untuk menghitung jarak adalah Euclidean.

    3.2 - Sekarang, berdasarkan nilai jarak, urutkan dalam urutan menaik.

    3.3 - Selanjutnya, ia akan memilih baris K teratas dari larik yang diurutkan.

    3.4 - Sekarang, ini akan menetapkan kelas ke titik tes berdasarkan kelas yang paling sering dari baris ini.

  • Step 4 - Selesai

Contoh

Berikut adalah contoh untuk memahami konsep K dan cara kerja algoritma KNN -

Misalkan kita memiliki dataset yang dapat diplot sebagai berikut -

Sekarang, kita perlu mengklasifikasikan titik data baru dengan titik hitam (pada titik 60,60) menjadi kelas biru atau merah. Kami mengasumsikan K = 3 yaitu akan menemukan tiga titik data terdekat. Itu ditunjukkan pada diagram berikutnya -

Kita dapat melihat pada diagram di atas tiga tetangga terdekat dari titik data dengan titik hitam. Di antara ketiganya, dua di antaranya terletak di kelas Merah maka titik hitam juga akan ditempatkan di kelas merah.

Implementasi dengan Python

Seperti yang kita ketahui, algoritma K-terdekat tetangga (KNN) dapat digunakan baik untuk klasifikasi maupun regresi. Berikut ini adalah resep Python untuk menggunakan KNN sebagai classifier sekaligus regressor -

KNN sebagai Pengklasifikasi

Pertama, mulailah dengan mengimpor paket python yang diperlukan -

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

Selanjutnya, unduh dataset iris dari tautan webnya sebagai berikut -

path = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"

Selanjutnya, kita perlu memberikan nama kolom ke dataset sebagai berikut -

headernames = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'Class']

Sekarang, kita perlu membaca dataset ke pandas dataframe sebagai berikut -

dataset = pd.read_csv(path, names=headernames)
dataset.head()
slno. panjang sepal lebar sepal kelopak-panjang kelopak-lebar Kelas
0 5.1 3.5 1.4 0.2 Iris-setosa
1 4.9 3.0 1.4 0.2 Iris-setosa
2 4.7 3.2 1.3 0.2 Iris-setosa
3 4.6 3.1 1.5 0.2 Iris-setosa
4 5.0 3.6 1.4 0.2 Iris-setosa

Pemrosesan awal data akan dilakukan dengan bantuan baris skrip berikut -

X = dataset.iloc[:, :-1].values
y = dataset.iloc[:, 4].values

Selanjutnya kita akan membagi data menjadi train and test split. Kode berikut akan membagi dataset menjadi 60% data pelatihan dan 40% data pengujian -

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.40)

Selanjutnya, penskalaan data akan dilakukan sebagai berikut -

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit(X_train)
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

Selanjutnya, latih model dengan bantuan kelas KNeighboursClassifier dari sklearn sebagai berikut -

from sklearn.neighbors import KNeighborsClassifier
classifier = KNeighborsClassifier(n_neighbors=8)
classifier.fit(X_train, y_train)

Akhirnya kita perlu membuat prediksi. Itu dapat dilakukan dengan bantuan skrip berikut -

y_pred = classifier.predict(X_test)

Selanjutnya, cetak hasilnya sebagai berikut -

from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
result = confusion_matrix(y_test, y_pred)
print("Confusion Matrix:")
print(result)
result1 = classification_report(y_test, y_pred)
print("Classification Report:",)
print (result1)
result2 = accuracy_score(y_test,y_pred)
print("Accuracy:",result2)

Keluaran

Confusion Matrix:
[[21 0 0]
[ 0 16 0]
[ 0 7 16]]
Classification Report:
            precision      recall       f1-score       support
Iris-setosa       1.00        1.00         1.00          21
Iris-versicolor   0.70        1.00         0.82          16
Iris-virginica    1.00        0.70         0.82          23
micro avg         0.88        0.88         0.88          60
macro avg         0.90        0.90         0.88          60
weighted avg      0.92        0.88         0.88          60


Accuracy: 0.8833333333333333

KNN sebagai Regressor

Pertama, mulailah dengan mengimpor paket Python yang diperlukan -

import numpy as np
import pandas as pd

Selanjutnya, unduh dataset iris dari tautan webnya sebagai berikut -

path = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"

Selanjutnya, kita perlu memberikan nama kolom ke dataset sebagai berikut -

headernames = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'Class']

Sekarang, kita perlu membaca dataset ke pandas dataframe sebagai berikut -

data = pd.read_csv(url, names=headernames)
array = data.values
X = array[:,:2]
Y = array[:,2]
data.shape

output:(150, 5)

Selanjutnya, impor KNeighboursRegressor dari sklearn agar sesuai dengan model -

from sklearn.neighbors import KNeighborsRegressor
knnr = KNeighborsRegressor(n_neighbors=10)
knnr.fit(X, y)

Akhirnya, kita dapat menemukan MSE sebagai berikut -

print ("The MSE is:",format(np.power(y-knnr.predict(X),2).mean()))

Keluaran

The MSE is: 0.12226666666666669

Pro dan Kontra KNN

Pro

  • Ini adalah algoritma yang sangat sederhana untuk dipahami dan ditafsirkan.

  • Ini sangat berguna untuk data nonlinier karena tidak ada asumsi tentang data dalam algoritma ini.

  • Ini adalah algoritme serbaguna karena kami dapat menggunakannya untuk klasifikasi serta regresi.

  • Ini memiliki akurasi yang relatif tinggi tetapi ada model pembelajaran terawasi yang jauh lebih baik daripada KNN.

Kontra

  • Ini adalah algoritma komputasi yang agak mahal karena menyimpan semua data pelatihan.

  • Penyimpanan memori tinggi diperlukan dibandingkan dengan algoritme pembelajaran yang diawasi lainnya.

  • Prediksi lambat dalam kasus N. besar

  • Ini sangat sensitif terhadap skala data serta fitur yang tidak relevan.

Aplikasi KNN

Berikut adalah beberapa area di mana KNN dapat berhasil diterapkan -

Sistem perbankan

KNN dapat digunakan dalam sistem perbankan untuk memprediksi apakah seseorang layak untuk mendapatkan persetujuan pinjaman? Apakah individu tersebut memiliki karakteristik yang mirip dengan yang mangkir?

Menghitung Peringkat Kredit

Algoritma KNN dapat digunakan untuk menemukan peringkat kredit seseorang dengan membandingkan dengan orang yang memiliki sifat serupa.

Politik

Dengan bantuan algoritma KNN, kita dapat mengklasifikasikan calon pemilih ke dalam berbagai kelas seperti "Akan Memilih", "Tidak Akan Memilih", "Akan Memilih untuk 'Kongres' Partai," Akan Memilih untuk Partai 'BJP'.

Area lain di mana algoritma KNN dapat digunakan adalah Speech Recognition, Handwriting Detection, Image Recognition dan Video Recognition.