기계 학습-감독
지도 학습은 기계 학습과 관련된 중요한 학습 모델 중 하나입니다. 이 장에서는 이에 대해 자세히 설명합니다.
지도 학습을위한 알고리즘
지도 학습에 사용할 수있는 몇 가지 알고리즘이 있습니다. 지도 학습에서 널리 사용되는 알고리즘 중 일부는 다음과 같습니다.
- k- 최근 접 이웃
- 의사 결정 트리
- 나이브 베이 즈
- 로지스틱 회귀
- 서포트 벡터 머신
이 장에서 진행하면서 각 알고리즘에 대해 자세히 설명하겠습니다.
k- 최근 접 이웃
kNN이라고하는 k-Nearest Neighbours는 분류 및 회귀 문제를 해결하는 데 사용할 수있는 통계 기법입니다. kNN을 사용하여 알려지지 않은 객체를 분류하는 경우를 논의 해 보겠습니다. 아래 주어진 이미지와 같이 물체의 분포를 고려하십시오-
출처:
https://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm
다이어그램은 빨간색, 파란색 및 녹색으로 표시된 세 가지 유형의 개체를 보여줍니다. 위의 데이터 세트에서 kNN 분류기를 실행하면 각 객체 유형에 대한 경계가 아래와 같이 표시됩니다.
출처:
https://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm
이제 빨강, 녹색 또는 파랑으로 분류하려는 알려지지 않은 새로운 물체를 생각해보십시오. 이것은 아래 그림에 묘사되어 있습니다.
시각적으로 알 수 있듯이 알 수없는 데이터 포인트는 파란색 개체의 클래스에 속합니다. 수학적으로 이것은 데이터 세트의 다른 모든 지점과이 알려지지 않은 지점의 거리를 측정하여 결론을 내릴 수 있습니다. 이렇게하면 대부분의 이웃이 파란색임을 알 수 있습니다. 빨간색 및 녹색 물체까지의 평균 거리는 파란색 물체까지의 평균 거리보다 확실히 더 큽니다. 따라서이 알 수없는 물체는 파란색 등급에 속하는 것으로 분류 될 수 있습니다.
kNN 알고리즘은 회귀 문제에도 사용할 수 있습니다. kNN 알고리즘은 대부분의 ML 라이브러리에서 바로 사용할 수 있습니다.
의사 결정 트리
순서도 형식의 간단한 의사 결정 트리는 다음과 같습니다.
이 순서도를 기반으로 입력 데이터를 분류하는 코드를 작성합니다. 순서도는 자명하고 사소합니다. 이 시나리오에서는 수신 이메일을 분류하여 읽을시기를 결정하려고합니다.
실제로 의사 결정 트리는 크고 복잡 할 수 있습니다. 이러한 트리를 만들고 순회하는 데 사용할 수있는 여러 알고리즘이 있습니다. 머신 러닝 애호가는 의사 결정 트리를 만들고 순회하는 이러한 기술을 이해하고 마스터해야합니다.
나이브 베이 즈
Naive Bayes는 분류자를 만드는 데 사용됩니다. 과일 바구니에서 다양한 종류의 과일을 분류 (분류)한다고 가정합니다. 과일의 색상, 크기 및 모양과 같은 기능을 사용할 수 있습니다. 예를 들어, 색상이 빨간색이고 모양이 둥글고 지름이 약 10cm 인 과일은 Apple로 간주 될 수 있습니다. 따라서 모델을 훈련하기 위해 이러한 기능을 사용하고 주어진 기능이 원하는 제약 조건과 일치 할 확률을 테스트합니다. 그런 다음 다양한 기능의 확률을 결합하여 주어진 과일이 Apple 일 확률에 도달합니다. Naive Bayes는 일반적으로 분류를 위해 적은 수의 훈련 데이터가 필요합니다.
로지스틱 회귀
다음 다이어그램을보십시오. XY 평면에서 데이터 포인트의 분포를 보여줍니다.
다이어그램에서 빨간색 점과 녹색 점의 분리를 시각적으로 검사 할 수 있습니다. 이 점들을 구분하기 위해 경계선을 그릴 수 있습니다. 이제 새 데이터 포인트를 분류하려면 포인트가있는 선의 어느쪽에 있는지 확인하기 만하면됩니다.
서포트 벡터 머신
다음 데이터 분포를 살펴보십시오. 여기서 세 가지 데이터 클래스는 선형으로 분리 될 수 없습니다. 경계 곡선은 비선형입니다. 이러한 경우 곡선의 방정식을 찾는 것은 복잡한 작업이됩니다.
출처: http://uc-r.github.io/svm
SVM (Support Vector Machine)은 이러한 상황에서 분리 경계를 결정하는 데 유용합니다.