기계 학습-감독되지 않음

지금까지 여러분이 본 것은 기계가 목표에 대한 해결책을 찾는 방법을 배우도록 만드는 것입니다. 회귀에서는 미래 가치를 예측하도록 기계를 훈련시킵니다. 분류에서 우리는 우리가 정의한 범주 중 하나에서 알려지지 않은 물체를 분류하도록 기계를 훈련시킵니다. 간단히 말해, 우리는 데이터 X에 대해 Y를 예측할 수 있도록 기계를 훈련 시켰습니다. 거대한 데이터 세트가 있고 범주를 추정하지 않으면지도 학습을 사용하여 기계를 훈련하기가 어려울 것입니다. 기계가 몇 기가 바이트와 테라 바이트로 실행되는 빅 데이터를 조회 및 분석하고이 데이터에 너무 많은 개별 범주가 포함되어 있다고 말할 수 있다면 어떨까요?

예를 들어, 유권자의 데이터를 고려하십시오. 각 유권자의 일부 입력 (AI 용어로는 기능이라고 함)을 고려하여 X 정당에 투표 할 유권자가 너무 많고 Y에 투표하는 유권자가 너무 많다는 것을 기계가 예측하도록합니다. 따라서 일반적으로 우리는 엄청난 양의 데이터 포인트 X가 주어진 머신에 "X에 대해 무엇을 말할 수 있습니까?"라고 질문합니다. 또는 "X에서 만들 수있는 최고의 그룹 5 개는 무엇입니까?"와 같은 질문 일 수 있습니다. 또는 "X에서 가장 자주 발생하는 세 가지 기능"과 같을 수도 있습니다.

이것이 바로 비지도 학습에 관한 것입니다.

비지도 학습을위한 알고리즘

이제 비지도 머신 러닝에서 분류에 널리 사용되는 알고리즘 중 하나에 대해 살펴 보겠습니다.

k- 평균 클러스터링

2000 년과 2004 년 미국 대통령 선거는 매우 가까웠습니다. 모든 후보가받은 인기 투표의 가장 큰 비율은 50.7 % 였고 가장 낮은 투표율은 47.9 %였습니다. 유권자의 일부가 편파를했다면 선거 결과는 달랐을 것입니다. 적절하게 항소 할 때 편파를 바꿀 소수의 유권자들이 있습니다. 이 그룹은 크지 않을 수 있지만 이렇게 가까운 인종으로 선거 결과를 바꿀만큼 충분히 클 수 있습니다. 이 사람들 그룹을 어떻게 찾습니까? 제한된 예산으로 어떻게 그들에게 어필합니까? 답은 클러스터링입니다.

그것이 어떻게 이루어지는 지 이해합시다.

  • 첫째, 동의 여부에 관계없이 사람들에 대한 정보를 수집합니다. 즉, 자신에게 중요한 것이 무엇인지, 투표 방식에 어떤 영향을 미칠지에 대한 단서를 제공 할 수있는 모든 종류의 정보입니다.

  • 그런 다음이 정보를 일종의 클러스터링 알고리즘에 넣습니다.

  • 다음으로, 각 클러스터에 대해 (가장 큰 클러스터를 먼저 선택하는 것이 현명 할 것입니다) 이러한 유권자들에게 호소 할 메시지를 작성합니다.

  • 마지막으로 캠페인을 제공하고 효과가 있는지 측정합니다.

클러스터링은 유사한 사물의 클러스터를 자동으로 형성하는 비지도 학습 유형입니다. 자동 분류와 같습니다. 거의 모든 것을 클러스터링 할 수 있으며 클러스터에있는 항목이 더 유사할수록 클러스터가 더 좋습니다. 이 장에서는 k- 평균이라는 클러스터링 알고리즘의 한 유형을 연구 할 것입니다. 'k'고유 군집을 찾기 때문에 k- 평균이라고하며 각 군집의 중심은 해당 군집에있는 값의 평균입니다.

클러스터 식별

클러스터 식별은 알고리즘에“여기 데이터가 있습니다. 이제 비슷한 것들을 함께 그룹화하고 그 그룹에 대해 말해주세요.” 분류와의 주요 차이점은 분류에서 원하는 것을 알고 있다는 것입니다. 클러스터링에서는 그렇지 않습니다.

클러스터링은 분류와 동일한 결과를 생성하지만 사전 정의 된 클래스가 없기 때문에 비지도 분류라고도합니다.

이제 우리는 감독 및 비지도 학습 모두에 익숙합니다. 나머지 기계 학습 범주를 이해하려면 먼저 다음 장에서 배우게 될 인공 신경망 (ANN)을 이해해야합니다.