클러스터링 알고리즘-개요
클러스터링 소개
클러스터링 방법은 가장 유용한 비지도 ML 방법 중 하나입니다. 이러한 방법은 데이터 샘플 간의 유사성 및 관계 패턴을 찾은 다음 해당 샘플을 특징에 따라 유사성을 갖는 그룹으로 클러스터링하는 데 사용됩니다.
클러스터링은 현재 레이블이 지정되지 않은 데이터 간의 고유 한 그룹화를 결정하기 때문에 중요합니다. 그들은 기본적으로 유사성을 구성하기 위해 데이터 포인트에 대해 몇 가지 가정을합니다. 각 가정은 다르지만 동일하게 유효한 클러스터를 구성합니다.
예를 들어, 아래는 서로 다른 클러스터에서 유사한 종류의 데이터를 함께 그룹화 한 클러스터링 시스템을 보여주는 다이어그램입니다.
클러스터 형성 방법
클러스터가 구형으로 형성 될 필요는 없습니다. 다음은 다른 클러스터 형성 방법입니다.
밀도 기반
이 방법에서 클러스터는 밀집 영역으로 형성됩니다. 이러한 방법의 장점은 두 군집을 병합 할 수있을뿐만 아니라 정확성도 뛰어나다는 것입니다. 전의. 노이즈가있는 애플리케이션의 밀도 기반 공간 클러스터링 (DBSCAN), 클러스터링 구조를 식별하기위한 주문 포인트 (OPTICS) 등
계층 기반
이러한 방법에서 클러스터는 계층 구조를 기반으로 트리 유형 구조로 형성됩니다. 여기에는 Agglomerative (Bottom up 접근 방식)와 Divisive (Top down 접근 방식)의 두 가지 범주가 있습니다. 전의. 대표자를 사용한 클러스터링 (CURE), 계층을 사용하는 균형 잡힌 반복 감소 클러스터링 (BIRCH) 등
파티셔닝
이 방법에서 클러스터는 객체를 k 클러스터로 분할하여 형성됩니다. 클러스터 수는 파티션 수와 같습니다. 전의. K- 평균, 무작위 검색 기반 대규모 애플리케이션 클러스터링 (CLARANS).
그리드
이 방법에서 클러스터는 그리드와 같은 구조로 형성됩니다. 이러한 방법의 장점은 이러한 그리드에서 수행되는 모든 클러스터링 작업이 빠르고 데이터 개체 수에 독립적이라는 것입니다. 전의. Statistical Information Grid (STING), Clustering in Quest (CLIQUE).
클러스터링 성능 측정
ML 모델과 관련하여 가장 중요한 고려 사항 중 하나는 성능을 평가하거나 모델의 품질을 말할 수 있습니다. 지도 학습 알고리즘의 경우 모든 예제에 대한 레이블이 이미 있으므로 모델의 품질을 평가하는 것이 쉽습니다.
반면에 비지도 학습 알고리즘의 경우 레이블이없는 데이터를 다루기 때문에 그다지 축복을받지 못합니다. 그러나 여전히 우리는 알고리즘에 따라 클러스터의 변화 발생에 대한 통찰력을 실무자에게 제공하는 몇 가지 메트릭이 있습니다.
이러한 측정 항목에 대해 자세히 알아보기 전에 이러한 측정 항목은 모델 예측의 유효성을 측정하기보다는 서로에 대한 모델의 비교 성능 만 평가한다는 사실을 이해해야합니다. 다음은 모델의 품질을 측정하기 위해 클러스터링 알고리즘에 배포 할 수있는 몇 가지 메트릭입니다.
실루엣 분석
클러스터 간의 거리를 측정하여 클러스터링 모델의 품질을 확인하는 데 사용되는 실루엣 분석. 기본적으로 다음을 사용하여 클러스터 수와 같은 매개 변수를 평가하는 방법을 제공합니다.Silhouette score. 이 점수는 한 군집의 각 점이 인접 군집의 점에 얼마나 가까운지를 측정합니다.
실루엣 점수 분석
실루엣 점수의 범위는 [-1, 1]입니다. 그 분석은 다음과 같습니다-
+1 Score − 거의 +1 Silhouette score 샘플이 인접한 클러스터에서 멀리 떨어져 있음을 나타냅니다.
0 Score − 0 Silhouette score 샘플이 두 개의 인접 클러스터를 구분하는 결정 경계에 있거나 매우 가깝다는 것을 나타냅니다.
-1 Score & minusl -1 Silhouette score 샘플이 잘못된 클러스터에 할당되었음을 나타냅니다.
실루엣 점수 계산은 다음 공식을 사용하여 수행 할 수 있습니다.
= (−) / (,)
여기서 = 가장 가까운 군집에있는 점까지의 평균 거리
그리고 =는 모든 점에 대한 군집 내 거리를 의미합니다.
Davis-Bouldin 지수
DB 인덱스는 클러스터링 알고리즘 분석을 수행하는 또 다른 좋은 지표입니다. DB 인덱스의 도움으로 클러스터링 모델에 대한 다음 사항을 이해할 수 있습니다.
성단이 서로 간격이 좋은 날씨입니까?
클러스터의 밀도는 얼마나됩니까?
다음 공식을 사용하여 DB 인덱스를 계산할 수 있습니다.
$$ DB = \ frac {1} {n} \ displaystyle \ sum \ limits_ {i = 1} ^ n max_ {j \ neq {i}} \ left (\ frac {\ sigma_ {i} + \ sigma_ {j }} {d (c_ {i}, c_ {j})} \ right) $$여기에서 = 클러스터 수
σ i = 군집 중심에서 군집에있는 모든 점의 평균 거리.
DB 인덱스가 적을수록 클러스터링 모델이 좋습니다.
던 인덱스
DB 인덱스와 동일하게 작동하지만 다음과 같은 점이 있습니다.
Dunn 인덱스는 클러스터링 모델에서 모든 클러스터의 분산 및 분리를 고려하는 동안 DB 인덱스는 서로 가까운 클러스터와 같은 최악의 경우 만 고려합니다.
Dunn 인덱스는 성능이 향상됨에 따라 증가하고 DB 인덱스는 클러스터가 잘 배치되고 조밀 할 때 향상됩니다.
다음 공식을 사용하여 Dunn 지수를 계산할 수 있습니다.
$$ D = \ frac {min_ {1 \ leq i <{j} \ leq {n}} P (i, j)} {mix_ {1 \ leq i <k \ leq n} q (k)} $$여기서, ,, = 클러스터에 대한 각 인덱스
= 클러스터 간 거리
q = 클러스터 내 거리
ML 클러스터링 알고리즘의 유형
다음은 가장 중요하고 유용한 ML 클러스터링 알고리즘입니다.
K- 평균 클러스터링
이 클러스터링 알고리즘은 중심을 계산하고 최적의 중심을 찾을 때까지 반복합니다. 클러스터 수를 이미 알고 있다고 가정합니다. 플랫 클러스터링 알고리즘이라고도합니다. 알고리즘에 의해 데이터에서 식별 된 클러스터의 수는 K- 평균에서 'K'로 표시됩니다.
평균 이동 알고리즘
비지도 학습에 사용되는 또 다른 강력한 클러스터링 알고리즘입니다. K- 평균 클러스터링과는 달리 어떠한 가정도하지 않으므로 비모수 적 알고리즘입니다.
계층 적 클러스터링
유사한 특성을 가진 레이블이없는 데이터 포인트를 함께 그룹화하는 데 사용되는 또 다른 비지도 학습 알고리즘입니다.
우리는 다음 장에서 이러한 모든 알고리즘에 대해 자세히 논의 할 것입니다.
클러스터링의 응용
다음 영역에서 유용한 클러스터링을 찾을 수 있습니다.
Data summarization and compression− 클러스터링은 데이터 요약, 압축 및 축소가 필요한 영역에서도 널리 사용됩니다. 예는 이미지 처리 및 벡터 양자화입니다.
Collaborative systems and customer segmentation − 클러스터링은 유사 제품이나 동종 사용자를 찾는 데 사용할 수 있으므로 협업 시스템 및 고객 세분화 영역에서 사용할 수 있습니다.
Serve as a key intermediate step for other data mining tasks− 군집 분석은 분류, 테스트, 가설 생성을위한 데이터 요약을 생성 할 수 있습니다. 따라서 다른 데이터 마이닝 작업을위한 핵심 중간 단계 역할도합니다.
Trend detection in dynamic data − 클러스터링은 유사한 추세의 다양한 클러스터를 만들어 동적 데이터의 추세 감지에도 사용할 수 있습니다.
Social network analysis− 클러스터링은 소셜 네트워크 분석에 사용할 수 있습니다. 예제는 이미지, 비디오 또는 오디오에서 시퀀스를 생성하는 것입니다.
Biological data analysis − 클러스터링은 이미지, 비디오의 클러스터를 만드는데도 사용할 수 있으므로 생물학적 데이터 분석에 성공적으로 사용할 수 있습니다.