Jaccard 유사성 / 거리가 이진이 아닌 양적 데이터에 적합합니까?
각 행에 국가별로 데이터 세트가 있고 GDP, 전기도 소비, GNI 등과 같은 수치 기능이있는 10 개의 열이 있습니다. 거리 측정 항목을 사용하여 국가 간의 유사성을 찾고 궁극적으로 클러스터링하려고합니다. 나는 Euclidean, Minkowski, canberra, jaccard 등과 같은 꽤 많은 거리 측정법을 시도했습니다. jaccard의 경우 (scipy의 pdist에서 구현) 나는 결과 비 유사성 행렬이 다른 행렬에 1이 모두 있기 때문에 의미가 없다고 생각합니다. 대각선을 따라 0. 나는 jaccard에 대해 더 많이 읽었고 계산에서 집합 결합과 교차를 사용하는 것 같습니다. 그래서 연속 변수의 경우 적용하는 것이 잘못입니까? 나는 jaccard에 대해 많이 읽었으며 데이터가 0/1 (존재 / 부재)로 표현 될 때만 유용 할 것 같습니다. 안내 해주세요 :)
답변
원래 Jaccard 유사성 은 바이너리 데이터에서만 정의됩니다. 그러나 그 아이디어 (답변에 @ping으로 올바르게 표시됨)는 정량적 (규모) 데이터로 확장하려고 시도 할 수 있습니다. 많은 출처에서 Ruzicka 유사성은 Jaccard와 동등한 것으로 간주됩니다. 내 SPSS 매크로 문서의 스크린 샷 !PROXQNT
(내 웹 페이지 "Various proximities"컬렉션에서 찾을 수 있음) :

이 외에도 이진 데이터의 경우 Jaccard sim = Ruzicka sim (= 1-Soergel dis) = 유사성 비율 = Ellenberg sim이라는 점도 명심해야합니다.
따라서 역방향 논리에 따라 유사성 비율 과 Ellenberg 유사성 도 Jaccard에 대한 등가성에 대한 다른 후보로 고려 될 수 있습니다.

Jaccard 유사성은 일반적으로 모든 세트에 유효합니다. https://en.wikipedia.org/wiki/Jaccard_index
주어진 두 세트 $A$ 과 $B$:
$$ J=\frac{|A \cap B|}{|A \cup B|} $$
요소에 대한 요구 사항은 없습니다. $A$ 과 $B$. 일반적으로 두 세트의 교차점과 합집합 사이의 상대적 (Lebesgue) 측정 값으로 볼 수 있습니다. 이러한 해석에 따라 측정 가능한 공간의 모든 요소 쌍에 적용될 수 있습니다.$X$. 언제$X$ Borel 공간입니다. $\sigma$-대수학 $\Sigma$, 측정 값은 확률적일 수도 있습니다.
$$ J=\frac{\mu(A \cap B)}{\mu(A \cup B)} $$
~을 고려하면 $A, B \in \Sigma$.