¿La similitud / distancia de Jaccard es adecuada para datos cuantitativos no binarios?
Tengo un conjunto de datos con cada fila de un país y 10 columnas con características numéricas como el PIB, el consumo de electricidad, el INB, etc. Estoy tratando de usar métricas de distancia para encontrar similitudes entre los países y, en última instancia, agruparlos. He probado bastantes métricas de distancia como Euclidean, Minkowski, canberra, jaccard, etc. En el caso de jaccard (implementación en pdist en scipy) no creo que la matriz de disimilitud resultante tenga sentido ya que tengo todos los 1 en la matriz además de 0 a lo largo de la diagonal. Leí más sobre jaccard y parece usar unión e intersección de conjuntos en el cálculo. Entonces, ¿me equivoco al aplicarlo en caso de variables continuas? He leído mucho en jaccard y parece ser útil solo cuando los datos se representan en términos de 0/1 (presente / ausente). Por favor guíe :)
Respuestas
Originalmente, la similitud de Jaccard se define solo en datos binarios. Sin embargo, su idea (como se muestra correctamente con @ping en su respuesta) podría intentarse extenderse a los datos cuantitativos (escala). En muchas fuentes, la similitud de Ruzicka se considera un equivalente de Jaccard. Una captura de pantalla del documento de mi macro de SPSS !PROXQNT
(se puede encontrar en mi página web, colección "Varias proximidades"):

Además de esto, también se debe tener en cuenta que en el caso de datos binarios , Jaccard sim = Ruzicka sim (= 1 - Soergel dis) = Ratio de similitud = Ellenberg sim.
Por lo tanto, según la lógica hacia atrás, la relación de similitud y la similitud de Ellenberg también pueden considerarse como otros candidatos para la equivalencia hacia Jaccard.

La similitud de Jaccard es, en general, válida para cualquier par de conjuntos https://en.wikipedia.org/wiki/Jaccard_index
Dados dos conjuntos $A$ y $B$:
$$ J=\frac{|A \cap B|}{|A \cup B|} $$
No se da ningún requisito sobre los elementos de $A$ y $B$. En general, se puede ver como la medida relativa (Lebesgue), entre la intersección y la unión de los dos conjuntos. Según esta interpretación, se puede aplicar a todos los pares de elementos de un espacio medible.$X$. Cuando$X$ es un espacio Borel, con $\sigma$-álgebra $\Sigma$, la medida también puede ser probabilística:
$$ J=\frac{\mu(A \cap B)}{\mu(A \cup B)} $$
Dado que $A, B \in \Sigma$.