Jaccardの類似性/距離は非バイナリの定量的データに適していますか?

Aug 20 2020

国ごとに1行、GDP、電力消費量、GNIなどの数値機能を含む10列のデータセットがあります。距離メトリックを使用して国間の類似性を見つけ、最終的にそれらをクラスター化しようとしています。ユークリッド、ミンコフスキー、キャンベラ、ジャッカードなど、かなりの数の距離メトリックを試しました。ジャッカード(scipyのpdistでの実装)の場合、マトリックスに1以外のすべてが含まれているため、結果の非類似度マトリックスは意味がないと思います。対角線に沿って0。jaccardについてもっと読みましたが、計算にsetunionとintersectionを使用しているようです。それで、連続変数の場合にそれを適用するのは間違っていますか?私はジャッカードをよく読んでいますが、データが0/1(存在/不在)で表されている場合にのみ役立つようです。ガイドしてください:)

回答

1 ttnphns Aug 20 2020 at 22:12

もともと、Jaccardの類似性はバイナリデータでのみ定義されています。ただし、そのアイデア(回答の@pingによって正しく表示される)は、定量的(スケール)データに拡張しようとする可能性があります。多くの情報源では、Ruzickaの類似性はJaccardと同等であると見なされています。SPSSマクロのドキュメントのスクリーンショット!PROXQNT(私のWebページ「Variousproximities」コレクションにあります):

これに加えて、バイナリデータの場合、Jaccard sim = Ruzicka sim(= 1-Soergel dis)=類似度= Ellenbergsimであることにも注意してください。

したがって、後方論理ごとに、Jaccardに対する同等性の他の候補として、類似性比Ellenberg類似性も考慮することができます。

1 ping Aug 20 2020 at 19:38

ジャッカードの類似性は、一般に、セットの任意のペアに有効です。 https://en.wikipedia.org/wiki/Jaccard_index

与えられた2つのセット $A$ そして $B$

$$ J=\frac{|A \cap B|}{|A \cup B|} $$

の要素についての要件はありません $A$ そして $B$。一般に、これは、2つのセットの共通部分と和集合の間の相対(ルベーグ)測度と見なすことができます。この解釈の下では、それは測定可能な空間の要素のすべてのペアに適用される可能性があります$X$。いつ$X$ ボレル空間であり、 $\sigma$-代数 $\Sigma$、測定値も確率的である可能性があります。

$$ J=\frac{\mu(A \cap B)}{\mu(A \cup B)} $$

とすれば $A, B \in \Sigma$