Apakah kesamaan / jarak Jaccard cocok untuk data kuantitatif non-biner?
Saya memiliki kumpulan data dengan setiap baris satu negara dan 10 kolom dengan fitur numerik seperti PDB, Konsumsi listrik, PNB, dll. Saya mencoba menggunakan metrik jarak untuk menemukan kesamaan antara negara dan akhirnya mengelompokkannya. Saya telah mencoba beberapa metrik jarak seperti Euclidean, Minkowski, canberra, jaccard dll. Dalam kasus jaccard (implementasi dalam pdist di scipy), saya rasa matriks ketidaksamaan yang dihasilkan tidak masuk akal karena saya memiliki semua 1 di matriks selain 0 sepanjang diagonal. Saya membaca lebih lanjut tentang jaccard dan tampaknya menggunakan set union dan intersection dalam komputasi. Jadi, apakah saya salah menerapkannya dalam kasus variabel kontinu? Saya telah banyak membaca tentang jaccard dan tampaknya hanya berguna jika data direpresentasikan dalam istilah 0/1 (ada / tidak ada). Tolong bimbing :)
Jawaban
Awalnya, kemiripan Jaccard ditentukan hanya pada data biner. Namun, idenya (seperti yang ditampilkan dengan benar oleh @ping dalam jawaban mereka) dapat dicoba untuk diperluas ke data kuantitatif (skala). Dalam banyak sumber, kesamaan Ruzicka dipandang setara dengan Jaccard. Tangkapan layar dari dokumen makro SPSS saya !PROXQNT
(dapat ditemukan di laman web saya, koleksi "Berbagai perkiraan"):

Selain itu, perlu juga diingat bahwa dalam kasus data biner , Jaccard sim = Ruzicka sim (= 1 - Soergel dis) = Similarity ratio = Ellenberg sim.
Oleh karena itu per logika mundur, rasio kesamaan dan kesamaan Ellenberg dapat dipertimbangkan juga, sebagai kandidat lain untuk kesetaraan menuju Jaccard.

Kesamaan Jaccard, secara umum, berlaku untuk pasangan himpunan manapun https://en.wikipedia.org/wiki/Jaccard_index
Diberikan dua set $A$ dan $B$:
$$ J=\frac{|A \cap B|}{|A \cup B|} $$
Tidak ada persyaratan yang diberikan tentang elemen $A$ dan $B$. Secara umum, ini dapat dilihat sebagai ukuran relatif (Lebesgue), antara perpotongan dan penyatuan dua himpunan. Di bawah interpretasi ini, ini dapat diterapkan pada semua pasangan elemen ruang yang dapat diukur$X$. Kapan$X$ adalah ruang Borel, dengan $\sigma$-aljabar $\Sigma$, ukurannya juga bisa bersifat probabilistik:
$$ J=\frac{\mu(A \cap B)}{\mu(A \cup B)} $$
mengingat bahwa $A, B \in \Sigma$.