ความคล้ายคลึงกัน / ระยะทาง Jaccard เหมาะสำหรับข้อมูลเชิงปริมาณที่ไม่ใช่ไบนารีหรือไม่
ฉันมีชุดข้อมูลในแต่ละแถวในแต่ละประเทศและ 10 คอลัมน์ที่มีคุณลักษณะเชิงตัวเลขเช่น GDP, การใช้พลังงานไฟฟ้า, GNI เป็นต้นฉันพยายามใช้เมตริกระยะทางเพื่อค้นหาความคล้ายคลึงกันระหว่างประเทศและในที่สุดก็รวมกลุ่มกัน ฉันได้ลองใช้เมตริกระยะทางค่อนข้างน้อยเช่น Euclidean, Minkowski, canberra, jaccard เป็นต้นในกรณีของ jaccard (การนำไปใช้ใน pdist ใน scipy) ฉันไม่คิดว่าเมทริกซ์ความแตกต่างที่เกิดขึ้นจะสมเหตุสมผลเพราะฉันมี 1 ทั้งหมดในเมทริกซ์อื่นที่ไม่ใช่ 0 ตามแนวทแยง ฉันอ่านเพิ่มเติมเกี่ยวกับ jaccard และดูเหมือนว่าจะใช้ set union และจุดตัดในการคำนวณ ดังนั้นฉันผิดที่จะใช้ในกรณีของตัวแปรต่อเนื่องหรือไม่? ฉันอ่าน jaccard มาเยอะแล้วและดูเหมือนว่าจะมีประโยชน์ก็ต่อเมื่อข้อมูลถูกแสดงในรูปของ 0/1 (ปัจจุบัน / ไม่มี) โปรดชี้แนะ :)
คำตอบ
แต่เดิมความคล้ายคลึงกันของ Jaccardถูกกำหนดไว้บนข้อมูลไบนารีเท่านั้น อย่างไรก็ตามแนวคิด (ตามที่ @ping แสดงไว้อย่างถูกต้องในคำตอบ) อาจพยายามขยายไปยังข้อมูลเชิงปริมาณ (มาตราส่วน) ในหลายแหล่งความคล้ายคลึงกันของRuzickaถูกมองว่าเทียบเท่ากับ Jaccard ภาพหน้าจอจากเอกสารของมาโคร SPSS ของฉัน!PROXQNT(สามารถพบได้ในหน้าเว็บคอลเลกชัน "ความใกล้เคียงต่างๆ"):
นอกจากนี้ควรจำไว้ด้วยว่าในกรณีของข้อมูลไบนารี Jaccard sim = Ruzicka sim (= 1 - Soergel dis) = Similarity ratio = Ellenberg sim
ดังนั้นตามตรรกะย้อนกลับอัตราส่วนความเหมือนและความคล้ายคลึงของเอลเลนเบิร์กก็สามารถพิจารณาได้เช่นกันเช่นเดียวกับผู้สมัครรายอื่นที่มีความเท่าเทียมกันกับ Jaccard
โดยทั่วไปความคล้ายคลึงกันของ Jaccard นั้นใช้ได้กับชุดคู่ใด ๆ https://en.wikipedia.org/wiki/Jaccard_index
ให้สองชุด $A$ และ $B$:
$$ J=\frac{|A \cap B|}{|A \cup B|} $$
ไม่มีข้อกำหนดเกี่ยวกับองค์ประกอบของ $A$ และ $B$. โดยทั่วไปจะเห็นได้ว่าเป็นการวัดแบบสัมพัทธ์ (Lebesgue) ระหว่างจุดตัดและการรวมกันของทั้งสองชุด ภายใต้การตีความนี้อาจนำไปใช้กับทุกคู่ขององค์ประกอบของช่องว่างที่วัดได้$X$. เมื่อไหร่$X$ เป็นช่องว่าง Borel ด้วย $\sigma$-พีชคณิต $\Sigma$การวัดอาจเป็นไปได้เช่นกัน:
$$ J=\frac{\mu(A \cap B)}{\mu(A \cup B)} $$
ให้สิ่งนั้น $A, B \in \Sigma$.