Подходит ли сходство / расстояние Жаккара для недвоичных количественных данных?

Aug 20 2020

У меня есть набор данных с каждой строкой, страной и 10 столбцами с числовыми характеристиками, такими как ВВП, потребление электроэнергии, ВНД и т. Д. Я пытаюсь использовать метрики расстояния, чтобы найти сходство между странами и в конечном итоге их сгруппировать. Я пробовал довольно много метрик расстояния, таких как Евклидова, Минковского, Канберра, Жаккарда и т.д. 0 по диагонали. Я читал больше о jaccard, и, похоже, в вычислениях используются объединение множеств и пересечение. Так я ошибаюсь, применяя его в случае непрерывных переменных? Я много читал о jaccard, и кажется, что это полезно только тогда, когда данные представлены с точки зрения 0/1 (присутствует / отсутствует). Пожалуйста, помогите :)

Ответы

1 ttnphns Aug 20 2020 at 22:12

Изначально подобие Жаккара определяется только для двоичных данных. Однако его идею (как правильно отображает @ping в их ответе) можно попытаться распространить на количественные (масштабные) данные. Во многих источниках подобие Ружички рассматривается как аналог Жаккара. Скриншот из документа моего макроса SPSS !PROXQNT(его можно найти на моей веб-странице, сборник «Различные близости»):

Помимо этого, следует также иметь в виду, что в случае двоичных данных Jaccard sim = Ruzicka sim (= 1 - Soergel dis) = Коэффициент подобия = Ellenberg sim.

Следовательно, согласно обратной логике, коэффициент подобия и подобие Элленберга также могут рассматриваться как другие кандидаты на эквивалентность по отношению к Жаккару.

1 ping Aug 20 2020 at 19:38

Подобие Жаккара, вообще говоря, справедливо для любой пары множеств https://en.wikipedia.org/wiki/Jaccard_index

Учитывая два набора $A$ и $B$:

$$ J=\frac{|A \cap B|}{|A \cup B|} $$

Никаких требований к элементам $A$ и $B$. В общем, его можно рассматривать как относительную меру (меру Лебега) между пересечением и объединением двух множеств. Согласно этой интерпретации, он может применяться ко всем парам элементов измеримого пространства.$X$. когда$X$ борелевское пространство с $\sigma$-алгебра $\Sigma$, мера также может быть вероятностной:

$$ J=\frac{\mu(A \cap B)}{\mu(A \cup B)} $$

при условии $A, B \in \Sigma$.