Какие еще показатели мы можем использовать в последовательном анализе шаблонов при использовании алгоритма SPADE?

Aug 19 2020

Я читаю эту потрясающую страницу с показателями интереса, используемыми в Правилах ассоциации:
https://michael.hahsler.net/research/association_rules/measures.html

Поскольку у меня есть последовательные данные, я решил использовать arulesSequences из R, которые выполняют последовательный анализ шаблонов, и создать правила, используя алгоритм SPADE.
Вот несколько созданных правил:

head(as(rules, 'data.frame'))
           rule                              support         confidence         lift
1    <{A}> => <{B}>                        0.026485890       0.13160987      0.8112745
2    <{D}> => <{B}>                        0.009853382       0.03726893      0.2297345
3     <{C}> => <{B}>                       0.063455778       0.10779325      0.6644632
4   <{C},{A}> => <{B}>                     0.018524358       0.24607330      1.5168542
6    <{D}> => <{E}>                        0.015607757       0.14494876      3.1703792
7    <{A}> => <{F}>                        0.011587577       0.05757932      1.2593987

Я думаю, есть ли смысл рассчитывать некоторые другие показатели, такие как критерий хи-квадрат (чтобы проверить нулевую гипотезу о том, что подъем = 0 для определенного правила) или рассчитать стандартизованный подъем .
И если это имеет смысл, есть ли в этом или другом пакете функция для расчета этих новых показателей?
У меня есть сомнения, потому что cspade()функция создает правила только с support, confidenceи lift.

Ответы

4 Elenchus Aug 20 2020 at 03:10

Эта книга - один из самых полезных ресурсов, которые я нашел для исследования паттернов. В главе 5 (доступной в качестве примера) рассказывается о некоторых свойствах представляющих интерес мер, например о том, инвариантна ли мера по отношению к инверсии, масштабированию и сложению нуля. Выбирая процентную ставку, стоит подумать о том, какие условия наиболее важны.

Я не слишком знаком с R, но interestMeasure пакет выглядит как то , что вы хотите. В противном случае пакет networkx в Python содержит некоторые дополнительные меры интереса, или их реализация не должна быть слишком сложной.