SPADE 알고리즘을 사용할 때 Sequential Pattern Mining에서 사용할 수있는 다른 메트릭은 무엇입니까?

Aug 19 2020

연관 규칙에 사용 된 관심 지표가있는이 멋진 페이지를 읽고 있습니다.
https://michael.hahsler.net/research/association_rules/measures.html

순차 데이터가 있기 때문에 순차 패턴 마이닝을 수행하는 R 의 arulesSequences 를 사용하고 SPADE 알고리즘을 사용하여 규칙을 작성 하기로 결정했습니다 .
다음은 생성 된 몇 가지 규칙입니다.

head(as(rules, 'data.frame'))
           rule                              support         confidence         lift
1    <{A}> => <{B}>                        0.026485890       0.13160987      0.8112745
2    <{D}> => <{B}>                        0.009853382       0.03726893      0.2297345
3     <{C}> => <{B}>                       0.063455778       0.10779325      0.6644632
4   <{C},{A}> => <{B}>                     0.018524358       0.24607330      1.5168542
6    <{D}> => <{E}>                        0.015607757       0.14494876      3.1703792
7    <{A}> => <{F}>                        0.011587577       0.05757932      1.2593987

Chi Squared 테스트 (특정 규칙에 대해 Lift = 0이라는 귀무 가설을 테스트하기 위해) 와 같은 다른 메트릭을 계산 하거나 Standardized Lift 를 계산하는 것이 합리적이라고 생각합니다 .
그리고 이치에 맞다면이 패키지에 새로운 지표를 계산하는 기능이 있습니까? 함수가 , 및 로만 규칙을 생성
하기 때문에 의심이 cspade()있습니다 .supportconfidencelift

답변

4 Elenchus Aug 20 2020 at 03:10

이 책 은 패턴 마이닝에 대해 찾은 가장 유용한 리소스 중 하나입니다. 5 장 (샘플 장으로 사용 가능)에서는 측정 값이 반전, 스케일링 및 널 추가에 대해 변하지 않는지 여부와 같은 몇 가지 관심 측정 값 속성에 대해 설명합니다. 관심 측정을 선택할 때 어떤 조건이 가장 중요한지 생각하는 것이 좋습니다.

나는 R에 지나치게 익숙하지 않지만 interestMeasure 패키지는 당신이 원하는 것처럼 보입니다. 그렇지 않으면 Python의 networkx 패키지에 몇 가지 추가 관심 측정이 포함되어 있거나 직접 구현하는 것이 너무 어렵지 않아야합니다.