SPADE 알고리즘을 사용할 때 Sequential Pattern Mining에서 사용할 수있는 다른 메트릭은 무엇입니까?
연관 규칙에 사용 된 관심 지표가있는이 멋진 페이지를 읽고 있습니다.
https://michael.hahsler.net/research/association_rules/measures.html
순차 데이터가 있기 때문에 순차 패턴 마이닝을 수행하는 R 의 arulesSequences 를 사용하고 SPADE 알고리즘을 사용하여 규칙을 작성 하기로 결정했습니다 .
다음은 생성 된 몇 가지 규칙입니다.
head(as(rules, 'data.frame'))
rule support confidence lift
1 <{A}> => <{B}> 0.026485890 0.13160987 0.8112745
2 <{D}> => <{B}> 0.009853382 0.03726893 0.2297345
3 <{C}> => <{B}> 0.063455778 0.10779325 0.6644632
4 <{C},{A}> => <{B}> 0.018524358 0.24607330 1.5168542
6 <{D}> => <{E}> 0.015607757 0.14494876 3.1703792
7 <{A}> => <{F}> 0.011587577 0.05757932 1.2593987
Chi Squared 테스트 (특정 규칙에 대해 Lift = 0이라는 귀무 가설을 테스트하기 위해) 와 같은 다른 메트릭을 계산 하거나 Standardized Lift 를 계산하는 것이 합리적이라고 생각합니다 .
그리고 이치에 맞다면이 패키지에 새로운 지표를 계산하는 기능이 있습니까? 함수가 , 및 로만 규칙을 생성
하기 때문에 의심이 cspade()
있습니다 .support
confidence
lift
답변
이 책 은 패턴 마이닝에 대해 찾은 가장 유용한 리소스 중 하나입니다. 5 장 (샘플 장으로 사용 가능)에서는 측정 값이 반전, 스케일링 및 널 추가에 대해 변하지 않는지 여부와 같은 몇 가지 관심 측정 값 속성에 대해 설명합니다. 관심 측정을 선택할 때 어떤 조건이 가장 중요한지 생각하는 것이 좋습니다.
나는 R에 지나치게 익숙하지 않지만 interestMeasure 패키지는 당신이 원하는 것처럼 보입니다. 그렇지 않으면 Python의 networkx 패키지에 몇 가지 추가 관심 측정이 포함되어 있거나 직접 구현하는 것이 너무 어렵지 않아야합니다.