¿Cuáles son las otras métricas que podemos usar en la minería de patrones secuenciales cuando usamos el algoritmo SPADE?
Estoy leyendo esta increíble página con métricas de interés utilizadas en las Reglas de asociación:
https://michael.hahsler.net/research/association_rules/measures.html
Como tengo datos secuenciales, decidí usar arulesSequences de R, que hacen la minería de patrones secuenciales, y crear las reglas usando el algoritmo SPADE.
Aquí hay algunas reglas creadas:
head(as(rules, 'data.frame'))
rule support confidence lift
1 <{A}> => <{B}> 0.026485890 0.13160987 0.8112745
2 <{D}> => <{B}> 0.009853382 0.03726893 0.2297345
3 <{C}> => <{B}> 0.063455778 0.10779325 0.6644632
4 <{C},{A}> => <{B}> 0.018524358 0.24607330 1.5168542
6 <{D}> => <{E}> 0.015607757 0.14494876 3.1703792
7 <{A}> => <{F}> 0.011587577 0.05757932 1.2593987
Estoy pensando si tiene sentido calcular otras métricas, como la prueba de chi al cuadrado (para probar la hipótesis nula de que Lift = 0 para una regla específica), o calcular el Lift estandarizado .
Y si tiene sentido, ¿hay alguna función en este paquete o en otro para calcular estas nuevas métricas?
Tengo mis dudas porque la cspade()
función solo crea reglas con support
, confidence
y lift
.
Respuestas
Este libro es uno de los recursos más útiles que he encontrado para la minería de patrones. El capítulo 5 (disponible como un capítulo de muestra) habla sobre algunas propiedades de las medidas de interés, como si la medida es invariante a la inversión, el escalado y la suma nula. Al elegir una medida de interés, vale la pena pensar en qué condiciones son las más importantes.
No estoy demasiado familiarizado con R, pero el paquete interestMeasure se parece a lo que quieres. De lo contrario, el paquete networkx en Python contiene algunas medidas de interés adicionales, o implementarlas usted mismo no debería ser demasiado difícil.