Quelles sont les autres métriques que nous pouvons utiliser dans le Sequential Pattern Mining, lors de l'utilisation de l'algorithme SPADE?

Aug 19 2020

Je lis cette page géniale avec des métriques d'intérêt utilisées dans les règles d'association:
https://michael.hahsler.net/research/association_rules/measures.html

Comme j'ai des données séquentielles, j'ai décidé d'utiliser les arulesSequences de R, qui font du Sequential Pattern Mining, et de créer les règles en utilisant l'algorithme SPADE.
Voici quelques règles créées:

head(as(rules, 'data.frame'))
           rule                              support         confidence         lift
1    <{A}> => <{B}>                        0.026485890       0.13160987      0.8112745
2    <{D}> => <{B}>                        0.009853382       0.03726893      0.2297345
3     <{C}> => <{B}>                       0.063455778       0.10779325      0.6644632
4   <{C},{A}> => <{B}>                     0.018524358       0.24607330      1.5168542
6    <{D}> => <{E}>                        0.015607757       0.14494876      3.1703792
7    <{A}> => <{F}>                        0.011587577       0.05757932      1.2593987

Je pense qu'il est logique de calculer d'autres mesures, comme le test du chi carré (pour tester l'hypothèse nulle que Lift = 0 pour une règle spécifique), ou de calculer le Lift standardisé .
Et si cela a du sens, il y a une fonction dans ce package ou dans un autre pour calculer ces nouvelles métriques?
J'ai des doutes car la cspade()fonction crée uniquement des règles avec support, confidenceet lift.

Réponses

4 Elenchus Aug 20 2020 at 03:10

Ce livre est l'une des ressources les plus utiles que j'ai trouvées pour l'exploration de modèles. Le chapitre 5 (disponible sous la forme d'un exemple de chapitre) traite de quelques propriétés des mesures d'intérêt, par exemple si la mesure est invariante à l'inversion, à la mise à l'échelle et à l'addition nulle. Lors du choix d'une mesure d'intérêt, il convient de réfléchir aux conditions les plus importantes.

Je ne suis pas trop familier avec R, mais le package interestMeasure ressemble à ce que vous voulez. Sinon, le package networkx en Python contient des mesures d'intérêt supplémentaires, ou les implémenter vous-même ne devrait pas être trop difficile.