SPADEアルゴリズムを使用する場合、シーケンシャルパターンマイニングで使用できる他のメトリックは何ですか?

Aug 19 2020

アソシエーションルールで使用されるインタレストメトリックを含むこの素晴らしいページを読んでいます。
https://michael.hahsler.net/research/association_rules/measures.html

シーケンシャルデータがあるので、シーケンシャルパターンマイニングを実行するRのarulesSequencesを使用し、SPADEアルゴリズムを使用してルールを作成することにしました。
作成されたルールは次のとおりです。

head(as(rules, 'data.frame'))
           rule                              support         confidence         lift
1    <{A}> => <{B}>                        0.026485890       0.13160987      0.8112745
2    <{D}> => <{B}>                        0.009853382       0.03726893      0.2297345
3     <{C}> => <{B}>                       0.063455778       0.10779325      0.6644632
4   <{C},{A}> => <{B}>                     0.018524358       0.24607330      1.5168542
6    <{D}> => <{E}>                        0.015607757       0.14494876      3.1703792
7    <{A}> => <{F}>                        0.011587577       0.05757932      1.2593987

カイ二乗検定(特定のルールに対してLift = 0であるというヌル仮説をテストするため)などの他のメトリックを計算するか、標準化されたLiftを計算することが理にかなっているのかどうかを考えています。
そして、理にかなっている場合、これらの新しいメトリックを計算するために、このパッケージまたは別のパッケージにいくつかの関数がありますか?
私はので、私の疑問を持っているcspade()機能だけでルールを作成しsupportconfidenceそしてlift

回答

4 Elenchus Aug 20 2020 at 03:10

この本は、私がパターンマイニングで見つけた最も有用なリソースの1つです。第5章(サンプルの章として利用可能)では、メジャーが反転、スケーリング、ヌル加算に対して不変であるかどうかなど、関心のあるメジャーのいくつかのプロパティについて説明します。関心度を選択するときは、どの条件が最も重要かを考える価値があります。

私はRにあまり精通していませんが、interestMeasureパッケージはあなたが望むもののように見えます。それ以外の場合、Pythonのnetworkxパッケージにはいくつかの追加の関心測定値が含まれています。または、それらを自分で実装するのはそれほど難しくありません。