Metrik lain apa yang bisa kita gunakan dalam Sequential Pattern Mining, saat menggunakan algoritma SPADE?

Aug 19 2020

Saya membaca halaman mengagumkan ini dengan metrik minat yang digunakan dalam Aturan Asosiasi:
https://michael.hahsler.net/research/association_rules/measures.html

Karena saya memiliki data sekuensial, saya memutuskan untuk menggunakan arulesSequences dari R, yang melakukan Penambangan Pola Sekuensial, dan membuat aturan menggunakan algoritma SPADE.
Berikut beberapa aturan yang dibuat:

head(as(rules, 'data.frame'))
           rule                              support         confidence         lift
1    <{A}> => <{B}>                        0.026485890       0.13160987      0.8112745
2    <{D}> => <{B}>                        0.009853382       0.03726893      0.2297345
3     <{C}> => <{B}>                       0.063455778       0.10779325      0.6644632
4   <{C},{A}> => <{B}>                     0.018524358       0.24607330      1.5168542
6    <{D}> => <{E}>                        0.015607757       0.14494876      3.1703792
7    <{A}> => <{F}>                        0.011587577       0.05757932      1.2593987

Saya berpikir apakah masuk akal untuk menghitung beberapa metrik lainnya, seperti uji Chi Kuadrat (untuk menguji hipotesis nol bahwa Peningkatan = 0 untuk aturan tertentu), atau hitung Peningkatan Standar .
Dan jika masuk akal, ada beberapa fungsi dalam paket ini atau yang lain untuk menghitung metrik baru ini?
Saya ragu karena cspade()fungsinya hanya membuat aturan dengan support, confidencedan lift.

Jawaban

4 Elenchus Aug 20 2020 at 03:10

Buku ini adalah salah satu sumber paling berguna yang saya temukan untuk penambangan pola. Bab 5 (tersedia sebagai bab contoh) berbicara tentang beberapa properti ukuran minat, seperti apakah ukuran invarian terhadap inversi, penskalaan, dan penambahan nol. Saat memilih ukuran minat, ada baiknya memikirkan tentang kondisi apa yang paling penting.

Saya tidak terlalu paham dengan R, tetapi paket interestMeasure terlihat seperti yang Anda inginkan. Jika tidak, paket networkx dengan Python berisi beberapa ukuran minat tambahan, atau menerapkannya sendiri seharusnya tidak terlalu sulit.