เมตริกอื่น ๆ ที่เราสามารถใช้ในการขุดรูปแบบลำดับเมื่อใช้อัลกอริทึม SPADE คืออะไร

Aug 19 2020

ฉันกำลังอ่านหน้านี้ที่ยอดเยี่ยมพร้อมเมตริกความสนใจที่ใช้ในกฎการเชื่อมโยง
https://michael.hahsler.net/research/association_rules/measures.html

เนื่องจากฉันมีข้อมูลตามลำดับฉันจึงตัดสินใจใช้arulesSequencesจาก R ซึ่งทำ Sequential Pattern Mining และสร้างกฎโดยใช้อัลกอริทึม SPADE
นี่คือกฎบางอย่างที่สร้างขึ้น:

head(as(rules, 'data.frame'))
           rule                              support         confidence         lift
1    <{A}> => <{B}>                        0.026485890       0.13160987      0.8112745
2    <{D}> => <{B}>                        0.009853382       0.03726893      0.2297345
3     <{C}> => <{B}>                       0.063455778       0.10779325      0.6644632
4   <{C},{A}> => <{B}>                     0.018524358       0.24607330      1.5168542
6    <{D}> => <{E}>                        0.015607757       0.14494876      3.1703792
7    <{A}> => <{F}>                        0.011587577       0.05757932      1.2593987

ผมคิดว่าถ้าจะทำให้ความรู้สึกในการคำนวณบางตัวชี้วัดอื่น ๆ เช่นจิ Squaredทดสอบ (เพื่อทดสอบสมมติฐานที่ว่าลิฟท์ = 0 สำหรับกฎที่เฉพาะเจาะจง) หรือคำนวณLift มาตรฐาน
และถ้าสมเหตุสมผลมีฟังก์ชันบางอย่างในแพ็กเกจนี้หรืออีกฟังก์ชันในการคำนวณเมตริกใหม่เหล่านี้
ผมมีข้อสงสัยของฉันเพราะcspade()ฟังก์ชั่นเพียง แต่จะสร้างกฎระเบียบที่มีsupport, และconfidencelift

คำตอบ

4 Elenchus Aug 20 2020 at 03:10

หนังสือเล่มนี้เป็นหนึ่งในแหล่งข้อมูลที่มีประโยชน์ที่สุดที่ฉันพบสำหรับการขุดรูปแบบ บทที่ 5 (มีให้เป็นบทตัวอย่าง) พูดถึงคุณสมบัติบางประการของการวัดความสนใจเช่นการวัดไม่แปรผันกับการผกผันการปรับขนาดและการเพิ่ม null หรือไม่ เมื่อเลือกมาตรการดอกเบี้ยควรพิจารณาว่าเงื่อนไขใดสำคัญที่สุด

ฉันไม่คุ้นเคยกับ R มากนัก แต่แพ็คเกจการวัดดอกเบี้ยดูเหมือนว่าคุณต้องการอะไร ไม่เช่นนั้นแพ็คเกจ networkx ใน Python จะมีมาตรการที่น่าสนใจเพิ่มเติมหรือนำไปใช้ด้วยตัวเองก็ไม่ควรยากเกินไป