Big Data Analytics - Aturan Asosiasi

Misalkan I = i 1 , i 2 , ..., i n menjadi himpunan n atribut biner yang disebut item. Misalkan D = t 1 , t 2 , ..., t m adalah sekumpulan transaksi yang disebut database. Setiap transaksi di D memiliki ID transaksi yang unik dan berisi bagian dari item di I. Aturan didefinisikan sebagai implikasi dari bentuk X ⇒ Y di mana X, Y ⊆ I dan X ∩ Y = ∅.

Himpunan item (untuk item-set pendek) X dan Y disebut anteseden (sisi kiri atau kiri) dan konsekuensi (sisi kanan atau kanan) aturan.

Untuk mengilustrasikan konsep, kami menggunakan contoh kecil dari domain supermarket. Himpunan item adalah I = {susu, roti, mentega, bir} dan database kecil yang berisi item tersebut ditampilkan pada tabel berikut.

ID transaksi Item
1 susu, roti
2 mentega roti
3 Bir
4 susu, roti, mentega
5 mentega roti

Contoh aturan untuk supermarket adalah {susu, roti} ⇒ {mentega} yang berarti jika susu dan roti dibeli, pelanggan juga membeli mentega. Untuk memilih aturan yang menarik dari himpunan semua aturan yang memungkinkan, batasan pada berbagai ukuran signifikansi dan kepentingan dapat digunakan. Kendala yang paling terkenal adalah ambang batas minimum untuk dukungan dan keyakinan.

Dukungan supp (X) dari set item X didefinisikan sebagai proporsi transaksi dalam set data yang berisi set item. Dalam contoh database di Tabel 1, item-set {milk, bread} memiliki dukungan 2/5 = 0.4 karena ini terjadi di 40% dari semua transaksi (2 dari 5 transaksi). Menemukan set item yang sering dapat dilihat sebagai penyederhanaan dari masalah pembelajaran tanpa pengawasan.

Keyakinan suatu aturan didefinisikan conf (X ⇒ Y) = supp (X ∪ Y) / supp (X). Misalnya aturan {susu, roti} ⇒ {mentega} memiliki tingkat keyakinan 0,2 / 0,4 = 0,5 dalam database pada Tabel 1, yang berarti bahwa untuk 50% transaksi yang mengandung susu dan roti, aturan tersebut benar. Keyakinan dapat diartikan sebagai estimasi probabilitas P (Y | X), probabilitas menemukan RHS dari aturan dalam transaksi dengan syarat bahwa transaksi tersebut juga mengandung LHS.

Dalam skrip yang terletak di bda/part3/apriori.R kode untuk mengimplementasikan apriori algorithm dapat ditemukan.

# Load the library for doing association rules
# install.packages(’arules’) 
library(arules)  

# Data preprocessing 
data("AdultUCI") 
AdultUCI[1:2,]  
AdultUCI[["fnlwgt"]] <- NULL 
AdultUCI[["education-num"]] <- NULL  

AdultUCI[[ "age"]] <- ordered(cut(AdultUCI[[ "age"]], c(15,25,45,65,100)), 
   labels = c("Young", "Middle-aged", "Senior", "Old")) 
AdultUCI[[ "hours-per-week"]] <- ordered(cut(AdultUCI[[ "hours-per-week"]], 
   c(0,25,40,60,168)), labels = c("Part-time", "Full-time", "Over-time", "Workaholic")) 
AdultUCI[[ "capital-gain"]] <- ordered(cut(AdultUCI[[ "capital-gain"]], 
   c(-Inf,0,median(AdultUCI[[ "capital-gain"]][AdultUCI[[ "capitalgain"]]>0]),Inf)), 
   labels = c("None", "Low", "High")) 
AdultUCI[[ "capital-loss"]] <- ordered(cut(AdultUCI[[ "capital-loss"]], 
   c(-Inf,0, median(AdultUCI[[ "capital-loss"]][AdultUCI[[ "capitalloss"]]>0]),Inf)), 
   labels = c("none", "low", "high"))

Untuk menghasilkan aturan menggunakan algoritma apriori, kita perlu membuat matriks transaksi. Kode berikut menunjukkan bagaimana melakukan ini di R.

# Convert the data into a transactions format
Adult <- as(AdultUCI, "transactions") 
Adult 
# transactions in sparse format with 
# 48842 transactions (rows) and 
# 115 items (columns)  

summary(Adult)  
# Plot frequent item-sets 
itemFrequencyPlot(Adult, support = 0.1, cex.names = 0.8)  

# generate rules 
min_support = 0.01 
confidence = 0.6 
rules <- apriori(Adult, parameter = list(support = min_support, confidence = confidence))

rules 
inspect(rules[100:110, ]) 
# lhs                             rhs                      support     confidence  lift
# {occupation = Farming-fishing} => {sex = Male}        0.02856148  0.9362416   1.4005486
# {occupation = Farming-fishing} => {race = White}      0.02831579  0.9281879   1.0855456
# {occupation = Farming-fishing} => {native-country     0.02671881  0.8758389   0.9759474
                                       = United-States}