Data Mining - Klasifikasi Berbasis Aturan

IF-THEN Aturan

Pengklasifikasi berbasis aturan menggunakan sekumpulan aturan IF-THEN untuk klasifikasi. Kita dapat mengekspresikan aturan berikut dari -

JIKA kondisi MAKA kesimpulan

Mari kita pertimbangkan aturan R1,

R1: IF age = youth AND student = yes 
   THEN buy_computer = yes

Points to remember −

  • Bagian IF dari aturan tersebut disebut rule antecedent atau precondition.

  • Bagian KEMUDIAN dari aturan tersebut disebut rule consequent.

  • Bagian anteseden kondisi terdiri dari satu atau lebih tes atribut dan tes ini secara logis di-AND.

  • Bagian konsekuensinya terdiri dari prediksi kelas.

Note - Kita juga bisa menulis aturan R1 sebagai berikut -

R1: (age = youth) ^ (student = yes))(buys computer = yes)

Jika kondisi berlaku untuk tupel tertentu, maka anteseden terpenuhi.

Ekstraksi Aturan

Di sini kita akan belajar bagaimana membangun pengklasifikasi berbasis aturan dengan mengekstrak aturan IF-THEN dari pohon keputusan.

Points to remember −

Untuk mengekstrak aturan dari pohon keputusan -

  • Satu aturan dibuat untuk setiap jalur dari akar ke simpul daun.

  • Untuk membentuk aturan anteseden, setiap kriteria pemisahan secara logis di-AND.

  • Simpul daun menyimpan prediksi kelas, membentuk konsekuensi aturan.

Induksi Aturan Menggunakan Algoritma Sequential Covering

Algoritma Sequential Covering dapat digunakan untuk mengekstrak aturan IF-THEN dari data pelatihan. Kami tidak perlu membuat pohon keputusan terlebih dahulu. Dalam algoritma ini, setiap aturan untuk kelas tertentu mencakup banyak tupel dari kelas tersebut.

Beberapa dari Algoritma Penutup sekuensial adalah AQ, CN2, dan RIPPER. Sesuai dengan strategi umum, aturan dipelajari satu per satu. Untuk setiap aturan waktu dipelajari, tupel yang tercakup dalam aturan tersebut dihapus dan proses berlanjut untuk sisa tupel. Ini karena jalur ke setiap daun di pohon keputusan sesuai dengan aturan.

Note - Induksi pohon keputusan dapat dianggap sebagai mempelajari sekumpulan aturan secara bersamaan.

Berikut ini adalah Algoritma pembelajaran berurutan dimana aturan dipelajari untuk satu kelas dalam satu waktu. Saat mempelajari aturan dari kelas Ci, kami ingin aturan tersebut mencakup semua tupel dari kelas C saja dan tidak ada tupel dari kelas lain.

Algorithm: Sequential Covering

Input: 
D, a data set class-labeled tuples,
Att_vals, the set of all attributes and their possible values.

Output:  A Set of IF-THEN rules.
Method:
Rule_set={ }; // initial set of rules learned is empty

for each class c do
   
   repeat
      Rule = Learn_One_Rule(D, Att_valls, c);
      remove tuples covered by Rule form D;
   until termination condition;
   
   Rule_set=Rule_set+Rule; // add a new rule to rule-set
end for
return Rule_Set;

Pemangkasan Aturan

Aturan tersebut dipangkas karena alasan berikut -

  • Penilaian kualitas dilakukan pada set asli data pelatihan. Aturan tersebut mungkin bekerja dengan baik pada data pelatihan tetapi kurang baik pada data berikutnya. Karena itulah diperlukan aturan pemangkasan.

  • Aturannya dipangkas dengan menghapus konjungsi. Aturan R dipangkas, jika versi R yang dipangkas memiliki kualitas yang lebih baik daripada yang dinilai pada set tupel independen.

FOIL adalah salah satu metode sederhana dan efektif untuk pemangkasan aturan. Untuk aturan R tertentu,

FOIL_Prune = pos - neg / pos + neg

di mana pos dan neg adalah jumlah tupel positif yang masing-masing dicakup oleh R.

Note- Nilai ini akan meningkat dengan akurasi R pada set pemangkasan. Oleh karena itu, jika nilai FOIL_Prune lebih tinggi untuk versi R yang dipangkas, maka kami memangkas R.