데이터 마이닝-규칙 기반 분류
IF-THEN 규칙
규칙 기반 분류기는 분류를 위해 IF-THEN 규칙 세트를 사용합니다. 우리는 다음에서 규칙을 표현할 수 있습니다.
규칙 R1을 고려해 보겠습니다.
R1: IF age = youth AND student = yes
THEN buy_computer = yes
Points to remember −
규칙의 IF 부분이 호출됩니다. rule antecedent 또는 precondition.
규칙의 THEN 부분이 호출됩니다. rule consequent.
조건의 선행 부분은 하나 이상의 속성 테스트로 구성되며 이러한 테스트는 논리적으로 AND 처리됩니다.
결과적인 부분은 클래스 예측으로 구성됩니다.
Note − 다음과 같이 규칙 R1을 작성할 수도 있습니다.
R1: (age = youth) ^ (student = yes))(buys computer = yes)
주어진 튜플에 대해 조건이 참이면 선행이 충족됩니다.
규칙 추출
여기에서는 의사 결정 트리에서 IF-THEN 규칙을 추출하여 규칙 기반 분류기를 구축하는 방법을 배웁니다.
Points to remember −
의사 결정 트리에서 규칙을 추출하려면-
루트에서 리프 노드까지의 각 경로에 대해 하나의 규칙이 생성됩니다.
선행 규칙을 형성하기 위해 각 분할 기준은 논리적으로 AND 처리됩니다.
리프 노드는 클래스 예측을 보유하여 결과적으로 규칙을 형성합니다.
순차 커버링 알고리즘을 사용한 규칙 유도
Sequential Covering Algorithm을 사용하여 훈련 데이터에서 IF-THEN 규칙을 추출 할 수 있습니다. 의사 결정 트리를 먼저 생성 할 필요는 없습니다. 이 알고리즘에서 주어진 클래스의 각 규칙은 해당 클래스의 많은 튜플을 포함합니다.
순차적 커버링 알고리즘 중 일부는 AQ, CN2 및 RIPPER입니다. 일반적인 전략에 따라 규칙은 한 번에 하나씩 학습됩니다. 규칙이 학습 될 때마다 규칙에 포함 된 튜플이 제거되고 나머지 튜플에 대해 프로세스가 계속됩니다. 이는 의사 결정 트리의 각 리프에 대한 경로가 규칙에 해당하기 때문입니다.
Note − 의사 결정 트리 유도는 일련의 규칙을 동시에 학습하는 것으로 간주 할 수 있습니다.
다음은 한 번에 한 클래스에 대한 규칙을 학습하는 순차적 학습 알고리즘입니다. 클래스 Ci에서 규칙을 배울 때, 우리는 규칙이 클래스 C의 모든 튜플을 포함하고 다른 클래스를 형성하는 튜플을 포함하지 않기를 원합니다.
Algorithm: Sequential Covering
Input:
D, a data set class-labeled tuples,
Att_vals, the set of all attributes and their possible values.
Output: A Set of IF-THEN rules.
Method:
Rule_set={ }; // initial set of rules learned is empty
for each class c do
repeat
Rule = Learn_One_Rule(D, Att_valls, c);
remove tuples covered by Rule form D;
until termination condition;
Rule_set=Rule_set+Rule; // add a new rule to rule-set
end for
return Rule_Set;
규칙 정리
규칙이 정리되는 이유는 다음과 같습니다.
품질 평가는 원래 훈련 데이터 세트에서 이루어집니다. 이 규칙은 훈련 데이터에서는 잘 수행되지만 후속 데이터에서는 잘 수행되지 않을 수 있습니다. 이것이 규칙 정리가 필요한 이유입니다.
결합을 제거하여 규칙을 정리합니다. R의 프 루닝 된 버전이 독립적 인 튜플 세트에서 평가 된 것보다 품질이 더 높으면 규칙 R은 프 루닝됩니다.
FOIL은 규칙 정리를위한 간단하고 효과적인 방법 중 하나입니다. 주어진 규칙 R에 대해
여기서 pos와 neg는 각각 R에 포함 된 양의 튜플의 수입니다.
Note−이 값은 가지 치기 세트에서 R의 정확도에 따라 증가합니다. 따라서 FOIL_Prune 값이 R의 정리 된 버전에 대해 더 높으면 R을 정리합니다.