데이터 마이닝-규칙 기반 분류

IF-THEN 규칙

규칙 기반 분류기는 분류를 위해 IF-THEN 규칙 세트를 사용합니다. 우리는 다음에서 규칙을 표현할 수 있습니다.

IF 조건 THEN 결론

규칙 R1을 고려해 보겠습니다.

R1: IF age = youth AND student = yes 
   THEN buy_computer = yes

Points to remember −

  • 규칙의 IF 부분이 호출됩니다. rule antecedent 또는 precondition.

  • 규칙의 THEN 부분이 호출됩니다. rule consequent.

  • 조건의 선행 부분은 하나 이상의 속성 테스트로 구성되며 이러한 테스트는 논리적으로 AND 처리됩니다.

  • 결과적인 부분은 클래스 예측으로 구성됩니다.

Note − 다음과 같이 규칙 R1을 작성할 수도 있습니다.

R1: (age = youth) ^ (student = yes))(buys computer = yes)

주어진 튜플에 대해 조건이 참이면 선행이 충족됩니다.

규칙 추출

여기에서는 의사 결정 트리에서 IF-THEN 규칙을 추출하여 규칙 기반 분류기를 구축하는 방법을 배웁니다.

Points to remember −

의사 결정 트리에서 규칙을 추출하려면-

  • 루트에서 리프 노드까지의 각 경로에 대해 하나의 규칙이 생성됩니다.

  • 선행 규칙을 형성하기 위해 각 분할 기준은 논리적으로 AND 처리됩니다.

  • 리프 노드는 클래스 예측을 보유하여 결과적으로 규칙을 형성합니다.

순차 커버링 알고리즘을 사용한 규칙 유도

Sequential Covering Algorithm을 사용하여 훈련 데이터에서 IF-THEN 규칙을 추출 할 수 있습니다. 의사 결정 트리를 먼저 생성 할 필요는 없습니다. 이 알고리즘에서 주어진 클래스의 각 규칙은 해당 클래스의 많은 튜플을 포함합니다.

순차적 커버링 알고리즘 중 일부는 AQ, CN2 및 RIPPER입니다. 일반적인 전략에 따라 규칙은 한 번에 하나씩 학습됩니다. 규칙이 학습 될 때마다 규칙에 포함 된 튜플이 제거되고 나머지 튜플에 대해 프로세스가 계속됩니다. 이는 의사 결정 트리의 각 리프에 대한 경로가 규칙에 해당하기 때문입니다.

Note − 의사 결정 트리 유도는 일련의 규칙을 동시에 학습하는 것으로 간주 할 수 있습니다.

다음은 한 번에 한 클래스에 대한 규칙을 학습하는 순차적 학습 알고리즘입니다. 클래스 Ci에서 규칙을 배울 때, 우리는 규칙이 클래스 C의 모든 튜플을 포함하고 다른 클래스를 형성하는 튜플을 포함하지 않기를 원합니다.

Algorithm: Sequential Covering

Input: 
D, a data set class-labeled tuples,
Att_vals, the set of all attributes and their possible values.

Output:  A Set of IF-THEN rules.
Method:
Rule_set={ }; // initial set of rules learned is empty

for each class c do
   
   repeat
      Rule = Learn_One_Rule(D, Att_valls, c);
      remove tuples covered by Rule form D;
   until termination condition;
   
   Rule_set=Rule_set+Rule; // add a new rule to rule-set
end for
return Rule_Set;

규칙 정리

규칙이 정리되는 이유는 다음과 같습니다.

  • 품질 평가는 원래 훈련 데이터 세트에서 이루어집니다. 이 규칙은 훈련 데이터에서는 잘 수행되지만 후속 데이터에서는 잘 수행되지 않을 수 있습니다. 이것이 규칙 정리가 필요한 이유입니다.

  • 결합을 제거하여 규칙을 정리합니다. R의 프 루닝 된 버전이 독립적 인 튜플 세트에서 평가 된 것보다 품질이 더 높으면 규칙 R은 프 루닝됩니다.

FOIL은 규칙 정리를위한 간단하고 효과적인 방법 중 하나입니다. 주어진 규칙 R에 대해

FOIL_Prune = pos-neg / pos + neg

여기서 pos와 neg는 각각 R에 포함 된 양의 튜플의 수입니다.

Note−이 값은 가지 치기 세트에서 R의 정확도에 따라 증가합니다. 따라서 FOIL_Prune 값이 R의 정리 된 버전에 대해 더 높으면 R을 정리합니다.