기타 분류 방법
여기서는 유전 알고리즘, 러프 세트 접근법 및 퍼지 세트 접근법과 같은 다른 분류 방법에 대해 설명합니다.
유전 알고리즘
유전 알고리즘의 아이디어는 자연 진화에서 파생됩니다. 유전 알고리즘에서는 우선 초기 집단이 생성됩니다. 이 초기 채우기는 무작위로 생성 된 규칙으로 구성됩니다. 각 규칙을 비트 문자열로 나타낼 수 있습니다.
예를 들어, 주어진 훈련 세트에서 샘플은 A1 및 A2와 같은 두 개의 부울 속성으로 설명됩니다. 그리고이 훈련 세트에는 C1과 C2와 같은 두 가지 클래스가 포함되어 있습니다.
규칙을 인코딩 할 수 있습니다. IF A1 AND NOT A2 THEN C2 비트 문자열로 100. 이 비트 표현에서 가장 왼쪽에있는 두 비트는 각각 속성 A1과 A2를 나타냅니다.
마찬가지로 규칙 IF NOT A1 AND NOT A2 THEN C1 다음과 같이 인코딩 할 수 있습니다. 001.
Note− 속성에 K> 2 인 K 값이있는 경우 K 비트를 사용하여 속성 값을 인코딩 할 수 있습니다. 클래스도 동일한 방식으로 인코딩됩니다.
기억해야 할 사항-
적자 생존의 개념에 기초하여, 현재 집단의 적자 규칙과이 규칙의 자손 값으로 구성된 새로운 집단이 형성됩니다.
규칙의 적합성은 일련의 훈련 샘플에 대한 분류 정확도로 평가됩니다.
크로스 오버 및 돌연변이와 같은 유전 연산자를 적용하여 자손을 만듭니다.
크로스 오버에서는 규칙 쌍의 하위 문자열이 교체되어 새로운 규칙 쌍을 형성합니다.
변형에서는 규칙의 문자열에서 임의로 선택된 비트가 반전됩니다.
러프 세트 접근법
대략적인 접근 방식을 사용하여 부정확하고 노이즈가 많은 데이터 내에서 구조적 관계를 찾을 수 있습니다.
Note−이 접근 방식은 이산 값 속성에만 적용 할 수 있습니다. 따라서 연속 값 속성은 사용하기 전에 이산화되어야합니다.
Rough Set Theory는 주어진 훈련 데이터 내에서 등가 클래스의 설정을 기반으로합니다. 등가 클래스를 형성하는 튜플은 구별 할 수 없습니다. 이는 샘플이 데이터를 설명하는 속성과 관련하여 동일하다는 것을 의미합니다.
주어진 실제 데이터에는 사용 가능한 속성 측면에서 구별 할 수없는 일부 클래스가 있습니다. 대략적인 세트를 사용하여roughly 그러한 클래스를 정의하십시오.
주어진 클래스 C에 대해 대략적인 세트 정의는 다음과 같이 두 세트로 근사됩니다.
Lower Approximation of C − C의 하한 근사는 속성에 대한 지식을 바탕으로 클래스 C에 속할 수있는 모든 데이터 튜플로 구성됩니다.
Upper Approximation of C − C의 상위 근사는 속성에 대한 지식을 기반으로 C에 속하지 않는 것으로 설명 할 수없는 모든 튜플로 구성됩니다.
다음 다이어그램은 클래스 C의 상위 및 하위 근사치를 보여줍니다-
퍼지 세트 접근법
퍼지 집합 이론은 가능성 이론이라고도합니다. 이 이론은 1965 년 Lotfi Zadeh에 의해 대안으로 제안되었습니다.two-value logic 과 probability theory. 이 이론을 통해 우리는 높은 수준의 추상화에서 작업 할 수 있습니다. 또한 부정확 한 데이터 측정을 처리 할 수있는 수단을 제공합니다.
퍼지 집합 이론은 또한 우리가 모호하거나 부정확 한 사실을 다룰 수있게합니다. 예를 들어, 일련의 고소득층 구성원이되는 것은 정확합니다 (예 : $ 50,000가 높으면 약 $ 49,000 및 $ 48,000). 요소가 S 또는 그 보완 물에 속하지만 퍼지 세트 이론에서는 요소가 둘 이상의 퍼지 세트에 속할 수있는 기존 CRISP 세트와 달리.
예를 들어, 소득 값 $ 49,000은 중간 및 높음 퍼지 세트 모두에 속하지만 정도가 다릅니다. 이 소득 값에 대한 퍼지 집합 표기법은 다음과 같습니다.
mmedium_income($49k)=0.15 and mhigh_income($49k)=0.96
여기서 'm'은 각각 medium_income 및 high_income의 퍼지 세트에서 작동하는 멤버십 함수입니다. 이 표기법은 다음과 같이 다이어그램으로 표시 할 수 있습니다.