다중 라벨 분류 예측을위한 분류기 비교
다중 레이블 분류 문제 (범주 예측 값 : A, B, C, D)가 있으며 분류 자간에 유의 한 차이가없고 정확도의 차이가 우연이라는 귀무 가설을 테스트하고 싶습니다. 실제 결과, classifierA의 출력 및 classifierB의 출력이 다음과 같다고 가정 해 봅시다.
actual_outcome <-sample (LETTERS [1 : 4], 1000, replace = TRUE, prob = c (0.1, 0.2, 0.65, 0.05)) %> % as.data.frame ()
classifierA <-sample (LETTERS [1 : 4], 1000, replace = TRUE, prob = c (0.1, 0.2, 0.65, 0.05)) %> % as.data.frame ()
classifierB <-sample (LETTERS [1 : 4], 1000, replace = TRUE, prob = c (0.1, 0.2, 0.65, 0.05)) %> % as.data.frame ()
R의 Hmisc 패키지에서 범주 형 변수를 사용하여 순위 상관 테스트 (rcorr.cens)를 수행 할 수 있습니까? 다른 옵션은 Wilcoxon Signed Rank 테스트를 사용하는 것이지만이 테스트의 문제점은 실제 값 (또는 결정적 정답)을 고려하지 않는다는 것입니다.
답변
카테고리가 이미 A, B, C, D이기 때문에 P와 Q라고 부르는 두 분류기의 차동 정확도에 순전히 관심이 있다면 이것을 고려하십시오.
P와 Q가 동일한 출력을 제공하는 경우는 절대적으로 정확도와 관련이 있지만 차동 정확도에 대해 유익하지 않습니다. 따라서 제거 할 수 있습니다. 은 P와 Q가 서로 다른 예측을 제공하더라도 정확한 예측을 제공하지 않은 모든 관측치를 제거 할 수 있습니다. 이제 두 종류의 관찰 만 남았습니다. 하나는 P가 맞고 Q가 틀린 것이고, 다른 하나는 Q가 맞고 P가 틀 렸습니다. null 아래에서는 동등 가능성이 있어야하며 이항 테스트로 테스트 할 수 있습니다.
물론 A, B, C 및 D가 실제로 주문되면 작동하지 않지만 그 경우에는 모두 다른 문제가 있습니다.