マルチラベル分類予測のための分類器の比較

Aug 19 2020

マルチラベル分類の問題(カテゴリ予測値:A、B、C、D)があり、分類器間に有意差はなく、精度の違いは偶然であるという帰無仮説を検定したいと思います。実際の結果、classifierAの出力とclassifierBの出力が次のようになっていると仮定しましょう。

actual_outcome <-sample(LETTERS [1:4]、1000、replace = TRUE、prob = c(0.1、0.2、0.65、0.05))%>%as.data.frame()

classifierA <-sample(LETTERS [1:4]、1000、replace = TRUE、prob = c(0.1、0.2、0.65、0.05))%>%as.data.frame()

classifierB <-sample(LETTERS [1:4]、1000、replace = TRUE、prob = c(0.1、0.2、0.65、0.05))%>%as.data.frame()

カテゴリ変数を使用して、RのHmiscパッケージからランク相関テスト(rcorr.cens)を実行することは可能ですか?もう1つのオプションは、ウィルコクソン符号順位検定を使用することですが、この検定の問題は、実際の値(または決定論的な正しい応答)が考慮されていないことです。

回答

mdewey Aug 20 2020 at 19:55

カテゴリがすでにA、B、C、Dであるため、PとQと呼ぶ2つの分類器の精度の差に純粋に関心がある場合は、これを検討してください。

PとQが同じ出力を与える場合は、絶対的な意味での精度に関連していることは明らかですが、精度の差については情報がありません。したがって、それらを削除することができます。PもQも異なる予測を与えたとしても、それもそれらの差分精度について有益ではないため、PもQも正しい予測を与えなかった観測を削除できます。これで、Pが正しくQが間違っている観測と、Qが正しくPが間違っている観測の2種類しか残っていません。nullの下では、それらは等確率であるはずであり、二項検定でそれを検定できます。

もちろん、A、B、C、Dが実際に順序付けられている場合、それは機能しませんが、その場合は他の問題が発生します。