반복 학습 / 검정 분할을 사용하여 모델 성능을 비교하기 위해 쌍을 이룬 t- 검정 (또는 다른 것)?
두 모델의 ROC AUC 테스트를 비교하기 위해 올바른 통계 테스트를 찾고 있습니다. 다음을 수행했습니다.
- 1,000 개의 관측 데이터 세트를 무작위로
train
/test
분할 (700/300) - 두 가지 방법 (중간 / 예측 모드 VS)를 사용하여 누락 된 전가 값 :
train_a
,train_b
,test_a
,test_b
- 기차 데이터 세트에 두 개의 동일한 모델을 빌드합니다.
model_a
&model_b
- ROC AUC를 사용하여 테스트 데이터 세트에이 두 모델을 평가 :
test_AUC_a
&test_AUC_b
- 다른 임의 파티션을 사용하여 1-4 단계를 반복합니다 (총 100 회).
내 결과는 다음과 같습니다 (벡터의 길이는 100 임).
test_AUC_a <- c(0.786, 0.767, 0.730, 0.728, 0.784)
test_AUC_b <- c(0.777, 0.751, 0.733, 0.700, 0.767)
그래서 정말 내가 물어 노력하고, 누락 된 값을 전가의 이러한 두 가지 방법을 비교하기 위해 수행 할 수있는 '올바른'통계 테스트를 찾고 있어요 "합니까 방법론 a
방법론보다 더 높은 테스트 AUC의 결과를 b
" .
여기에 두 가지 질문이 있습니다.
- 여기에 단측 테스트가 적절합니까? (예측 대치)가 더 나은 결과를 제공
b
한다는 증거가없는 한 더 간단한 방법론 (중앙값 / 모드 대치) 을 고수 할 계획입니다.a
- 쌍체 t- 검정이 적절합니까? 따라서 다음 중 하나를 사용합니다.
t.test(test_AUC_a, test_AUC_b, paired = T, alternative = "greater")
t.test(test_AUC_a, test_AUC_b, paired = T, alternative = "two.sided")
내 연구에서는 내가 페어링 t 테스트와 우측 라인을 따라있을 것 같다,하지만 난 운 좋게 발견 한 Nadeau Bengio 제안 (16 페이지) 수정 다시 샘플링 t-test를 통계 기차 이후 및, (독립의 가정의 위반 테스트 세트는 데이터의 각 재 샘플과 겹칠 것입니다), 그러나 나는 종이를 올바르게 이해하고 있는지 그리고 여기에 적절한 지 확실하지 않습니다.
솔직히 말하면 모든 수학을 이해하고 R 코드로 번역하는 데 어려움이 있으므로 원하는 경우 수정 된 테스트 (1 또는 2 꼬리)를 수행하는 방법을 모릅니다.
누군가가 나를 도울 수 있기를 정말로 바랍니다! 가설 테스트는 내 강한 슈트가 아닙니다.
답변
실제로 매우 흥미로운 Nadeau & Bengio 논문을 몰랐기 때문에 이것은 저에게 좋았습니다. 그것은 어려운 논문이고 제가 그것에 대한 이해가 100 % 정확하다고 보장 할 수 없습니다. 그래서 제가 그 논문에 대해 지금 쓰는 것은 어떤 보장도 제공되지 않습니다. 논문이 흥미롭지 만, 가장 명확한 방식으로 쓰여진 것 같지는 않습니다. 아래를보세요.
(1) 여기서 중요한 것은 일반적인 진술을하고 싶은 "문제의 인구"에 관한 것입니다. 어떤 방법이 실험에서 얼마나 효과가 좋은지보고 싶다면 테스트가 필요하지 않습니다. 수단과 시각적 표시의 차이 만 볼 수 있습니다.
(2) 분명히 여기에는 약간의 임의의 변형이 있습니다. 테스트는 보이는 차이를 임의의 변형으로 설명 할 수 있는지 여부를 묻는 것입니다. 그러나 어떤 종류의 변형이 적절한 지 결정해야합니다. 나는 당신이 단일 데이터 세트만을 가지고 있다고 수집합니다. 이제 한 가지 관점 (지금부터 P1)은 데이터 세트가 고정되어 있다고 말하고 무작위 분할에 대한 무작위 변동에 대한 진술에만 관심이 있다는 것입니다. 또 다른 관점 (P2)은 데이터 세트가 무작위임을 고려하고 기본 모집단에 대한 설명을 작성하려고한다는 것입니다.$P$데이터 세트 여기에서 나의 첫 번째 코멘트는 P2가 언뜻보기에 희망이 없다는 것입니다. 데이터 세트가 하나뿐입니다. 즉, 해당 모집단의 데이터 세트 중 하나의 유효 샘플 크기가 있습니다. 샘플 크기에서별로 말할 수 없습니다.
(3) P2, Nadeau 및 Bengio 논문 및 일반화 문제에 대해 논의하겠습니다. $P$(6)에서. 이것은 미묘하고 어렵습니다. 먼저 몇 가지 간단한 진술을합니다.
(4) P1에서 데이터의 서로 다른 분할은 실제로 독립적입니다 (P2 아래에 있지 않으며 Nadeau와 Bengio의 어려움이 발생하는 곳입니다). 따라서 여기에서 표준 쌍 t- 검정이 괜찮을 것입니다. 복제의 수는 충분히 크고 100 개가 필요합니다. 그러나 분명히 이것은 동일한 데이터 세트에서 더 많은 분할이 발생할 것으로 예상되는 일로 일반화 할 수 있도록합니다 (실제로 얻을 수있는 최선이라고 생각합니다. 아래 참조).
(5) 단측 또는 양면 테스트를 선택하는지 여부는 초기 질문이 비대칭인지 대칭인지에 따라 다릅니다. 방법 A가 더 나은지 여부에만 관심이있는 경우 (새로운 방법이기 때문에 더 낫지 않은 경우 더 나쁘거나 동일한 지 여부에 관계없이 버리게됩니다), 일방적 인 방법을 사용합니다. 테스트. 이 데이터 세트에서 방법이 어떤 방향 으로든 다르다는 증거가 있는지 여부에 관심이 있다면 양면 테스트를 사용합니다.
(6) 실제로 P2는 Nadeau와 Bengio가 논문에서 언급 한 내용 인 것 같습니다. 모든 모델링에서 데이터 세트는 무작위로 취급되며, 단일 데이터 세트를 사용하여 추정 할 수있는 일반화 오류가 발생하는 것처럼 보이지만 논문에서는 그렇게 명확하지 않습니다. 실제로 그들은 시뮬레이션 연구에서 1000 개의 데이터 세트를 생성했지만 259 페이지에서 Sec. 4 (당신이 인용 한 것 중 하나)는 단일 데이터 세트에 적용됩니다. 그래서 Nadeau와 Bengio는 제가 직관적으로 이것이 "효과적인 표본 크기 1"상황이라고 말하는 설정을 처리합니다.이 상황에서는 그렇게 많이 말할 수 없습니다. 내가이 일을하는 데 그들이 틀렸다는 말인가? 음, 상황에 따라 다릅니다. 데이터 세트가$Z=(Z_1,\ldots,Z_n)$ iid이며 인구에서 무작위로 추출됩니다. $P$ 이러한 데이터 세트의 (즉, $Z$ iid이지만 다른 전체 데이터 세트 $Z$ 둘 이상이 그려지면 iid가 될 것입니다), 실제로 $Z$ 상당히 많은 정보가 포함되어 있습니다. $n$ 예상되는 변동에 대해 충분히 큽니다. $P$. 따라서 Nadeau와 Bengio의 계산은 합법적입니다 (그리고 시뮬레이션에서 분명히 그러한 경우를 처리하므로 존재합니다). 그러나 실제로는 관련성이 매우 제한적이라고 생각합니다. 이는 일반적으로 단일 데이터 세트 만있는 경우 잘 정의 된 모집단에서 추출되는 경우를 만들기가 매우 어렵 기 때문입니다. 그$P$허구입니다. 이것은 "이 데이터 세트에 의해 iid 방식으로 표현되는 인구가 있다고 가정 해 봅시다"입니다. 이는 기본적으로 데이터 세트 가 인구를 암시 적으로 정의 하고 궁극적으로 데이터 세트 자체에 대한 추론 만한 다는 것을 의미 합니다. (저는 그 이론의 적용 가능성을 찬성하는 더 설득력있는 사례가 만들어 질 수있는 상황이있을 가능성을 배제하지 않지만 기껏해야 매우 예외적이라고 생각합니다.)
논문을 읽으면 Nadeau와 Bengio가 매우 신중하게 들리는 몇 가지 근사값을 사용하며 수학적 유효성 증명에 기반하지 않는다는 것을 알 수 있습니다. 유효성은 실제로 정확한 특성에 달려 있습니다.$P$, 저자가 가정을하지 않습니다 (어떤 경우에도 유효 샘플 크기 1로 확인할 수 없음). 내 이해는이 논문의 부정확성 (저자들이 칭찬 할만큼 공개되어 있음)은 정확한 말을하기 위해서는 대담한 가정이 필요하다는 사실에서 나온 것입니다.$P$두 개 이상의 데이터 세트가 아예없는 경우 실제 상황에서 테스트 할 수 없습니다. 그들이 제안한 방법이 시뮬레이션에서 잘 작동하는 한, 이것은 시뮬레이션에서 분명히 잘 작동하는 시뮬레이션 설정이 선택 되었기 때문입니다.$Z$ 사실 iid는 $P$, 이것이 그들이 실제로 만드는 주요 가정입니다. 대부분의 실제 상황에서 하나의 실제 데이터 세트가있는 경우$Z$이 방법을 적용 해보십시오. 이것이 이미 가지고있는 하나의 데이터 셋이라는 사실은 그것이 어떤면에서 특별하고 잘 정의 된 데이터 셋 집단에서 무작위로 추출되지 않았 음을 의미합니다! (그렇지 않으면 더 많이 그리는 것이 왜 문제일까요?)
그래서 제 인상은 Nadeau와 Bengio의 방법론이 단순한 쌍을 이룬 t- 검정보다 더 멀리 가지 못할 것입니다. 매우 동일한 데이터 세트에서 더 많은 분할이 발생하는 경우에만 안정적으로 일반화 할 수 있습니다. 더 많은 것을 원한다면 더 많은 (진정한 독립적 인) 데이터 셋이 필요합니다.