Regresyon analizi için neden çapraz doğrulama kullanılıyor?

Aug 18 2020

Çalışmamda tahmin amacıyla çok terimli lojistik regresyon uydurmaya çalışıyorum. Şu anda Tekrarlanan Katmanlı K Kıvrımları ile çapraz doğrulama uyguluyorum ancak daha önce yanıtını görmediğim yöntemle ilgili bazı sorularım var.

Herhangi bir hiperparametreyi ayarlamadığım bu durumda, regresyonu test etmek için çapraz doğrulama kullanmak mantıklı mı? Çapraz değerin hiperparametre ayarlaması için en kullanışlı olduğunu çok gördüm.

Modelimi (aynı öngörücülerle regresyon) 3 kez tekrarlanan 10 katla çalıştırdım ve her katmanda gerçekten iyi ölçümler elde ettim (ROC 0,95, mikro ortalama hassasiyet-hatırlama 0,94 ve bu satırlar boyunca daha fazlası) model uygun şekilde ayırt ediyor ve iyi tahmin edebiliyor. Regresyonumun fazla uygun olmadığından emin olabilir miyim? Yani, öngörücü olarak çalıştırmayı seçtiğim değişkenler verilere fazla uymayacaktı.

Son olarak, analizimi teknik olarak orada sonlandırıp bitiremeyeceğime emin değilim ya da tüm aynı öngörücülerle ve verilerin (hepsi değilse de) daha büyük bir bölümünde eğitilmiş bir "son model" yapabilirim. Sanırım şirket bu modeli gerçekten çalıştırmak istiyorsa, biteceğini tahmin etmek için "son bir uyum" a ihtiyaç duyacak, değil mi? Bu son model için başka bir eğitim testi bölmesi kullanmalı mıyım?

Yardımınız çok takdir ediliyor!

Yanıtlar

1 J.C.Wahl Aug 18 2020 at 16:56

Çapraz doğrulama birçok görev için kullanılabilir: hiperparametre ayarı, örnek dışı hatanızın ne kadar kararlı olduğu, ancak farklı modelleri karşılaştırmak için en yararlı olduğunu söyleyebilirim .

Örneğin, iki modeliniz varsa ve her ikisinde de çapraz doğrulama çalıştırırsanız, farklı kıvrımların performansını karşılaştırabilir ve bir modelin diğerinden daha iyi performans gösterip göstermediğini görebilirsiniz. Bunu yaparak, diyelim ki 10 kat, tek bir test seti kullanmaya kıyasla (yani, 1 kat doğrulama) örnek dışı performansın daha sağlam bir tahminini elde edersiniz.

Daha karmaşık bir modelin ortalama 0,97 AUC elde edebileceğini veya belki de aşırı uygunsa ve size 0,9 değerinde daha kötü bir AUC verdiğini fark edebilirsiniz. Sadece bir modelin daha basit bir modelle gerçekten örneklem dışında karşılaştırırsanız, bir modelin uyup uymadığını söyleyebilirsiniz.

Son sorunuz için: Çapraz doğrulama yapan en iyi modeli bulduktan ve bu modelin üretimde kullanılacağına karar verdikten sonra, modeli mevcut tüm veriler üzerinde eğitmelisiniz, böylece en doğru tahminleri elde edersiniz. mümkün.