Por que usar validação cruzada para análise de regressão?
No meu trabalho estou tentando ajustar uma regressão logística multinomial com o objetivo de previsão. Atualmente, estou aplicando a validação cruzada com Dobras K estratificadas repetidas, mas ainda tenho algumas perguntas sobre o método que não vi respondidas antes.
Faz sentido usar a validação cruzada para testar a regressão, neste caso em que não estou ajustando nenhum hiperparâmetro? Já vi muito que cross val é mais útil para ajuste de hiperparâmetros.
Eu executei meu modelo (regressão com os mesmos preditores) com 10 dobras repetidas 3 vezes, e obtive métricas realmente boas em cada dobra (ROC de 0,95, micro média de precisão-recall de 0,94, e mais nessa linha), que sugerem minha o modelo está discriminando apropriadamente e é capaz de prever bem. Posso ter certeza de que minha regressão não é overfitting? Ou seja, as variáveis que selecionei para serem executadas como preditores não superestimariam os dados.
Finalmente, não tenho certeza se posso tecnicamente terminar minha análise aí, ou posso então fazer um "modelo final" com todos os mesmos preditores e treinado em uma parte maior (se não todos) dos dados. Suponho que se a empresa quiser realmente executar esse modelo, ela precisará de um "ajuste final" para fazer a previsão, certo? Devo usar outra divisão de teste de trem para este modelo final?
Sua ajuda é muito apreciada!
Respostas
A validação cruzada pode ser usada para muitas tarefas: ajuste de hiperparâmetros, quão estável é seu erro fora da amostra, mas eu diria que é mais útil para comparar modelos diferentes .
Por exemplo, se você tiver dois modelos e executar a validação cruzada em ambos, poderá comparar o desempenho de diferentes dobras e ver se um modelo supera o outro. Fazendo isso, digamos, 10 vezes, você obtém uma estimativa mais robusta do desempenho fora da amostra em comparação com o uso de apenas um conjunto de teste (ou seja, validação 1 vez).
Você pode descobrir que um modelo mais complexo é capaz de obter uma AUC média de 0,97, ou talvez se ajuste demais e dê a você uma AUC pior de 0,9. Você só pode dizer se um modelo superajustável se realmente compará-lo fora da amostra com um modelo mais simples.
Para sua última pergunta: depois de encontrar o melhor modelo fazendo validação cruzada e decidir que esse modelo será usado na produção, você deve treinar o modelo em todos os dados disponíveis, para que obtenha as estimativas mais precisas possível.