Compreendendo a 'agressividade' do laço, seleção progressiva para frente e melhor seleção de subconjunto em Hastie, T., Tibshirani, R. & Tibshirani, RJ (2017)

Aug 17 2020

Hastie et al. (2017) explicam como os métodos acima mencionados funcionam dependendo da relação sinal-ruído (SNR) com sua 'agressividade' variável. Agora eu não entendo por que os diferentes métodos variam em sua agressividade (ou seja, o número de preditores que eles incluem no modelo final?) E como isso se relaciona com o SNR. Acho que entendo a compensação de viés-variância e como ela se relaciona com o melhor desempenho do laço em alguns cenários, mas os autores dão explicações adicionais que não entendi.

Em sua explicação, os autores escrevem que

"os valores ajustados do laço (para qualquer $\lambda \geq 0$) são funções contínuas de y (Zou et al., 2007; Tibshirani e Taylor, 2012), enquanto os valores ajustados de stepwise forward e melhor seleção de subconjunto (para $k \geq 1$) pula descontinuamente conforme y se move através de um limite de decisão para o conjunto ativo "(p. 3)

Alguém poderia me esclarecer o que é o 'limite de decisão' e o que se entende por conjunto ativo (o conjunto de preditores selecionados?). Os autores também relacionam a agressividade com os graus de liberdade, um ponto que não consigo entender.

Gostaria de receber uma explicação intuitiva, além de quaisquer equações, porque não tenho um bom background em matemática.


Hastie, T., Tibshirani, R., & Tibshirani, RJ (2017). Comparações estendidas da seleção do melhor subconjunto, da seleção progressiva e do laço. ArXiv: 1707,08692 [Stat].http://arxiv.org/abs/1707.08692

Respostas

2 EdM Aug 17 2020 at 23:57

A partir de seu uso no papel vinculado, o "conjunto ativo" é o conjunto de preditores que estão sendo adicionados ao modelo à medida que ele está sendo construído. Veja o uso inicial da frase com respeito a forward stepwise, em que você começa com um "conjunto ativo" vazio e adiciona preditores ao conjunto sequencialmente.

Digamos que este seja um modelo de regressão linear, então seu critério para decidir sobre o "melhor" modelo envolve a diferença quadrática média entre os valores observados dos resultados $y$ e seus valores previstos $\hat y$. A questão é como pode haver ruído nos valores observados de$y$ apresentam dificuldades para fazer previsões a partir do "melhor" modelo escolhido com base nos dados observados.

Digamos que você se ajuste por progressivo ou melhor subconjunto e ruído aleatório em seu conjunto de valores observados $y$significa que seu critério de erro quadrático médio impulsiona a escolha do "melhor" modelo de um modelo de preditor 3 para um modelo de preditor 4. Isso é cruzar um limite de decisão. Como há um preditor totalmente novo sendo adicionado, os valores previstos$\hat y$para qualquer conjunto de valores do preditor serão diferentes por saltos entre os dois modelos, portanto, as previsões posteriores podem depender muito do ruído nas observações originais. Você pode pensar nisso como um risco dessas abordagens potencialmente tentarem ajustar o ruído em uma amostra de dados específica.

Com o laço, você não está apenas ajustando o número de preditores conforme altera o valor da penalidade $\lambda$. Você também está ajustando a penalização das magnitudes dos coeficientes de regressão correspondentes. Portanto, qualquer ruído aleatório nas observações de$y$ levará a mudanças contínuas, em vez de graduais, nas previsões finais $\hat y$feito pelo modelo. Com base nisso, o laço pode ser considerado menos "agressivo" em sua modelagem, já que suas previsões finais tendem a não super ajustar o ruído nos dados originais.

Em resposta a comentários

Do ISLR , página 35 (com$\hat f$ representando o valor previsto), descrevendo a compensação de polarização-variância:

A variação se refere ao valor pelo qual$\hat f$ mudaria se o estimamos usando um conjunto de dados de treinamento diferente.

É disso que trata o argumento acima. Uma ligeira mudança de ruído em um conjunto de treinamento pode fazer uma grande diferença nas previsões de um modelo desenvolvido por métodos graduais ou de melhor subconjunto. A penalização inerente ao laço minimiza a variância nesse sentido da palavra.

Se os métodos passo a passo e do melhor subconjunto estão associados a mais "instabilidade", pode depender de sua definição desse termo. Se por "instabilidade" você quer dizer diferenças no conjunto final de preditores selecionados conforme você passa de um conjunto de treinamento para outro, todos os métodos de seleção de preditores, incluindo laço, têm essa instabilidade. Tente modelar em amostras de bootstrap repetidas de um conjunto de dados para ilustrar esse tipo de instabilidade.

Por outro lado, com o mesmo tamanho de dados de treinamento, os números maiores de graus de liberdade efetivos usados ​​pelos métodos graduais e de melhor subconjunto os tornam mais propensos a overfitting do que o laço. Esse overfitting está praticamente incluído no uso da palavra "variância" acima, então se por "instabilidade" você quer dizer alta "variância", então sim, esse é o caso. Mesmo se os modelos de laço treinados em diferentes conjuntos de treinamento diferirem em termos de preditores mantidos, eles têm menos probabilidade de diferir em termos de previsões.

Finalmente, o maior número de graus de liberdade significa que os valores p ingenuamente calculados para modelos stepwise e de melhor subconjunto não são confiáveis. Eles não levam em consideração o uso dos dados para definir o modelo.