Ingegneria delle funzionalità prima o dopo il ridimensionamento?

Aug 20 2020

Sto eseguendo l'ingegneria delle funzionalità su una serie di funzionalità per ridurre le dimensioni del set di dati. Le caratteristiche possono avere scale diverse. Ad esempio, una caratteristica ha valori che variano tra 1000 e 1500 e le altre caratteristiche variano tra 0 e 100. Uno dei test che eseguo nell'ingegneria delle caratteristiche è rimuovere una caratteristica che ha un'alta correlazione con un'altra.

Ho provato a ridimensionare i dati prima di eseguire l'ingegnerizzazione delle funzionalità, e anche il contrario. Nel primo caso d'uso ottengo 60 funzionalità e nel secondo caso d'uso ottengo 54 funzionalità.

Qual è il modo corretto per farlo? Dovremmo eseguire l'ingegnerizzazione delle funzionalità prima o dopo il ridimensionamento?

Risposte

gunes Aug 20 2020 at 14:18

La standardizzazione può essere applicata anche in anticipo, ma in genere avviene dopo la generazione delle funzionalità. Per esempio,

  • le tue funzioni potrebbero avere significati specifici, ad esempio percentuale di clic (CTR) = clic/annunci visualizzati e, se ridimensioni i clic e l'annuncio visualizzato in anticipo, utilizzerai l'indicatore CTR.

  • le nuove funzionalità possono essere fuori scala, ad esempio se si ridimensiona$x$sullo 0-1 e poi prendere$x^8$come nuova funzionalità, sarà probabilmente in un intervallo inferiore a 0-1.

Se scegli di applicare il ridimensionamento in anticipo, dovresti anche decidere se applicare nuovamente il ridimensionamento dopo aver generato nuove funzionalità o meno, soprattutto se gli intervalli delle nuove funzionalità sono molto diversi dalle funzionalità standardizzate