Rekayasa fitur sebelum atau sesudah penskalaan?

Aug 20 2020

Saya melakukan rekayasa fitur pada serangkaian fitur untuk mengurangi ukuran kumpulan data. Fitur dapat memiliki skala yang berbeda. Misal, satu fitur memiliki nilai yang bervariasi antara 1000 dan 1500, dan fitur lainnya bervariasi antara 0 dan 100. Salah satu pengujian yang saya lakukan dalam rekayasa fitur adalah menghilangkan satu fitur yang memiliki korelasi tinggi dengan yang lain.

Saya sudah mencoba menskalakan data sebelum melakukan rekayasa fitur, dan juga sebaliknya. Dalam kasus penggunaan pertama, saya memperoleh 60 fitur, dan pada kasus penggunaan terakhir, saya memperoleh 54 fitur.

Manakah cara yang benar untuk melakukannya? Haruskah kita melakukan rekayasa fitur sebelum atau sesudah penskalaan?

Jawaban

gunes Aug 20 2020 at 14:18

Standardisasi juga dapat diterapkan sebelumnya, tetapi biasanya, ini terjadi setelah pembuatan fitur. Sebagai contoh,

  • fitur Anda mungkin memiliki arti tertentu, misalnya rasio klik-tayang (CTR) = klik / iklan yang ditampilkan, dan jika Anda meningkatkan skala klik dan iklan yang ditampilkan sebelumnya, Anda akan menggunakan sinyal CTR.

  • fitur baru bisa keluar dari skala, misalnya jika skala Anda $x$ menjadi 0-1 dan kemudian ambil $x^8$ sebagai fitur baru, rentangnya mungkin lebih kecil dari 0-1.

Jika Anda memilih untuk menerapkan penskalaan sebelumnya, Anda juga perlu memutuskan apakah Anda akan menerapkan penskalaan lagi setelah membuat fitur baru atau tidak, terutama jika rentang fitur baru jauh berbeda dari fitur standar.