วิศวกรรมคุณลักษณะก่อนหรือหลังการปรับขนาด?
ฉันกำลังทำวิศวกรรมคุณลักษณะเกี่ยวกับชุดคุณสมบัติเพื่อลดขนาดของชุดข้อมูล คุณสมบัติสามารถมีสเกลที่แตกต่างกัน เช่นคุณลักษณะหนึ่งมีค่าที่แตกต่างกันระหว่าง 1,000 ถึง 1500 และคุณลักษณะอื่น ๆ จะแตกต่างกันไประหว่าง 0 ถึง 100 การทดสอบอย่างหนึ่งที่ฉันทำในวิศวกรรมคุณลักษณะคือการลบคุณลักษณะหนึ่งที่มีความสัมพันธ์สูงกับอีกคุณลักษณะหนึ่ง
ฉันได้พยายามปรับขนาดข้อมูลก่อนที่จะทำการวิศวกรรมคุณลักษณะและในทางตรงกันข้าม ในกรณีการใช้งานครั้งแรกฉันได้รับคุณสมบัติ 60 รายการและในกรณีการใช้งานหลังฉันได้รับคุณสมบัติ 54 รายการ
วิธีที่ถูกต้องควรทำอย่างไร? เราควรทำวิศวกรรมคุณลักษณะก่อนหรือหลังการปรับขนาด?
คำตอบ
การกำหนดมาตรฐานสามารถใช้ล่วงหน้าได้เช่นกัน แต่โดยทั่วไปแล้วจะเกิดขึ้นหลังจากการสร้างคุณลักษณะ ตัวอย่างเช่น,
คุณลักษณะของคุณอาจมีความหมายเฉพาะเช่นอัตราการคลิกผ่าน (CTR) = จำนวนคลิก / โฆษณาที่แสดงและหากคุณปรับขนาดการคลิกและโฆษณาที่แสดงไว้ล่วงหน้าคุณจะใช้สัญญาณ CTR
คุณสมบัติใหม่อาจเกินขนาดเช่นถ้าคุณปรับขนาด $x$ เป็น 0-1 จากนั้นใช้เวลา $x^8$ เป็นคุณสมบัติใหม่อาจอยู่ในช่วงที่เล็กกว่า 0-1
หากคุณเลือกที่จะใช้การปรับมาตราส่วนล่วงหน้าคุณจะต้องตัดสินใจด้วยว่าคุณจะใช้การปรับมาตราส่วนอีกครั้งหลังจากสร้างคุณสมบัติใหม่หรือไม่โดยเฉพาะอย่างยิ่งหากช่วงคุณสมบัติใหม่แตกต่างจากคุณสมบัติมาตรฐาน