확장 전후의 기능 엔지니어링?
Aug 20 2020
데이터 세트의 크기를 줄이기 위해 기능 세트에 대한 기능 엔지니어링을 수행하고 있습니다. 기능은 다른 척도를 가질 수 있습니다. 예를 들어, 한 기능에는 1000에서 1500 사이의 값이 있고 다른 기능은 0에서 100 사이의 값이 있습니다. 기능 엔지니어링에서 수행하는 테스트 중 하나는 다른 기능과 높은 상관 관계가있는 기능을 제거하는 것입니다.
기능 엔지니어링을 수행하기 전에 데이터를 확장하려고 시도했으며 그 반대도 마찬가지입니다. 첫 번째 사용 사례에서는 60 개의 기능을, 후자의 경우 54 개의 기능을 얻었습니다.
올바른 방법은 무엇입니까? 확장 전후에 기능 엔지니어링을해야합니까?
답변
gunes Aug 20 2020 at 14:18
표준화는 사전에 적용 할 수도 있지만 일반적으로 기능 생성 후에 수행 됩니다. 예를 들면
귀하의 기능은 클릭률 (CTR) = 클릭 수 / 표시된 광고와 같은 특정 의미를 가질 수 있으며, 클릭 수와 광고 게재를 미리 확장하면 CTR 신호를 사용하게됩니다.
새로운 기능이 확장되지 않을 수 있습니다. $x$ 0-1로 이동 한 다음 $x^8$ 새로운 기능으로 아마 0-1보다 작은 범위에있을 것입니다.
미리 조정을 적용하기로 선택한 경우, 특히 새로운 기능의 범위가 표준화 된 기능과 크게 다른 경우 새 기능을 생성 한 후 다시 조정을 적용할지 여부를 결정해야합니다.