기차 테스트 분할은 언제해야합니까?

Aug 18 2020

저는 기계 학습을 처음 사용합니다. 기본적으로 기차 테스트 분할을 언제 수행할지 혼란 스럽습니다.

아래의 순서가 정확합니까?

  1. 전체 데이터를 훈련 및 테스트 세트로 분할

  2. 훈련 데이터에서 특징 추출

  3. 훈련 데이터에서 추출한 특징에 분류 모델 맞추기

  4. 테스트 데이터에서 2 단계에서 계산 된 동일한 기능을 추출합니다.

  5. 3 단계의 피팅 된 모델을 4 단계의 테스트 데이터에서 추출한 특징에 적용하여 모델을 평가합니다.

답변

6 gunes Aug 18 2020 at 21:24

귀하의 절차는 일반적으로 정확합니다. 더 복잡한 루프에서 추가 작업에는 유효성 검사, 하이퍼 매개 변수 최적화, 기능 선택 등이 포함될 수 있습니다.

일반적으로 특징 추출은 탐색 적 데이터 분석 (EDA)을 따르며, 여기서 데이터를 파악하고 분석 / 요약하고 직관적 인 결론을 도출합니다. EDA에서 반드시 훈련 / 테스트 분할을 수행 할 필요는 없습니다.

피드백 루프에서 2-3 단계를 반복하여 새로 추출 된 기능 (예 : 상호 작용 변수)이 모델에 유용한 지 여부를 테스트하는 경우 유효성 검사 단계가 필요합니다.