기차 테스트 분할은 언제해야합니까?
Aug 18 2020
저는 기계 학습을 처음 사용합니다. 기본적으로 기차 테스트 분할을 언제 수행할지 혼란 스럽습니다.
아래의 순서가 정확합니까?
전체 데이터를 훈련 및 테스트 세트로 분할
훈련 데이터에서 특징 추출
훈련 데이터에서 추출한 특징에 분류 모델 맞추기
테스트 데이터에서 2 단계에서 계산 된 동일한 기능을 추출합니다.
3 단계의 피팅 된 모델을 4 단계의 테스트 데이터에서 추출한 특징에 적용하여 모델을 평가합니다.
답변
6 gunes Aug 18 2020 at 21:24
귀하의 절차는 일반적으로 정확합니다. 더 복잡한 루프에서 추가 작업에는 유효성 검사, 하이퍼 매개 변수 최적화, 기능 선택 등이 포함될 수 있습니다.
일반적으로 특징 추출은 탐색 적 데이터 분석 (EDA)을 따르며, 여기서 데이터를 파악하고 분석 / 요약하고 직관적 인 결론을 도출합니다. EDA에서 반드시 훈련 / 테스트 분할을 수행 할 필요는 없습니다.
피드백 루프에서 2-3 단계를 반복하여 새로 추출 된 기능 (예 : 상호 작용 변수)이 모델에 유용한 지 여부를 테스트하는 경우 유효성 검사 단계가 필요합니다.