Weka-데이터 전처리

현장에서 수집 된 데이터에는 잘못된 분석으로 이어지는 원치 않는 항목이 많이 포함되어 있습니다. 예를 들어 데이터에 null 필드가 포함될 수 있고 현재 분석과 관련이없는 열이 포함될 수 있습니다. 따라서 데이터는 원하는 분석 유형의 요구 사항을 충족하도록 사전 처리되어야합니다. 이것은 전처리 모듈에서 수행됩니다.

전처리에서 사용 가능한 기능을 보여주기 위해 Weather 설치시 제공되는 데이터베이스.

사용 Open file ... 옵션 아래 Preprocess 태그 선택 weather-nominal.arff 파일.

파일을 열면 화면은 다음과 같습니다.

이 화면은로드 된 데이터에 대한 몇 가지 사항을 알려주며이 장에서 자세히 설명합니다.

데이터 이해

먼저 강조 표시된 부분을 살펴 보겠습니다. Current relation하위 창. 현재로드 된 데이터베이스의 이름을 보여줍니다. 이 하위 창에서 두 점을 추론 할 수 있습니다.

  • 14 개의 인스턴스 (테이블의 행 수)가 있습니다.

  • 이 표에는 다음 섹션에서 설명하는 필드 인 5 개의 속성이 있습니다.

왼쪽에서 Attributes 데이터베이스의 다양한 필드를 표시하는 하위 창.

그만큼 weather데이터베이스에는 전망, 온도, 습도, 바람 및 놀이의 5 개 필드가 있습니다. 이 목록에서 속성을 클릭하여 선택하면 속성 자체에 대한 추가 세부 사항이 오른쪽에 표시됩니다.

먼저 온도 속성을 선택하겠습니다. 클릭하면 다음 화면이 표시됩니다.

에서 Selected Attribute 하위 창에서 다음을 관찰 할 수 있습니다.

  • 속성의 이름과 유형이 표시됩니다.

  • 유형 temperature 속성은 Nominal.

  • 개수 Missing 값은 0입니다.

  • 고유 한 값이없는 세 가지 고유 한 값이 있습니다.

  • 이 정보 아래의 표는이 필드의 공칭 값을 고온, 온화 및 저온으로 표시합니다.

  • 또한 각 공칭 값에 대한 백분율로 개수와 무게를 표시합니다.

창 하단에 class 가치.

클릭하면 Visualize All 버튼을 누르면 여기에 표시된 것처럼 하나의 창에서 모든 기능을 볼 수 있습니다.

속성 제거

많은 경우 모델 구축에 사용하려는 데이터에는 관련없는 필드가 많이 있습니다. 예를 들어, 고객 데이터베이스에는 신용 등급 분석과 관련된 휴대 전화 번호가 포함될 수 있습니다.

속성을 제거하려면 속성을 선택하고 Remove 하단의 버튼.

선택한 속성이 데이터베이스에서 제거됩니다. 데이터를 완전히 전처리 한 후 모델 구축을 위해 저장할 수 있습니다.

다음으로이 데이터에 필터를 적용하여 데이터를 전처리하는 방법을 배웁니다.

필터 적용

연관 규칙 마이닝과 같은 일부 기계 학습 기술에는 범주 형 데이터가 필요합니다. 필터 사용을 설명하기 위해weather-numeric.arff 두 개를 포함하는 데이터베이스 numeric 속성- temperaturehumidity.

우리는 이것을 nominal원시 데이터에 필터를 적용하여 클릭Choose 버튼 Filter 하위 창을 열고 다음 필터를 선택하십시오-

weka→filters→supervised→attribute→Discretize

클릭 Apply 버튼을 클릭하고 temperature 및 / 또는 humidity속성. 숫자 형에서 명목 형으로 변경되었음을 알 수 있습니다.

이제 다른 필터를 살펴 보겠습니다. 결정하기 위해 최상의 속성을 선택한다고 가정합니다.play. 다음 필터를 선택하고 적용하십시오-

weka→filters→supervised→attribute→AttributeSelection

데이터베이스에서 온도 및 습도 속성이 제거됨을 알 수 있습니다.

데이터 전처리에 만족하면 다음을 클릭하여 데이터를 저장하십시오. Save... 버튼. 이 저장된 파일을 모델 구축에 사용합니다.

다음 장에서는 미리 정의 된 여러 ML 알고리즘을 사용하여 모델 구축을 살펴 보겠습니다.