KNIME-나만의 모델 구축
이 장에서는 몇 가지 관찰 된 기능을 기반으로 식물을 분류하는 자체 기계 학습 모델을 빌드합니다. 우리는 잘 알려진iris 데이터 세트 UCI Machine Learning Repository이 목적을 위해. 데이터 세트에는 세 가지 종류의 식물이 포함됩니다. 알려지지 않은 식물을이 세 가지 클래스 중 하나로 분류하도록 모델을 훈련시킬 것입니다.
기계 학습 모델을 만들기 위해 KNIME에서 새 워크 플로를 만드는 것으로 시작합니다.
워크 플로우 생성
새 워크 플로우를 작성하려면 KNIME 워크 벤치에서 다음 메뉴 옵션을 선택하십시오.
File → New
다음 화면이 표시됩니다-
선택 New KNIME Workflow 옵션을 클릭하고 Next단추. 다음 화면에서 워크 플로의 원하는 이름과 저장할 대상 폴더를 묻는 메시지가 표시됩니다. 이 정보를 원하는대로 입력하고Finish 새 작업 공간을 만듭니다.
지정된 이름의 새 작업 공간이 Workspace 여기에서 본보기-
이제이 작업 공간에 다양한 노드를 추가하여 모델을 생성합니다. 노드를 추가하기 전에 먼저 다운로드하여 준비해야합니다.iris 우리가 사용할 데이터 세트.
데이터 세트 준비
UCI Machine Learning Repository 사이트에서 홍채 데이터 세트를 다운로드합니다 . Download Iris Dataset . 다운로드 한 iris.data 파일은 CSV 형식입니다. 열 이름을 추가하기 위해 일부를 변경합니다.
즐겨 사용하는 텍스트 편집기에서 다운로드 한 파일을 열고 시작 부분에 다음 줄을 추가합니다.
sepal length, petal length, sepal width, petal width, class
때 우리 File Reader 노드는이 파일을 읽고 위의 필드를 열 이름으로 자동으로 사용합니다.
이제 다양한 노드를 추가하기 시작합니다.
파일 리더 추가
다음으로 이동 Node Repository 보기, 검색 상자에 "파일"을 입력하여 File Reader마디. 이것은 아래 스크린 샷에서 볼 수 있습니다.
선택하고 두 번 클릭 File Reader작업 공간에 노드를 추가합니다. 또는 끌어서 놓기 기능을 사용하여 작업 공간에 노드를 추가 할 수 있습니다. 노드를 추가 한 후 구성해야합니다. 노드를 마우스 오른쪽 버튼으로 클릭하고Configure메뉴 옵션. 이전 단원에서이 작업을 수행했습니다.
데이터 파일이로드 된 후 설정 화면은 다음과 같습니다.
데이터 세트를로드하려면 Browse버튼을 클릭하고 iris.data 파일의 위치를 선택하십시오. 노드는 구성 상자의 하단에 표시되는 파일의 내용을로드합니다. 데이터 파일의 위치가 적절하고로드 된 것이 만족 스러우면OK 버튼을 눌러 구성 대화 상자를 닫습니다.
이제이 노드에 몇 가지 주석을 추가합니다. 노드를 마우스 오른쪽 버튼으로 클릭하고New Workflow Annotation메뉴 옵션. 여기 스크린 샷과 같이 주석 상자가 화면에 나타납니다.
상자 내부를 클릭하고 다음 주석을 추가하십시오-
Reads iris.data
편집 모드를 종료하려면 상자 외부의 아무 곳이나 클릭하십시오. 크기를 조정하고 원하는대로 노드 주위에 상자를 배치합니다. 마지막으로Node 1 이 문자열을 다음으로 변경하려면 노드 아래의 텍스트-
Loads data
이 시점에서 화면은 다음과 같습니다.
이제로드 된 데이터 세트를 훈련 및 테스트로 분할하기위한 새 노드를 추가합니다.
분할 노드 추가
에서 Node Repository 검색 창에서 몇 개의 문자를 입력하여 Partitioning 아래 스크린 샷에서 볼 수 있듯이 노드-
작업 공간에 노드를 추가하십시오. 다음과 같이 구성을 설정하십시오-
Relative (%) : 95
Draw Randomly
다음 스크린 샷은 구성 매개 변수를 보여줍니다.
다음으로 두 노드를 연결합니다. 이렇게하려면 출력을 클릭하십시오.File Reader 노드에서 마우스 버튼을 계속 클릭하면 고무줄이 나타납니다. Partitioning노드에서 마우스 버튼을 놓습니다. 이제 두 노드간에 연결이 설정됩니다.
주석을 추가하고, 설명을 변경하고, 노드와 주석보기를 원하는대로 배치합니다. 이 단계에서 화면은 다음과 같아야합니다.
다음으로 k-Means 마디.
k- 평균 노드 추가
선택 k-Means저장소에서 노드를 제거하고 작업 공간에 추가합니다. k- 평균 알고리즘에 대한 지식을 새로 고치려면 워크 벤치의 설명보기에서 설명을 찾아보십시오. 이것은 아래 스크린 샷에 나와 있습니다.
참고로, 사용할 알고리즘에 대한 최종 결정을 내리기 전에 설명 창에서 다른 알고리즘에 대한 설명을 찾아 볼 수 있습니다.
노드에 대한 구성 대화 상자를 엽니 다. 여기에 표시된대로 모든 필드에 기본값을 사용합니다.
딸깍 하는 소리 OK 기본값을 적용하고 대화 상자를 닫습니다.
주석과 설명을 다음과 같이 설정하십시오-
주석 : 클러스터 분류
설명 : 클러스터링 수행
상단 출력을 연결 Partitioning 노드의 입력 k-Means마디. 항목을 재배치하면 화면이 다음과 같이 보일 것입니다.
다음으로 Cluster Assigner 마디.
클러스터 할당 자 추가
그만큼 Cluster Assigner기존 프로토 타입 세트에 새 데이터를 할당합니다. 프로토 타입 모델과 입력 데이터를 포함하는 데이터 테이블의 두 가지 입력이 필요합니다. 아래 스크린 샷에 묘사 된 설명 창에서 노드의 설명을 찾습니다.
따라서이 노드에 대해 두 개의 연결을 만들어야합니다.
PMML 클러스터 모델 출력 Partitioning 노드 → 프로토 타입 입력 Cluster Assigner
두 번째 파티션 출력 Partitioning 노드 → 입력 데이터 Cluster Assigner
이 두 연결은 아래 스크린 샷에 나와 있습니다.
그만큼 Cluster Assigner특별한 구성이 필요하지 않습니다. 기본값을 그대로 사용하십시오.
이제이 노드에 주석과 설명을 추가합니다. 노드를 재정렬하십시오. 화면은 다음과 같아야합니다.
이 시점에서 클러스터링이 완료되었습니다. 출력을 그래픽으로 시각화해야합니다. 이를 위해 산점도를 추가합니다. 산점도에서 세 가지 클래스의 색상과 모양을 다르게 설정합니다. 따라서 우리는k-Means 먼저 노드를 통해 Color Manager 노드를 통해 Shape Manager 마디.
색상 관리자 추가
찾기 Color Manager저장소의 노드. 작업 공간에 추가하십시오. 구성을 기본값으로 둡니다. 구성 대화 상자를 열고OK기본값을 수락합니다. 노드에 대한 설명 텍스트를 설정합니다.
출력에서 연결합니다. k-Means 의 입력에 Color Manager. 이 단계에서 화면은 다음과 같습니다.
모양 관리자 추가
찾기 Shape Manager저장소에서 작업 공간에 추가하십시오. 구성을 기본값으로 둡니다. 이전과 마찬가지로 구성 대화 상자를 열고OK기본값을 설정합니다. 출력에서 연결 설정Color Manager 의 입력에 Shape Manager. 노드에 대한 설명을 설정합니다.
화면은 다음과 같아야합니다.
이제 모델에 마지막 노드를 추가 할 것이며 이것이 산점도입니다.
산점도 추가
위치하고 있다 Scatter Plot저장소에 노드를 추가하고 작업 공간에 추가하십시오. 출력 연결Shape Manager 의 입력에 Scatter Plot. 구성을 기본값으로 둡니다. 설명을 설정합니다.
마지막으로 최근 추가 된 3 개의 노드에 그룹 주석을 추가합니다.
주석 : 시각화
원하는대로 노드를 재배치합니다. 이 단계에서 화면은 다음과 같아야합니다.
이것으로 모델 구축 작업이 완료되었습니다.