KNIME-워크 플로우 탐색

워크 플로우에서 노드를 확인하면 다음이 포함되어 있음을 알 수 있습니다.

파일 리더,
색상 관리자
Partitioning
의사 결정 나무 학습자
의사 결정 트리 예측 자
Score
인터랙티브 테이블
산포도
Statistics

이들은 쉽게 볼 수 있습니다 Outline 여기에 표시된대로보기-

각 노드는 워크 플로에서 특정 기능을 제공합니다. 이제 원하는 기능을 충족하도록 이러한 노드를 구성하는 방법을 살펴 보겠습니다. 워크 플로 탐색의 현재 컨텍스트에서 우리와 관련된 노드 만 논의 할 것입니다.

파일 리더

파일 리더 노드는 아래 스크린 샷에 묘사되어 있습니다.

창 상단에는 워크 플로 작성자가 제공 한 몇 가지 설명이 있습니다. 이 노드가 성인 데이터 세트를 읽음을 알려줍니다. 파일 이름은adult.csv노드 기호 아래의 설명에서 볼 수 있습니다. 그만큼File Reader 두 개의 출력이 있습니다-하나는 Color Manager 노드와 다른 하나는 Statistics 마디.

오른쪽 클릭하면 File Manager, 팝업 메뉴는 다음과 같이 표시됩니다.

그만큼 Configure메뉴 옵션은 노드 구성을 허용합니다. 그만큼Execute메뉴는 노드를 실행합니다. 노드가 이미 실행되었으며 녹색 상태이면이 메뉴가 비활성화됩니다. 또한Edit Note Description메뉴 옵션. 이를 통해 노드에 대한 설명을 작성할 수 있습니다.

이제 Configure 메뉴 옵션을 선택하면 여기 스크린 샷과 같이 adult.csv 파일의 데이터가 포함 된 화면이 표시됩니다.

이 노드를 실행하면 데이터가 메모리에로드됩니다. 전체 데이터 로딩 프로그램 코드는 사용자에게 표시되지 않습니다. 이제 코딩이 필요없는 이러한 노드의 유용성을 이해할 수 있습니다.

다음 노드는 Color Manager.

색상 관리자

선택 Color Manager노드를 마우스 오른쪽 버튼으로 클릭하여 구성으로 이동합니다. 색상 설정 대화 상자가 나타납니다. 선택income 드롭 다운 목록에서 열.

화면은 다음과 같습니다.

두 가지 제약 조건이 있습니다. 수입이 50K 미만이면 데이터 포인트가 녹색을 얻고 더 많으면 빨간색이됩니다. 이 장의 뒷부분에서 산점도를 볼 때 데이터 포인트 매핑을 볼 수 있습니다.

파티셔닝

기계 학습에서는 일반적으로 사용 가능한 전체 데이터를 두 부분으로 나눕니다. 큰 부분은 모델 학습에 사용되는 반면 작은 부분은 테스트에 사용됩니다. 데이터를 분할하는 데 사용되는 다양한 전략이 있습니다.

원하는 파티셔닝을 정의하려면 Partitioning 노드를 선택하고 Configure선택권. 다음 화면이 표시됩니다.

이 경우 시스템 모델러는 Relative(%) 모드와 데이터는 80:20 비율로 분할됩니다. 분할을 수행하는 동안 데이터 포인트가 무작위로 선택됩니다. 이렇게하면 테스트 데이터가 편향되지 않을 수 있습니다. 선형 샘플링의 경우 테스트에 사용 된 나머지 20 % 데이터는 수집 중에 완전히 편향 될 수 있으므로 훈련 데이터를 올바르게 나타내지 않을 수 있습니다.

데이터 수집 중에 임의성이 보장된다는 확신이 들면 선형 샘플링을 선택할 수 있습니다. 데이터가 모델을 학습 할 준비가되면 데이터를 다음 노드에 공급합니다.Decision Tree Learner.

의사 결정 나무 학습자

그만큼 Decision Tree Learner이름에서 알 수 있듯이 노드는 훈련 데이터를 사용하고 모델을 구축합니다. 아래 스크린 샷에 묘사 된이 노드의 구성 설정을 확인하십시오.

보시다시피 Class 이다 income. 따라서 나무는 소득 열을 기반으로하여 우리가이 모델에서 달성하고자하는 것입니다. 우리는 소득이 50K보다 크거나 작은 사람들의 분리를 원합니다.

이 노드가 성공적으로 실행되면 모델을 테스트 할 준비가됩니다.

의사 결정 트리 예측 자

Decision Tree Predictor 노드는 개발 된 모델을 테스트 데이터 세트에 적용하고 모델 예측을 추가합니다.

예측 변수의 출력은 두 개의 다른 노드에 제공됩니다. Scorer 과 Scatter Plot. 다음으로 예측 결과를 살펴 보겠습니다.

득점자

이 노드는 confusion matrix. 그것을 보려면 노드를 마우스 오른쪽 버튼으로 클릭하십시오. 다음과 같은 팝업 메뉴가 나타납니다.

클릭 View: Confusion Matrix 메뉴 옵션과 매트릭스는 여기 스크린 샷과 같이 별도의 창에 팝업됩니다.

우리가 개발 한 모델의 정확도가 83.71 %임을 나타냅니다. 이것에 만족하지 않으면 모델 구축에서 다른 매개 변수를 가지고 놀 수 있습니다. 특히 데이터를 다시 방문하고 정리하는 것이 좋습니다.

산포도

데이터 분포의 산점도를 보려면 Scatter Plot 노드를 선택하고 메뉴 옵션을 선택하십시오. Interactive View: Scatter Plot. 다음 플롯이 표시됩니다.

플롯은 빨간색과 파란색의 두 가지 색상 점으로 50K의 임계 값을 기준으로 여러 소득 그룹 사람들의 분포를 제공합니다. 이것들은 우리의Color Manager마디. 분포는 x 축에 표시된 나이를 기준으로합니다. 노드의 구성을 변경하여 x 축에 대해 다른 기능을 선택할 수 있습니다.

여기에 구성 대화 상자가 표시됩니다. marital-status x 축의 기능으로.

이것으로 KNIME에서 제공하는 사전 정의 된 모델에 대한 논의가 완료되었습니다. 자습을 위해 모델에서 다른 두 노드 (통계 및 대화 형 테이블)를 선택하는 것이 좋습니다.

이제 튜토리얼의 가장 중요한 부분 인 자신 만의 모델을 만들어 보겠습니다.