KNIME - Xây dựng mô hình của riêng bạn

Trong chương này, bạn sẽ xây dựng mô hình học máy của riêng mình để phân loại thực vật dựa trên một vài đặc điểm quan sát được. Chúng tôi sẽ sử dụngiris tập dữ liệu từ UCI Machine Learning Repositoryvì mục đích này. Tập dữ liệu chứa ba lớp thực vật khác nhau. Chúng tôi sẽ đào tạo mô hình của chúng tôi để phân loại thực vật chưa biết vào một trong ba loại này.

Chúng tôi sẽ bắt đầu với việc tạo quy trình làm việc mới trong KNIME để tạo các mô hình học máy của chúng tôi.

Tạo quy trình làm việc

Để tạo dòng công việc mới, hãy chọn tùy chọn menu sau trong bàn làm việc KNIME.

File → New

Bạn sẽ thấy màn hình sau:

Chọn New KNIME Workflow và nhấp vào Nextcái nút. Trên màn hình tiếp theo, bạn sẽ được hỏi tên mong muốn cho dòng công việc và thư mục đích để lưu nó. Nhập thông tin này như mong muốn và nhấp vàoFinish để tạo không gian làm việc mới.

Một không gian làm việc mới với tên đã cho sẽ được thêm vào Workspace xem như đã thấy ở đây -

Bây giờ bạn sẽ thêm các nút khác nhau trong không gian làm việc này để tạo mô hình của mình. Trước khi thêm các nút, bạn phải tải xuống và chuẩn bịiris bộ dữ liệu để chúng tôi sử dụng.

Chuẩn bị tập dữ liệu

Tải dữ liệu iris từ UCI Machine Learning Repository trang web Tải về Iris Dataset . Tệp iris.data đã tải xuống có định dạng CSV. Chúng tôi sẽ thực hiện một số thay đổi trong nó để thêm tên cột.

Mở tệp đã tải xuống trong trình soạn thảo văn bản yêu thích của bạn và thêm dòng sau vào đầu.

sepal length, petal length, sepal width, petal width, class

Khi của chúng tôi File Reader nút đọc tệp này, nó sẽ tự động lấy các trường trên làm tên cột.

Bây giờ, bạn sẽ bắt đầu thêm các nút khác nhau.

Thêm trình đọc tệp

Đi đến Node Repository xem, nhập “tệp” vào hộp tìm kiếm để tìm File Readernút. Điều này được nhìn thấy trong ảnh chụp màn hình bên dưới -

Chọn và nhấp đúp vào File Readerđể thêm nút vào không gian làm việc. Ngoài ra, bạn có thể sử dụng tính năng kéo-n-thả để thêm nút vào không gian làm việc. Sau khi nút được thêm vào, bạn sẽ phải cấu hình nó. Nhấp chuột phải vào nút và chọnConfiguremenu tùy chọn. Bạn đã làm điều này trong bài học trước đó.

Màn hình cài đặt trông giống như sau sau khi tệp dữ liệu được tải.

Để tải tập dữ liệu của bạn, hãy nhấp vào Browsevà chọn vị trí của tệp iris.data của bạn. Nút sẽ tải nội dung của tệp được hiển thị ở phần dưới của hộp cấu hình. Khi bạn hài lòng rằng tệp dữ liệu được đặt đúng cách và được tải, hãy nhấp vàoOK để đóng hộp thoại cấu hình.

Bây giờ bạn sẽ thêm một số chú thích vào nút này. Nhấp chuột phải vào nút và chọnNew Workflow Annotationmenu tùy chọn. Một hộp chú thích sẽ xuất hiện trên màn hình như trong ảnh chụp màn hình ở đây:

Nhấp vào bên trong hộp và thêm chú thích sau:

Reads iris.data

Nhấp vào bất kỳ đâu bên ngoài hộp để thoát khỏi chế độ chỉnh sửa. Thay đổi kích thước và đặt hộp xung quanh nút như mong muốn. Cuối cùng, nhấp đúp vàoNode 1 văn bản bên dưới nút để thay đổi chuỗi này thành sau:

Loads data

Tại thời điểm này, màn hình của bạn sẽ giống như sau:

Bây giờ chúng tôi sẽ thêm một nút mới để phân vùng tập dữ liệu đã tải của chúng tôi thành đào tạo và thử nghiệm.

Thêm nút phân vùng

bên trong Node Repository cửa sổ tìm kiếm, nhập một vài ký tự để tìm Partitioning , như được thấy trong ảnh chụp màn hình bên dưới -

Thêm nút vào không gian làm việc của chúng tôi. Đặt cấu hình của nó như sau:

Relative (%) : 95
Draw Randomly

Ảnh chụp màn hình sau đây hiển thị các thông số cấu hình.

Tiếp theo, tạo kết nối giữa hai nút. Để làm như vậy, hãy nhấp vào đầu ra củaFile Reader nút, giữ nút chuột được nhấp, một đường dây cao su sẽ xuất hiện, hãy kéo nó đến đầu vào của Partitioningnút, thả nút chuột. Một kết nối hiện đã được thiết lập giữa hai nút.

Thêm chú thích, thay đổi mô tả, định vị nút và chế độ xem chú thích như mong muốn. Màn hình của bạn sẽ trông giống như sau ở giai đoạn này:

Tiếp theo, chúng tôi sẽ thêm k-Means nút.

Thêm nút k-Means

Chọn k-Meanstừ kho lưu trữ và thêm nó vào không gian làm việc. Nếu bạn muốn nâng cao kiến ​​thức của mình về thuật toán k-Means, chỉ cần tra cứu mô tả của nó trong chế độ xem mô tả của bàn làm việc. Điều này được hiển thị trong ảnh chụp màn hình bên dưới -

Ngẫu nhiên, bạn có thể tra cứu mô tả của các thuật toán khác nhau trong cửa sổ mô tả trước khi đưa ra quyết định cuối cùng về việc sử dụng thuật toán nào.

Mở hộp thoại cấu hình cho nút. Chúng tôi sẽ sử dụng các giá trị mặc định cho tất cả các trường như được hiển thị ở đây -

Nhấp chuột OK để chấp nhận các giá trị mặc định và để đóng hộp thoại.

Đặt chú thích và mô tả như sau:

  • Chú thích: Phân loại các cụm

  • Mô tả: Thực hiện phân cụm

Kết nối đầu ra hàng đầu của Partitioning nút đầu vào của k-Meansnút. Đặt lại vị trí các mục của bạn và màn hình của bạn sẽ giống như sau:

Tiếp theo, chúng tôi sẽ thêm một Cluster Assigner nút.

Thêm người chỉ định cụm

Các Cluster Assignergán dữ liệu mới cho một nhóm nguyên mẫu hiện có. Nó cần hai đầu vào - mô hình nguyên mẫu và tập dữ liệu chứa dữ liệu đầu vào. Tra cứu mô tả của nút trong cửa sổ mô tả được mô tả trong ảnh chụp màn hình bên dưới -

Vì vậy, đối với nút này, bạn phải thực hiện hai kết nối -

  • Đầu ra Mô hình Cụm PMML của Partitioning nút → Nguyên mẫu Đầu vào của Cluster Assigner

  • Đầu ra phân vùng thứ hai của Partitioning nút → Dữ liệu đầu vào của Cluster Assigner

Hai kết nối này được hiển thị trong ảnh chụp màn hình bên dưới -

Các Cluster Assignerkhông cần bất kỳ cấu hình đặc biệt. Chỉ cần chấp nhận các giá trị mặc định.

Bây giờ, hãy thêm một số chú thích và mô tả vào nút này. Sắp xếp lại các nút của bạn. Màn hình của bạn sẽ giống như sau:

Tại thời điểm này, việc phân cụm của chúng ta đã hoàn thành. Chúng ta cần hình dung đầu ra bằng đồ thị. Đối với điều này, chúng tôi sẽ thêm một biểu đồ phân tán. Chúng tôi sẽ đặt màu sắc và hình dạng cho ba lớp khác nhau trong biểu đồ phân tán. Do đó, chúng tôi sẽ lọc đầu ra củak-Means nút đầu tiên thông qua Color Manager nút và sau đó thông qua Shape Manager nút.

Thêm trình quản lý màu

Xác định vị trí Color Managernút trong kho. Thêm nó vào không gian làm việc. Để cấu hình ở chế độ mặc định. Lưu ý rằng bạn phải mở hộp thoại cấu hình và nhấnOKđể chấp nhận các giá trị mặc định. Đặt văn bản mô tả cho nút.

Tạo kết nối từ đầu ra của k-Means đầu vào của Color Manager. Màn hình của bạn sẽ giống như sau ở giai đoạn này -

Thêm Trình quản lý Hình dạng

Xác định vị trí Shape Managertrong kho lưu trữ và thêm nó vào không gian làm việc. Để cấu hình của nó về mặc định. Giống như phần trước, bạn phải mở hộp thoại cấu hình và nhấnOKđể đặt giá trị mặc định. Thiết lập kết nối từ đầu ra củaColor Manager đầu vào của Shape Manager. Đặt mô tả cho nút.

Màn hình của bạn sẽ giống như sau:

Bây giờ, bạn sẽ thêm nút cuối cùng trong mô hình của chúng tôi và đó là biểu đồ phân tán.

Thêm lô phân tán

Định vị Scatter Plotnút trong kho và thêm nó vào không gian làm việc. Kết nối đầu ra củaShape Manager đầu vào của Scatter Plot. Để cấu hình ở chế độ mặc định. Đặt mô tả.

Cuối cùng, thêm chú thích nhóm vào ba nút được thêm gần đây

Chú thích: Hình ảnh hóa

Định vị lại các nút như mong muốn. Màn hình của bạn sẽ trông giống như sau ở giai đoạn này.

Điều này hoàn thành nhiệm vụ xây dựng mô hình.