KNIME - Hướng dẫn nhanh
Việc phát triển các mô hình Học máy luôn được coi là rất thách thức do tính chất khó hiểu của nó. Nói chung, để phát triển các ứng dụng học máy, bạn phải là một nhà phát triển giỏi có chuyên môn về phát triển theo hướng lệnh. Sự ra đời của KNIME đã mang lại sự phát triển của các mô hình Học máy theo quan điểm của một người bình thường.
KNIME cung cấp giao diện đồ họa (GUI thân thiện với người dùng) cho toàn bộ quá trình phát triển. Trong KNIME, bạn chỉ cần xác định quy trình làm việc giữa các nút được xác định trước khác nhau được cung cấp trong kho lưu trữ của nó. KNIME cung cấp một số thành phần được xác định trước được gọi là các nút cho các tác vụ khác nhau như đọc dữ liệu, áp dụng các thuật toán ML khác nhau và hiển thị dữ liệu ở các định dạng khác nhau. Vì vậy, để làm việc với KNIME, không cần kiến thức lập trình. Điều này không thú vị phải không?
Các chương sắp tới của hướng dẫn này sẽ dạy bạn cách thành thạo phân tích dữ liệu bằng cách sử dụng một số thuật toán ML đã được thử nghiệm tốt.
KNIME Analytics Platform có sẵn cho Windows, Linux và MacOS. Trong chương này, chúng ta hãy xem xét các bước cài đặt nền tảng trên Mac. Nếu bạn sử dụng Windows hoặc Linux, chỉ cần làm theo hướng dẫn cài đặt được cung cấp trên trang tải xuống KNIME. Cài đặt nhị phân cho cả ba nền tảng có sẵn tại trang của KNIME .
Cài đặt Mac
Tải xuống bản cài đặt nhị phân từ trang web chính thức của KNIME. Nhấp đúp vào phần đã tải xuốngdmgđể bắt đầu cài đặt. Khi quá trình cài đặt hoàn tất, chỉ cần kéo biểu tượng KNIME vào thư mục Ứng dụng như ở đây -
Nhấp đúp vào biểu tượng KNIME để bắt đầu Nền tảng phân tích KNIME. Ban đầu, bạn sẽ được yêu cầu thiết lập một thư mục không gian làm việc để lưu công việc của mình. Màn hình của bạn sẽ giống như sau:
Bạn có thể đặt thư mục đã chọn làm mặc định và lần sau khi bạn khởi chạy KNIME, nó sẽ không
hiển thị lại hộp thoại này.
Sau một lúc, nền tảng KNIME sẽ bắt đầu trên màn hình của bạn. Đây là bàn làm việc nơi bạn thực hiện công việc phân tích của mình. Bây giờ chúng ta hãy xem xét các phần khác nhau của bàn làm việc.
Khi KNIME bắt đầu, bạn sẽ thấy màn hình sau:
Như đã được đánh dấu trong ảnh chụp màn hình, bàn làm việc bao gồm một số chế độ xem. Các chế độ xem có thể sử dụng ngay cho chúng tôi được đánh dấu trong ảnh chụp màn hình và liệt kê bên dưới
Workspace
Outline
Kho lưu trữ Nodes
KNIME Explorer
Console
Description
Khi chúng ta tiếp tục chương này, chúng ta hãy tìm hiểu chi tiết từng quan điểm này.
Chế độ xem không gian làm việc
Quan điểm quan trọng nhất đối với chúng tôi là Workspacelượt xem. Đây là nơi bạn sẽ tạo mô hình học máy của mình. Chế độ xem không gian làm việc được đánh dấu trong ảnh chụp màn hình bên dưới -
Ảnh chụp màn hình hiển thị một không gian làm việc đã mở. Bạn sẽ sớm biết cách mở không gian làm việc hiện có.
Mỗi không gian làm việc chứa một hoặc nhiều nút. Bạn sẽ tìm hiểu tầm quan trọng của các nút này sau trong hướng dẫn. Các nút được kết nối bằng các mũi tên. Nói chung, luồng chương trình được xác định từ trái sang phải, mặc dù điều này không bắt buộc. Bạn có thể tự do di chuyển từng nút đến bất kỳ đâu trong không gian làm việc. Các đường kết nối giữa hai sẽ di chuyển thích hợp để duy trì kết nối giữa các nút. Bạn có thể thêm / bớt kết nối giữa các nút bất kỳ lúc nào. Đối với mỗi nút, một mô tả nhỏ có thể được thêm vào tùy chọn.
Xem phác thảo
Chế độ xem không gian làm việc có thể không hiển thị cho bạn toàn bộ quy trình làm việc cùng một lúc. Đó là lý do, chế độ xem phác thảo được cung cấp.
Dạng xem phác thảo cho thấy một dạng thu nhỏ của toàn bộ không gian làm việc. Có một cửa sổ thu phóng bên trong dạng xem này mà bạn có thể trượt để xem các phần khác nhau của quy trình làm việc trongWorkspace lượt xem.
Kho lưu trữ Node
Đây là góc nhìn quan trọng tiếp theo trong bàn làm việc. Kho lưu trữ Node liệt kê các nút khác nhau có sẵn cho phân tích của bạn. Toàn bộ kho lưu trữ được phân loại độc đáo dựa trên các chức năng của nút. Bạn sẽ tìm thấy các danh mục như -
IO
Views
Analytics
Dưới mỗi danh mục, bạn sẽ tìm thấy một số tùy chọn. Chỉ cần mở rộng từng chế độ xem danh mục để xem bạn có gì ở đó. Phía dưới cáiIO , bạn sẽ tìm thấy các nút để đọc dữ liệu của mình ở các định dạng tệp khác nhau, chẳng hạn như ARFF, CSV, PMML, XLS, v.v.
Tùy thuộc vào định dạng dữ liệu nguồn đầu vào của bạn, bạn sẽ chọn nút thích hợp để đọc tập dữ liệu của mình.
Đến lúc này, có lẽ bạn đã hiểu mục đích của một nút. Một nút xác định một loại chức năng nhất định mà bạn có thể đưa vào quy trình làm việc của mình một cách trực quan.
Nút Analytics xác định các thuật toán học máy khác nhau, chẳng hạn như Bayes, Clustering, Cây quyết định, Học tập hợp, v.v.
Việc triển khai các thuật toán ML khác nhau này được cung cấp trong các nút này. Để áp dụng bất kỳ thuật toán nào trong phân tích của bạn, chỉ cần chọn nút mong muốn từ kho lưu trữ và thêm nó vào không gian làm việc của bạn. Kết nối đầu ra của nút Trình đọc dữ liệu với đầu vào của nút ML này và quy trình làm việc của bạn được tạo.
Chúng tôi khuyên bạn nên khám phá các nút khác nhau có sẵn trong kho lưu trữ.
KNIME Explorer
Chế độ xem quan trọng tiếp theo trong bàn làm việc là Explorer xem như được hiển thị trong ảnh chụp màn hình bên dưới -
Hai danh mục đầu tiên liệt kê các không gian làm việc được xác định trên máy chủ KNIME. Tùy chọn thứ ba LOCAL được sử dụng để lưu trữ tất cả các không gian làm việc mà bạn tạo trên máy cục bộ của mình. Hãy thử mở rộng các tab này để xem các không gian làm việc khác nhau được xác định trước. Đặc biệt, mở rộng tab EXAMPLES.
KNIME cung cấp một số ví dụ để bạn bắt đầu với nền tảng này. Trong chương tiếp theo, bạn sẽ sử dụng một trong những ví dụ này để làm quen với nền tảng này.
Chế độ xem bảng điều khiển
Như tên cho thấy, Console dạng xem cung cấp chế độ xem các thông báo bảng điều khiển khác nhau trong khi thực hiện quy trình làm việc của bạn.
Các Console chế độ xem hữu ích trong việc chẩn đoán quy trình làm việc và kiểm tra kết quả phân tích.
Xem mô tả
Chế độ xem quan trọng cuối cùng có liên quan ngay đến chúng tôi là Descriptionlượt xem. Dạng xem này cung cấp mô tả về một mục đã chọn trong không gian làm việc. Một chế độ xem điển hình được hiển thị trong ảnh chụp màn hình bên dưới -
Chế độ xem trên cho thấy mô tả của một File Readernút. Khi bạn chọnFile Readertrong không gian làm việc của bạn, bạn sẽ thấy mô tả của nó trong dạng xem này. Nhấp vào bất kỳ nút nào khác sẽ hiển thị mô tả của nút đã chọn. Do đó, khung nhìn này trở nên rất hữu ích trong giai đoạn đầu của việc học khi bạn không biết chính xác mục đích của các nút khác nhau trong không gian làm việc và / hoặc kho lưu trữ các nút.
Thanh công cụ
Bên cạnh các khung nhìn được mô tả ở trên, bàn làm việc còn có các khung nhìn khác như thanh công cụ. Thanh công cụ chứa nhiều biểu tượng khác nhau giúp thực hiện nhanh chóng. Các biểu tượng được bật / tắt tùy thuộc vào ngữ cảnh. Bạn có thể xem hành động mà mỗi biểu tượng thực hiện bằng cách di chuột vào nó. Màn hình sau đây hiển thị hành động được thực hiện bởiConfigure biểu tượng.
Bật / Tắt chế độ xem
Các chế độ xem khác nhau mà bạn đã thấy cho đến nay có thể được bật / tắt dễ dàng. Nhấp vào biểu tượng Đóng trong chế độ xem sẽclosequang cảnh. Để khôi phục chế độ xem, hãy chuyển đếnViewmenu tùy chọn và chọn chế độ xem mong muốn. Dạng xem đã chọn sẽ được thêm vào bàn làm việc.
Bây giờ, khi bạn đã làm quen với bàn làm việc, tôi sẽ chỉ cho bạn cách chạy một quy trình làm việc và nghiên cứu các phân tích được thực hiện bởi nó.
KNIME đã cung cấp một số quy trình làm việc tốt để dễ học. Trong chương này, chúng tôi sẽ chọn một trong các quy trình công việc được cung cấp trong cài đặt để giải thích các tính năng khác nhau và sức mạnh của nền tảng phân tích. Chúng tôi sẽ sử dụng một bộ phân loại đơn giản dựa trênDecision Tree cho nghiên cứu của chúng tôi.
Đang tải bộ phân loại cây quyết định
Trong KNIME Explorer, định vị dòng công việc sau:
LOCAL / Example Workflows / Basic Examples / Building a Simple Classifier
Điều này cũng được hiển thị trong ảnh chụp màn hình bên dưới để bạn tham khảo nhanh -
Bấm đúp vào mục đã chọn để mở dòng công việc. Quan sát dạng xem Workspace. Bạn sẽ thấy quy trình làm việc chứa một số nút. Mục đích của quy trình làm việc này là để dự đoán nhóm thu nhập từ các thuộc tính dân chủ của tập dữ liệu người lớn được lấy từ Kho lưu trữ Học máy UCI. Nhiệm vụ của mô hình ML này là phân loại người dân trong một khu vực cụ thể có thu nhập lớn hơn hoặc nhỏ hơn 50 nghìn.
Các Workspace xem cùng với đường viền của nó được hiển thị trong ảnh chụp màn hình bên dưới -
Lưu ý sự hiện diện của một số nút được chọn từ Nodeskho lưu trữ và được kết nối trong một quy trình làm việc bằng các mũi tên. Kết nối chỉ ra rằng đầu ra của một nút được đưa đến đầu vào của nút tiếp theo. Trước khi chúng ta tìm hiểu chức năng của từng nút trong quy trình làm việc, trước tiên chúng ta hãy thực thi toàn bộ quy trình làm việc.
Thực thi quy trình làm việc
Trước khi chúng tôi xem xét việc thực hiện quy trình làm việc, điều quan trọng là phải hiểu báo cáo trạng thái của mỗi nút. Kiểm tra bất kỳ nút nào trong quy trình làm việc. Ở cuối mỗi nút, bạn sẽ tìm thấy chỉ báo trạng thái chứa ba vòng tròn. Nút Trình học cây quyết định được hiển thị trong ảnh chụp màn hình bên dưới -
Chỉ báo trạng thái màu đỏ cho biết nút này vẫn chưa được thực thi cho đến nay. Trong quá trình thực hiện, vòng tròn trung tâm có màu vàng sẽ sáng lên. Khi thực hiện thành công, vòng tròn cuối cùng chuyển sang màu xanh lục. Có nhiều chỉ báo hơn để cung cấp cho bạn thông tin trạng thái trong trường hợp có sai sót. Bạn sẽ học chúng khi xảy ra lỗi trong quá trình xử lý.
Lưu ý rằng hiện tại các chỉ báo trên tất cả các nút có màu đỏ cho thấy rằng không có nút nào được thực thi cho đến nay. Để chạy tất cả các nút, hãy nhấp vào mục menu sau:
Node → Execute All
Sau một thời gian, bạn sẽ thấy rằng mỗi chỉ báo trạng thái nút hiện đã chuyển sang màu xanh lục cho thấy rằng không có lỗi.
Trong chương tiếp theo, chúng ta sẽ khám phá chức năng của các nút khác nhau trong quy trình làm việc.
Nếu bạn kiểm tra các nút trong quy trình làm việc, bạn có thể thấy rằng nó chứa những điều sau:
Trình đọc tệp,
Trình quản lý màu sắc
Partitioning
Người học cây quyết định
Dự đoán cây quyết định
Score
Bảng tương tác
Lô phân tán
Statistics
Những điều này có thể dễ dàng nhìn thấy trong Outline xem như hình ở đây -
Mỗi nút cung cấp một chức năng cụ thể trong quy trình làm việc. Bây giờ chúng ta sẽ xem xét cách cấu hình các nút này để đáp ứng các chức năng mong muốn. Xin lưu ý rằng chúng ta sẽ chỉ thảo luận về những nút có liên quan đến chúng ta trong bối cảnh khám phá quy trình làm việc hiện tại.
Trình đọc tệp
Nút Trình đọc tệp được mô tả trong ảnh chụp màn hình bên dưới -
Có một số mô tả ở đầu cửa sổ được cung cấp bởi người tạo quy trình làm việc. Nó cho biết rằng nút này đọc tập dữ liệu người lớn. Tên của tệp làadult.csvnhư được thấy từ mô tả bên dưới biểu tượng nút. CácFile Reader có hai đầu ra - một đầu ra Color Manager nút và nút kia đi tới Statistics nút.
Nếu bạn nhấp chuột phải vào File Manager, một menu bật lên sẽ hiển thị như sau:
Các Configuretùy chọn menu cho phép cấu hình nút. CácExecutemenu chạy nút. Lưu ý rằng nếu nút đã được chạy và nếu nó ở trạng thái màu xanh lục, menu này sẽ bị tắt. Ngoài ra, lưu ý sự hiện diện củaEdit Note Descriptionmenu tùy chọn. Điều này cho phép bạn viết mô tả cho nút của mình.
Bây giờ, hãy chọn Configure tùy chọn menu, nó hiển thị màn hình chứa dữ liệu từ tệp Adult.csv như được thấy trong ảnh chụp màn hình ở đây -
Khi bạn thực thi nút này, dữ liệu sẽ được tải vào bộ nhớ. Toàn bộ mã chương trình tải dữ liệu được ẩn khỏi người dùng. Bây giờ bạn có thể đánh giá cao tính hữu ích của các nút như vậy - không cần mã hóa.
Nút tiếp theo của chúng tôi là Color Manager.
Trình quản lý màu sắc
Chọn Color Managervà đi vào cấu hình của nó bằng cách nhấp chuột phải vào nó. Hộp thoại cài đặt màu sắc sẽ xuất hiện. Chọnincome từ danh sách thả xuống.
Màn hình của bạn sẽ giống như sau:
Lưu ý sự hiện diện của hai ràng buộc. Nếu thu nhập dưới 50K, điểm dữ liệu sẽ có màu xanh lá cây và nếu nhiều hơn, điểm dữ liệu sẽ có màu đỏ. Bạn sẽ thấy ánh xạ điểm dữ liệu khi chúng ta xem biểu đồ phân tán ở phần sau của chương này.
Phân vùng
Trong học máy, chúng tôi thường chia toàn bộ dữ liệu có sẵn thành hai phần. Phần lớn hơn được sử dụng để đào tạo mô hình, trong khi phần nhỏ hơn được sử dụng để thử nghiệm. Có các chiến lược khác nhau được sử dụng để phân vùng dữ liệu.
Để xác định phân vùng mong muốn, nhấp chuột phải vào Partitioning và chọn ConfigureLựa chọn. Bạn sẽ thấy màn hình sau:
Trong trường hợp, người sửa đổi hệ thống đã sử dụng Relative(%) và dữ liệu được chia theo tỷ lệ 80:20. Trong khi thực hiện phân tách, các điểm dữ liệu được chọn ngẫu nhiên. Điều này đảm bảo rằng dữ liệu thử nghiệm của bạn có thể không bị sai lệch. Trong trường hợp lấy mẫu Tuyến tính, 20% dữ liệu còn lại được sử dụng để kiểm tra có thể không đại diện chính xác cho dữ liệu đào tạo vì nó có thể bị sai lệch hoàn toàn trong quá trình thu thập.
Nếu bạn chắc chắn rằng trong quá trình thu thập dữ liệu, tính ngẫu nhiên được đảm bảo thì bạn có thể chọn lấy mẫu tuyến tính. Khi dữ liệu của bạn đã sẵn sàng để đào tạo mô hình, hãy cung cấp nó vào nút tiếp theo, nút này làDecision Tree Learner.
Người học cây quyết định
Các Decision Tree Learnernhư tên cho thấy sử dụng dữ liệu đào tạo và xây dựng một mô hình. Kiểm tra cài đặt cấu hình của nút này, được mô tả trong ảnh chụp màn hình bên dưới -
Như bạn thấy Class Là income. Vì vậy, cây sẽ được xây dựng dựa trên cột thu nhập và đó là những gì chúng tôi đang cố gắng đạt được trong mô hình này. Chúng tôi muốn tách những người có thu nhập lớn hơn hoặc nhỏ hơn 50 nghìn.
Sau khi nút này chạy thành công, mô hình của bạn sẽ sẵn sàng để thử nghiệm.
Dự đoán cây quyết định
Nút Trình dự đoán cây quyết định áp dụng mô hình đã phát triển cho tập dữ liệu thử nghiệm và thêm vào các dự đoán của mô hình.
Đầu ra của bộ dự đoán được đưa đến hai nút khác nhau - Scorer và Scatter Plot. Tiếp theo, chúng tôi sẽ kiểm tra đầu ra của dự đoán.
Người ghi bàn
Nút này tạo ra confusion matrix. Để xem nó, nhấp chuột phải vào nút. Bạn sẽ thấy menu bật lên sau:
Nhấn vào View: Confusion Matrix tùy chọn menu và ma trận sẽ bật lên trong một cửa sổ riêng biệt như được hiển thị trong ảnh chụp màn hình ở đây -
Nó chỉ ra rằng độ chính xác của mô hình đã phát triển của chúng tôi là 83,71%. Nếu bạn không hài lòng với điều này, bạn có thể thử với các thông số khác trong quá trình xây dựng mô hình, đặc biệt, bạn có thể muốn truy cập lại và làm sạch dữ liệu của mình.
Lô phân tán
Để xem biểu đồ phân tán của phân phối dữ liệu, hãy nhấp chuột phải vào Scatter Plot và chọn tùy chọn menu Interactive View: Scatter Plot. Bạn sẽ thấy cốt truyện sau:
Cốt truyện đưa ra sự phân bố của những người thuộc các nhóm thu nhập khác nhau dựa trên ngưỡng 50K với hai chấm màu khác nhau - đỏ và xanh lam. Đây là những màu được đặt trongColor Managernút. Phân phối có liên quan đến độ tuổi như được vẽ trên trục x. Bạn có thể chọn một tính năng khác cho trục x bằng cách thay đổi cấu hình của nút.
Hộp thoại cấu hình được hiển thị ở đây, nơi chúng tôi đã chọn marital-status như một tính năng cho trục x.
Điều này hoàn thành cuộc thảo luận của chúng tôi về mô hình được xác định trước do KNIME cung cấp. Chúng tôi khuyên bạn nên sử dụng hai nút khác (Bảng thống kê và Bảng tương tác) trong mô hình để tự nghiên cứu.
Bây giờ chúng ta hãy chuyển sang phần quan trọng nhất của hướng dẫn - tạo mô hình của riêng bạn.
Trong chương này, bạn sẽ xây dựng mô hình học máy của riêng mình để phân loại thực vật dựa trên một vài đặc điểm quan sát được. Chúng tôi sẽ sử dụngiris tập dữ liệu từ UCI Machine Learning Repositoryvì mục đích này. Tập dữ liệu chứa ba lớp thực vật khác nhau. Chúng tôi sẽ đào tạo mô hình của chúng tôi để phân loại thực vật chưa biết vào một trong ba loại này.
Chúng tôi sẽ bắt đầu với việc tạo quy trình làm việc mới trong KNIME để tạo các mô hình học máy của chúng tôi.
Tạo quy trình làm việc
Để tạo dòng công việc mới, hãy chọn tùy chọn menu sau trong bàn làm việc KNIME.
File → New
Bạn sẽ thấy màn hình sau:
Chọn New KNIME Workflow và nhấp vào Nextcái nút. Trên màn hình tiếp theo, bạn sẽ được hỏi tên mong muốn cho dòng công việc và thư mục đích để lưu nó. Nhập thông tin này như mong muốn và nhấp vàoFinish để tạo không gian làm việc mới.
Một không gian làm việc mới với tên đã cho sẽ được thêm vào Workspace xem như đã thấy ở đây -
Bây giờ bạn sẽ thêm các nút khác nhau trong không gian làm việc này để tạo mô hình của mình. Trước khi thêm các nút, bạn phải tải xuống và chuẩn bịiris tập dữ liệu để chúng tôi sử dụng.
Chuẩn bị tập dữ liệu
Tải dữ liệu iris từ UCI Machine Learning Repository trang web Tải về Iris Dataset . Tệp iris.data đã tải xuống có định dạng CSV. Chúng tôi sẽ thực hiện một số thay đổi trong nó để thêm tên cột.
Mở tệp đã tải xuống trong trình soạn thảo văn bản yêu thích của bạn và thêm dòng sau vào đầu.
sepal length, petal length, sepal width, petal width, class
Khi của chúng tôi File Reader nút đọc tệp này, nó sẽ tự động lấy các trường trên làm tên cột.
Bây giờ, bạn sẽ bắt đầu thêm các nút khác nhau.
Thêm trình đọc tệp
Đi đến Node Repository xem, nhập “tệp” vào hộp tìm kiếm để tìm File Readernút. Điều này được nhìn thấy trong ảnh chụp màn hình bên dưới -
Chọn và nhấp đúp vào File Readerđể thêm nút vào không gian làm việc. Ngoài ra, bạn có thể sử dụng tính năng kéo-n-thả để thêm nút vào không gian làm việc. Sau khi nút được thêm vào, bạn sẽ phải cấu hình nó. Nhấp chuột phải vào nút và chọnConfiguremenu tùy chọn. Bạn đã làm điều này trong bài học trước đó.
Màn hình cài đặt trông giống như sau sau khi tệp dữ liệu được tải.
Để tải tập dữ liệu của bạn, hãy nhấp vào Browsevà chọn vị trí của tệp iris.data của bạn. Nút sẽ tải nội dung của tệp được hiển thị ở phần dưới của hộp cấu hình. Khi bạn hài lòng rằng tệp dữ liệu được đặt đúng cách và được tải, hãy nhấp vàoOK để đóng hộp thoại cấu hình.
Bây giờ bạn sẽ thêm một số chú thích vào nút này. Nhấp chuột phải vào nút và chọnNew Workflow Annotationmenu tùy chọn. Một hộp chú thích sẽ xuất hiện trên màn hình như trong ảnh chụp màn hình ở đây:
Nhấp vào bên trong hộp và thêm chú thích sau:
Reads iris.data
Nhấp vào bất kỳ đâu bên ngoài hộp để thoát khỏi chế độ chỉnh sửa. Thay đổi kích thước và đặt hộp xung quanh nút như mong muốn. Cuối cùng, nhấp đúp vàoNode 1 văn bản bên dưới nút để thay đổi chuỗi này thành sau:
Loads data
Tại thời điểm này, màn hình của bạn sẽ giống như sau:
Bây giờ chúng tôi sẽ thêm một nút mới để phân vùng tập dữ liệu đã tải của chúng tôi thành đào tạo và thử nghiệm.
Thêm nút phân vùng
bên trong Node Repository cửa sổ tìm kiếm, nhập một vài ký tự để tìm Partitioning , như được thấy trong ảnh chụp màn hình bên dưới -
Thêm nút vào không gian làm việc của chúng tôi. Đặt cấu hình của nó như sau:
Relative (%) : 95
Draw Randomly
Ảnh chụp màn hình sau đây hiển thị các thông số cấu hình.
Tiếp theo, tạo kết nối giữa hai nút. Để làm như vậy, hãy nhấp vào đầu ra củaFile Reader nút, giữ nút chuột được nhấp, một đường dây cao su sẽ xuất hiện, hãy kéo nó đến đầu vào của Partitioningnút, thả nút chuột. Một kết nối hiện đã được thiết lập giữa hai nút.
Thêm chú thích, thay đổi mô tả, định vị nút và chế độ xem chú thích như mong muốn. Màn hình của bạn sẽ trông giống như sau ở giai đoạn này:
Tiếp theo, chúng tôi sẽ thêm k-Means nút.
Thêm nút k-Means
Chọn k-Meanstừ kho lưu trữ và thêm nó vào không gian làm việc. Nếu bạn muốn nâng cao kiến thức của mình về thuật toán k-Means, chỉ cần tra cứu mô tả của nó trong chế độ xem mô tả của bàn làm việc. Điều này được hiển thị trong ảnh chụp màn hình bên dưới -
Ngẫu nhiên, bạn có thể tra cứu mô tả của các thuật toán khác nhau trong cửa sổ mô tả trước khi đưa ra quyết định cuối cùng về việc sử dụng thuật toán nào.
Mở hộp thoại cấu hình cho nút. Chúng tôi sẽ sử dụng các giá trị mặc định cho tất cả các trường như được hiển thị ở đây -
Nhấp chuột OK để chấp nhận các giá trị mặc định và để đóng hộp thoại.
Đặt chú thích và mô tả như sau:
Chú thích: Phân loại các cụm
Mô tả: Thực hiện phân cụm
Kết nối đầu ra hàng đầu của Partitioning nút đầu vào của k-Meansnút. Đặt lại vị trí các mục của bạn và màn hình của bạn sẽ giống như sau:
Tiếp theo, chúng tôi sẽ thêm một Cluster Assigner nút.
Thêm người chỉ định cụm
Các Cluster Assignergán dữ liệu mới cho một nhóm nguyên mẫu hiện có. Nó cần hai đầu vào - mô hình nguyên mẫu và tập dữ liệu chứa dữ liệu đầu vào. Tra cứu mô tả của nút trong cửa sổ mô tả được mô tả trong ảnh chụp màn hình bên dưới -
Vì vậy, đối với nút này, bạn phải thực hiện hai kết nối -
Đầu ra Mô hình Cụm PMML của Partitioning nút → Nguyên mẫu Đầu vào của Cluster Assigner
Đầu ra phân vùng thứ hai của Partitioning nút → Dữ liệu đầu vào của Cluster Assigner
Hai kết nối này được hiển thị trong ảnh chụp màn hình bên dưới -
Các Cluster Assignerkhông cần bất kỳ cấu hình đặc biệt. Chỉ cần chấp nhận các giá trị mặc định.
Bây giờ, hãy thêm một số chú thích và mô tả vào nút này. Sắp xếp lại các nút của bạn. Màn hình của bạn sẽ giống như sau:
Tại thời điểm này, việc phân cụm của chúng ta đã hoàn thành. Chúng ta cần hình dung đầu ra bằng đồ thị. Đối với điều này, chúng tôi sẽ thêm một biểu đồ phân tán. Chúng tôi sẽ đặt màu sắc và hình dạng cho ba lớp khác nhau trong biểu đồ phân tán. Do đó, chúng tôi sẽ lọc đầu ra củak-Means nút đầu tiên thông qua Color Manager nút và sau đó thông qua Shape Manager nút.
Thêm trình quản lý màu
Xác định vị trí Color Managernút trong kho. Thêm nó vào không gian làm việc. Để cấu hình ở chế độ mặc định. Lưu ý rằng bạn phải mở hộp thoại cấu hình và nhấnOKđể chấp nhận các giá trị mặc định. Đặt văn bản mô tả cho nút.
Tạo kết nối từ đầu ra của k-Means đầu vào của Color Manager. Màn hình của bạn sẽ giống như sau ở giai đoạn này -
Thêm Trình quản lý Hình dạng
Xác định vị trí Shape Managertrong kho lưu trữ và thêm nó vào không gian làm việc. Để cấu hình của nó về mặc định. Giống như phần trước, bạn phải mở hộp thoại cấu hình và nhấnOKđể đặt giá trị mặc định. Thiết lập kết nối từ đầu ra củaColor Manager đầu vào của Shape Manager. Đặt mô tả cho nút.
Màn hình của bạn sẽ giống như sau:
Bây giờ, bạn sẽ thêm nút cuối cùng trong mô hình của chúng tôi và đó là biểu đồ phân tán.
Thêm lô phân tán
Định vị Scatter Plotnút trong kho và thêm nó vào không gian làm việc. Kết nối đầu ra củaShape Manager đầu vào của Scatter Plot. Để cấu hình ở chế độ mặc định. Đặt mô tả.
Cuối cùng, thêm chú thích nhóm vào ba nút được thêm gần đây
Chú thích: Hình ảnh hóa
Định vị lại các nút như mong muốn. Màn hình của bạn sẽ trông giống như sau ở giai đoạn này.
Điều này hoàn thành nhiệm vụ xây dựng mô hình.
Để kiểm tra mô hình, hãy thực hiện các tùy chọn menu sau: Node → Execute All
Nếu mọi thứ diễn ra chính xác, tín hiệu trạng thái ở cuối mỗi nút sẽ chuyển sang màu xanh lục. Nếu không, bạn sẽ cần phải tra cứuConsole xem các lỗi, sửa chúng và chạy lại quy trình làm việc.
Bây giờ, bạn đã sẵn sàng để hình dung đầu ra dự đoán của mô hình. Đối với điều này, nhấp chuột phải vàoScatter Plot và chọn các tùy chọn menu sau: Interactive View: Scatter Plot
Điều này được hiển thị trong ảnh chụp màn hình bên dưới -
Bạn sẽ thấy biểu đồ phân tán trên màn hình như được hiển thị ở đây -
Bạn có thể chạy qua các hình ảnh trực quan khác nhau bằng cách thay đổi trục x và y. Để làm như vậy, hãy nhấp vào menu cài đặt ở góc trên cùng bên phải của biểu đồ phân tán. Một menu bật lên sẽ xuất hiện như trong ảnh chụp màn hình bên dưới -
Bạn có thể đặt các thông số khác nhau cho biểu đồ trên màn hình này để trực quan hóa dữ liệu từ một số khía cạnh.
Điều này hoàn thành nhiệm vụ xây dựng mô hình của chúng tôi.
KNIME cung cấp một công cụ đồ họa để xây dựng các mô hình Học máy. Trong hướng dẫn này, bạn đã học cách tải xuống và cài đặt KNIME trên máy tính của mình.
Tóm lược
Bạn đã học được các dạng xem khác nhau được cung cấp trong bàn làm việc KNIME. KNIME cung cấp một số quy trình làm việc được xác định trước cho việc học của bạn. Chúng tôi đã sử dụng một quy trình làm việc như vậy để tìm hiểu các khả năng của KNIME. KNIME cung cấp một số nút được lập trình sẵn để đọc dữ liệu ở nhiều định dạng khác nhau, phân tích dữ liệu bằng cách sử dụng một số thuật toán ML và cuối cùng là trực quan hóa dữ liệu theo nhiều cách khác nhau. Đến cuối hướng dẫn, bạn đã tạo mô hình của riêng mình từ đầu. Chúng tôi đã sử dụng tập dữ liệu mống mắt nổi tiếng để phân loại các loài thực vật bằng thuật toán k-Means.
Bây giờ bạn đã sẵn sàng sử dụng các kỹ thuật này cho phân tích của riêng mình.
Công việc tương lai
Nếu bạn là nhà phát triển và muốn sử dụng các thành phần KNIME trong các ứng dụng lập trình của mình, bạn sẽ rất vui khi biết rằng KNIME tích hợp nguyên bản với nhiều loại ngôn ngữ lập trình như Java, R, Python và nhiều ngôn ngữ lập trình khác.