KNIME - Szybki przewodnik

Tworzenie modeli uczenia maszynowego jest zawsze uważane za bardzo trudne ze względu na jego tajemniczy charakter. Ogólnie rzecz biorąc, aby tworzyć aplikacje do uczenia maszynowego, musisz być dobrym programistą z doświadczeniem w programowaniu sterowanym poleceniami. Wprowadzenie KNIME przyniosło rozwój modeli uczenia maszynowego w kompetencji zwykłego człowieka.

KNIME zapewnia interfejs graficzny (przyjazny dla użytkownika GUI) dla całego rozwoju. W KNIME wystarczy zdefiniować przepływ pracy między różnymi predefiniowanymi węzłami dostępnymi w jego repozytorium. KNIME udostępnia kilka predefiniowanych komponentów zwanych węzłami do różnych zadań, takich jak odczytywanie danych, stosowanie różnych algorytmów ML i wizualizacja danych w różnych formatach. Dlatego do pracy z KNIME nie jest wymagana znajomość programowania. Czy to nie jest ekscytujące?

W kolejnych rozdziałach tego samouczka nauczysz się, jak opanować analizę danych za pomocą kilku dobrze przetestowanych algorytmów ML.

Platforma KNIME Analytics jest dostępna dla systemów Windows, Linux i MacOS. W tym rozdziale przyjrzyjmy się krokom instalacji platformy na komputerze Mac. Jeśli używasz systemu Windows lub Linux, postępuj zgodnie z instrukcjami instalacji podanymi na stronie pobierania KNIME. Instalacja binarna dla wszystkich trzech platform jest dostępna na stronie KNIME .

Instalacja na komputerze Mac

Pobierz instalację binarną z oficjalnej strony KNIME. Kliknij dwukrotnie pobrany plikdmgplik, aby rozpocząć instalację. Po zakończeniu instalacji po prostu przeciągnij ikonę KNIME do folderu Aplikacje, jak widać tutaj -

Kliknij dwukrotnie ikonę KNIME, aby uruchomić platformę KNIME Analytics. Początkowo zostaniesz poproszony o skonfigurowanie folderu obszaru roboczego do zapisywania pracy. Twój ekran będzie wyglądał następująco -

Możesz ustawić wybrany folder jako domyślny i następnym razem, gdy uruchomisz KNIME, nie będzie

pokaż ponownie to okno dialogowe.

Po chwili platforma KNIME uruchomi się na Twoim pulpicie. To jest stół roboczy, w którym będziesz wykonywać swoje prace analityczne. Przyjrzyjmy się teraz różnym częściom stołu warsztatowego.

Po uruchomieniu KNIME zobaczysz następujący ekran -

Jak zaznaczono na zrzucie ekranu, stół warsztatowy składa się z kilku widoków. Widoki, które są dla nas natychmiast użyteczne, są zaznaczone na zrzucie ekranu i wymienione poniżej -

  • Workspace

  • Outline

  • Repozytorium węzłów

  • KNIME Explorer

  • Console

  • Description

Idąc dalej w tym rozdziale, poznajmy szczegółowo każdy z tych poglądów.

Widok obszaru roboczego

Najważniejszym dla nas widokiem jest Workspacewidok. Tutaj możesz utworzyć model uczenia maszynowego. Widok obszaru roboczego jest wyróżniony na zrzucie ekranu poniżej -

Zrzut ekranu przedstawia otwarty obszar roboczy. Wkrótce dowiesz się, jak otworzyć istniejący obszar roboczy.

Każdy obszar roboczy zawiera jeden lub więcej węzłów. W dalszej części samouczka nauczysz się znaczenia tych węzłów. Węzły są połączone za pomocą strzałek. Generalnie przebieg programu jest definiowany od lewej do prawej, chociaż nie jest to wymagane. Możesz dowolnie przenosić każdy węzeł w dowolne miejsce w obszarze roboczym. Linie łączące między nimi poruszałyby się odpowiednio, aby utrzymać połączenie między węzłami. W dowolnym momencie możesz dodawać / usuwać połączenia między węzłami. Dla każdego węzła można opcjonalnie dodać mały opis.

Widok konspektu

Widok obszaru roboczego może nie być w stanie pokazać całego przepływu pracy naraz. Z tego powodu przedstawiono widok konspektu.

Widok konspektu przedstawia miniaturowy widok całego obszaru roboczego. W tym widoku znajduje się okno powiększenia, które można przesuwać, aby zobaczyć różne części przepływu pracy wWorkspace widok.

Repozytorium węzłów

To kolejny ważny widok w warsztacie. Repozytorium węzłów zawiera listę różnych węzłów dostępnych do analizy. Całe repozytorium jest ładnie podzielone na kategorie w oparciu o funkcje węzłów. Znajdziesz kategorie takie jak -

  • IO

  • Views

  • Analytics

W każdej kategorii znajdziesz kilka opcji. Po prostu rozwiń każdy widok kategorii, aby zobaczyć, co tam masz. PodIO w kategorii znajdziesz węzły do ​​odczytu danych w różnych formatach plików, takich jak ARFF, CSV, PMML, XLS itp.

W zależności od formatu danych wejściowych wybierz odpowiedni węzeł do odczytu zbioru danych.

Do tego czasu prawdopodobnie zrozumiałeś przeznaczenie węzła. Węzeł definiuje pewien rodzaj funkcji, które można wizualnie uwzględnić w przepływie pracy.

Węzeł Analytics definiuje różne algorytmy uczenia maszynowego, takie jak Bayes, klastrowanie, drzewo decyzyjne, uczenie zespołowe i tak dalej.

Implementacja tych różnych algorytmów ML jest zapewniona w tych węzłach. Aby zastosować dowolny algorytm w analityce, po prostu wybierz żądany węzeł z repozytorium i dodaj go do swojego obszaru roboczego. Połącz dane wyjściowe węzła czytnika danych z wejściem tego węzła ML, a przepływ pracy zostanie utworzony.

Sugerujemy zbadanie różnych węzłów dostępnych w repozytorium.

KNIME Explorer

Kolejnym ważnym widokiem w środowisku roboczym jest plik Explorer widok, jak pokazano na zrzucie ekranu poniżej -

Pierwsze dwie kategorie obejmują obszary robocze zdefiniowane na serwerze KNIME. Trzecia opcja LOKALNIE służy do przechowywania wszystkich obszarów roboczych utworzonych na komputerze lokalnym. Spróbuj rozwinąć te karty, aby zobaczyć różne wstępnie zdefiniowane obszary robocze. Szczególnie rozwiń zakładkę PRZYKŁADY.

KNIME podaje kilka przykładów ułatwiających rozpoczęcie pracy z platformą. W następnym rozdziale użyjesz jednego z tych przykładów, aby zapoznać się z platformą.

Widok konsoli

Jak nazwa wskazuje, rozszerzenie Console Widok zapewnia widok różnych komunikatów konsoli podczas wykonywania przepływu pracy.

Plik Console Widok jest przydatny w diagnozowaniu przepływu pracy i badaniu wyników analizy.

Widok opisu

Ostatnim ważnym poglądem, który ma dla nas bezpośrednie znaczenie, jest Descriptionwidok. Ten widok zawiera opis wybranego elementu w obszarze roboczym. Typowy widok pokazano na poniższym zrzucie ekranu -

Powyższy widok przedstawia opis pliku File Readerwęzeł. Po wybraniu plikuFile Readerwęzeł w obszarze roboczym, zobaczysz jego opis w tym widoku. Kliknięcie dowolnego innego węzła powoduje wyświetlenie opisu wybranego węzła. W ten sposób widok ten staje się bardzo przydatny na początkowych etapach uczenia się, gdy nie znasz dokładnie celu różnych węzłów w obszarze roboczym i / lub repozytorium węzłów.

pasek narzędzi

Oprócz wyżej opisanych widoków, Środowisko pracy ma inne widoki, takie jak pasek narzędzi. Pasek narzędzi zawiera różne ikony, które ułatwiają szybką akcję. Ikony są włączane / wyłączane w zależności od kontekstu. Możesz zobaczyć akcję, którą wykonuje każda ikona, najeżdżając na nią myszą. Poniższy ekran przedstawia akcję wykonaną przezConfigure Ikona.

Włączanie / wyłączanie widoków

Różne widoki, które widziałeś do tej pory, można łatwo włączyć / wyłączyć. Kliknięcie ikony Zamknij w widoku spowodujeclosewidok. Aby przywrócić widok, przejdź doViewopcję menu i wybierz żądany widok. Wybrany widok zostanie dodany do stołu roboczego.

Teraz, po zapoznaniu się ze środowiskiem pracy, pokażę Ci, jak uruchomić przepływ pracy i zbadać wykonywane przez niego analizy.

KNIME zapewnił kilka dobrych przepływów pracy ułatwiających naukę. W tym rozdziale omówimy jeden z obiegów pracy dostarczonych podczas instalacji, aby wyjaśnić różne funkcje i możliwości platformy analitycznej. Użyjemy prostego klasyfikatora opartego naDecision Tree do naszego badania.

Ładowanie klasyfikatora drzewa decyzyjnego

W KNIME Explorer zlokalizuj następujący przepływ pracy -

LOCAL / Example Workflows / Basic Examples / Building a Simple Classifier

Jest to również pokazane na poniższym zrzucie ekranu w celu szybkiego odniesienia -

Kliknij dwukrotnie wybrany element, aby otworzyć przepływ pracy. Obserwuj widok obszaru roboczego. Zobaczysz przepływ pracy zawierający kilka węzłów. Celem tego przepływu pracy jest przewidzenie grupy dochodowej na podstawie demokratycznych atrybutów zbioru danych dla dorosłych pobranych z repozytorium UCI Machine Learning. Zadaniem tego modelu ML jest sklasyfikowanie ludzi w określonym regionie jako mających dochody większe lub mniejsze niż 50 tys.

Plik Workspace widok wraz z jego zarysem pokazano na zrzucie ekranu poniżej -

Zwróć uwagę na obecność kilku węzłów pobranych z Nodesrepozytorium i połączone w przepływie pracy strzałkami. Połączenie wskazuje, że dane wyjściowe jednego węzła są podawane na wejście następnego węzła. Zanim poznamy funkcjonalność każdego z węzłów w workflow, przeprowadźmy najpierw cały workflow.

Wykonywanie przepływu pracy

Zanim przyjrzymy się wykonaniu przepływu pracy, ważne jest, aby zrozumieć raport o stanie każdego węzła. Sprawdź dowolny węzeł w przepływie pracy. U dołu każdego węzła można znaleźć wskaźnik stanu zawierający trzy okręgi. Węzeł ucznia drzewa decyzyjnego pokazano na zrzucie ekranu poniżej -

Wskaźnik stanu ma kolor czerwony, co oznacza, że ​​ten węzeł nie został jeszcze wykonany. Podczas wykonania zaświeci się środkowe kółko koloru żółtego. Po pomyślnym wykonaniu ostatni okrąg zmienia kolor na zielony. Istnieje więcej wskaźników podających informacje o stanie w przypadku błędów. Dowiesz się ich, gdy wystąpi błąd w przetwarzaniu.

Zauważ, że obecnie wskaźniki na wszystkich węzłach są czerwone, co oznacza, że ​​żaden węzeł nie został jeszcze wykonany. Aby uruchomić wszystkie węzły, kliknij następującą pozycję menu -

Node → Execute All

Po chwili zauważysz, że każdy wskaźnik stanu węzła zmienił kolor na zielony, wskazując, że nie ma błędów.

W następnym rozdziale zbadamy funkcjonalność różnych węzłów w przepływie pracy.

Jeśli wyewidencjonujesz węzły w przepływie pracy, zobaczysz, że zawiera on następujące elementy -

  • Czytnik plików,

  • Menedżer kolorów

  • Partitioning

  • Uczeń drzewa decyzyjnego

  • Predyktor drzewa decyzyjnego

  • Score

  • Interaktywny stół

  • Wykres punktowy

  • Statistics

Są one łatwo widoczne w Outline widok, jak pokazano tutaj -

Każdy węzeł zapewnia określoną funkcjonalność w przepływie pracy. Przyjrzymy się teraz, jak skonfigurować te węzły, aby spełniały żądaną funkcjonalność. Pamiętaj, że omówimy tylko te węzły, które są dla nas istotne w bieżącym kontekście eksploracji przepływu pracy.

Czytnik plików

Węzeł czytnika plików jest przedstawiony na zrzucie ekranu poniżej -

W górnej części okna znajduje się opis dostarczony przez twórcę przepływu pracy. Mówi, że ten węzeł czyta zestaw danych dla dorosłych. Nazwa pliku toadult.csvjak widać z opisu pod symbolem węzła. PlikFile Reader ma dwa wyjścia - jedno idzie do Color Manager węzeł, a drugi idzie do Statistics węzeł.

Jeśli klikniesz prawym przyciskiem myszy File Manager, menu podręczne wyświetli się w następujący sposób -

Plik Configureopcja menu umożliwia konfigurację węzła. PlikExecutemenu uruchamia węzeł. Zwróć uwagę, że jeśli węzeł został już uruchomiony i jest w stanie zielonym, to menu jest wyłączone. Zwróć także uwagę na obecnośćEdit Note Descriptionopcja menu. Dzięki temu możesz napisać opis swojego węzła.

Teraz wybierz plik Configure opcja menu, pokazuje ekran zawierający dane z pliku adult.csv, jak widać na zrzucie ekranu tutaj -

Po uruchomieniu tego węzła dane zostaną załadowane do pamięci. Cały kod programu ładującego dane jest ukryty przed użytkownikiem. Możesz teraz docenić użyteczność takich węzłów - nie jest wymagane kodowanie.

Nasz następny węzeł to Color Manager.

Menedżer kolorów

Wybierz Color Managerwęzeł i przejdź do jego konfiguracji, klikając go prawym przyciskiem myszy. Pojawi się okno dialogowe ustawień kolorów. Wybierzincome kolumna z listy rozwijanej.

Twój ekran wyglądałby następująco -

Zwróć uwagę na obecność dwóch wiązań. Jeśli dochód jest mniejszy niż 50K, punkt danych przybiera kolor zielony, a jeśli jest większy, przybiera kolor czerwony. Mapowanie punktów danych zobaczysz, gdy spojrzymy na wykres punktowy w dalszej części tego rozdziału.

Partycjonowanie

W uczeniu maszynowym zwykle dzielimy całe dostępne dane na dwie części. Większa część jest używana do trenowania modelu, a mniejsza do testowania. Istnieją różne strategie partycjonowania danych.

Aby zdefiniować żądane partycjonowanie, kliknij prawym przyciskiem myszy plik Partitioning węzeł i wybierz Configureopcja. Zobaczysz następujący ekran -

W tym przypadku modelarz systemu użył rozszerzenia Relative(%), a dane są podzielone w stosunku 80:20. Podczas podziału punkty danych są zbierane losowo. Gwarantuje to, że dane testowe nie będą stronnicze. W przypadku próbkowania liniowego pozostałe 20% danych użytych do testowania może nie odzwierciedlać poprawnie danych uczących, ponieważ podczas ich gromadzenia mogą być całkowicie obciążone.

Jeśli masz pewność, że podczas zbierania danych losowość jest gwarantowana, możesz wybrać próbkowanie liniowe. Gdy dane będą gotowe do trenowania modelu, przekaż je do następnego węzła, którym jestDecision Tree Learner.

Uczeń drzewa decyzyjnego

Plik Decision Tree Learnerwęzeł, jak nazwa sugeruje, wykorzystuje dane szkoleniowe i buduje model. Sprawdź ustawienia konfiguracji tego węzła, które przedstawiono na zrzucie ekranu poniżej -

Jak widzisz Class jest income. W ten sposób drzewo byłoby zbudowane w oparciu o kolumnę dochodów i to właśnie staramy się osiągnąć w tym modelu. Chcemy oddzielenia osób o dochodach większych lub mniejszych niż 50 tys.

Po pomyślnym uruchomieniu tego węzła model będzie gotowy do testowania.

Predyktor drzewa decyzyjnego

Węzeł Predyktor drzewa decyzyjnego stosuje opracowany model do zestawu danych testowych i dołącza przewidywania modelu.

Dane wyjściowe predyktora są podawane do dwóch różnych węzłów - Scorer i Scatter Plot. Następnie przeanalizujemy wynik prognozowania.

Markier

Ten węzeł generuje confusion matrix. Aby go wyświetlić, kliknij prawym przyciskiem myszy węzeł. Zobaczysz następujące menu podręczne -

Kliknij View: Confusion Matrix opcja menu i matryca pojawią się w osobnym oknie, jak pokazano na zrzucie ekranu tutaj -

Oznacza to, że dokładność opracowanego przez nas modelu wynosi 83,71%. Jeśli nie jesteś z tego zadowolony, możesz pobawić się innymi parametrami w budowaniu modelu, zwłaszcza możesz ponownie odwiedzić i wyczyścić swoje dane.

Wykres punktowy

Aby zobaczyć wykres punktowy rozkładu danych, kliknij prawym przyciskiem myszy plik Scatter Plot węzeł i wybierz opcję menu Interactive View: Scatter Plot. Zobaczysz następującą fabułę -

Fabuła przedstawia rozkład osób w różnych grupach dochodowych na podstawie progu 50 tys. W dwóch różnokolorowych kropkach - czerwonej i niebieskiej. To były kolory ustawione w naszymColor Managerwęzeł. Rozkład jest odniesiony do wieku wykreślonego na osi X. Możesz wybrać inną funkcję dla osi X, zmieniając konfigurację węzła.

Okno dialogowe konfiguracji jest pokazane tutaj, gdzie wybraliśmy plik marital-status jako funkcja osi X.

To kończy naszą dyskusję na temat predefiniowanego modelu dostarczonego przez KNIME. Sugerujemy, aby w modelu do samodzielnej nauki uwzględnić dwa pozostałe węzły (Statystyka i Tabela interaktywna).

Przejdźmy teraz do najważniejszej części samouczka - tworzenia własnego modelu.

W tym rozdziale zbudujesz własny model uczenia maszynowego, aby sklasyfikować rośliny na podstawie kilku obserwowanych funkcji. Skorzystamy z dobrze znanegoiris zbiór danych z UCI Machine Learning Repositoryw tym celu. Zbiór danych zawiera trzy różne klasy roślin. Będziemy trenować nasz model, aby zaklasyfikować nieznaną roślinę do jednej z tych trzech klas.

Zaczniemy od stworzenia nowego przepływu pracy w KNIME do tworzenia naszych modeli uczenia maszynowego.

Tworzenie przepływu pracy

Aby utworzyć nowy przepływ pracy, wybierz następującą opcję menu w środowisku roboczym KNIME.

File → New

Zobaczysz następujący ekran -

Wybierz New KNIME Workflow opcję i kliknij Nextprzycisk. Na następnym ekranie zostaniesz poproszony o wybraną nazwę przepływu pracy i folder docelowy do jego zapisania. Wprowadź żądane informacje i kliknijFinish aby utworzyć nowy obszar roboczy.

Nowy obszar roboczy o podanej nazwie zostałby dodany do pliku Workspace zobacz jak tutaj -

Teraz dodasz różne węzły w tym obszarze roboczym, aby utworzyć model. Przed dodaniem węzłów musisz pobrać i przygotować plikiris zbiór danych do naszego użytku.

Przygotowywanie zbioru danych

Pobierz zestaw danych tęczówki z witryny repozytorium UCI Machine Learning. Pobierz zestaw danych Iris . Pobrany plik iris.data jest w formacie CSV. Wprowadzimy w nim pewne zmiany, aby dodać nazwy kolumn.

Otwórz pobrany plik w swoim ulubionym edytorze tekstu i dodaj na początku następujący wiersz.

sepal length, petal length, sepal width, petal width, class

Kiedy nasz File Reader node czyta ten plik, automatycznie przyjmie powyższe pola jako nazwy kolumn.

Teraz zaczniesz dodawać różne węzły.

Dodawanie czytnika plików

Przejdź do Node Repository widoku, wpisz „plik” w polu wyszukiwania, aby zlokalizować plik File Readerwęzeł. Widać to na poniższym zrzucie ekranu -

Wybierz i kliknij dwukrotnie plik File Readeraby dodać węzeł do obszaru roboczego. Alternatywnie możesz użyć funkcji przeciągnij i upuść, aby dodać węzeł do obszaru roboczego. Po dodaniu węzła będziesz musiał go skonfigurować. Kliknij prawym przyciskiem myszy węzeł i wybierz plikConfigureopcja menu. Zrobiłeś to na poprzedniej lekcji.

Po załadowaniu pliku danych ekran ustawień wygląda następująco.

Aby załadować zestaw danych, kliknij plik Browsei wybierz lokalizację pliku iris.data. Węzeł załaduje zawartość pliku, która jest wyświetlana w dolnej części okna konfiguracyjnego. Po upewnieniu się, że plik danych jest prawidłowo zlokalizowany i załadowany, kliknij plikOK aby zamknąć okno konfiguracji.

Teraz dodasz adnotację do tego węzła. Kliknij prawym przyciskiem myszy węzeł i wybierzNew Workflow Annotationopcja menu. Na ekranie pojawi się pole adnotacji, jak pokazano na zrzucie ekranu:

Kliknij w polu i dodaj następującą adnotację -

Reads iris.data

Kliknij w dowolnym miejscu poza polem, aby wyjść z trybu edycji. Zmień rozmiar i umieść ramkę wokół węzła według potrzeb. Na koniec kliknij dwukrotnie plikNode 1 tekst pod węzłem, aby zmienić ten ciąg na następujący -

Loads data

W tym momencie ekran wyglądałby następująco -

Dodamy teraz nowy węzeł do partycjonowania załadowanego zestawu danych na szkolenia i testy.

Dodawanie węzła partycjonowania

w Node Repository okno wyszukiwania, wpisz kilka znaków, aby zlokalizować plik Partitioning węzeł, jak widać na poniższym zrzucie ekranu -

Dodaj węzeł do naszego obszaru roboczego. Ustaw jego konfigurację w następujący sposób -

Relative (%) : 95
Draw Randomly

Poniższy zrzut ekranu przedstawia parametry konfiguracyjne.

Następnie wykonaj połączenie między dwoma węzłami. Aby to zrobić, kliknij dane wyjściowe plikuFile Reader Węzeł, przytrzymaj przycisk myszy, pojawi się gumka, przeciągnij ją do wejścia Partitioningwęzeł, zwolnij przycisk myszy. Połączenie między dwoma węzłami jest teraz ustanawiane.

Dodaj adnotację, zmień opis, umieść węzeł i widok adnotacji według potrzeb. Na tym etapie ekran powinien wyglądać następująco -

Następnie dodamy k-Means węzeł.

Dodawanie węzła k-Means

Wybierz k-Meanswęzeł z repozytorium i dodaj go do obszaru roboczego. Jeśli chcesz odświeżyć swoją wiedzę na temat algorytmu k-Means, po prostu sprawdź jego opis w widoku opisu w środowisku roboczym. Jest to pokazane na poniższym zrzucie ekranu -

Nawiasem mówiąc, możesz przejrzeć opis różnych algorytmów w oknie opisu, zanim podejmiesz ostateczną decyzję, którego użyć.

Otwórz okno dialogowe konfiguracji węzła. Użyjemy wartości domyślnych dla wszystkich pól, jak pokazano tutaj -

Kliknij OK aby zaakceptować ustawienia domyślne i zamknąć okno dialogowe.

Ustaw następującą adnotację i opis -

  • Adnotacja: klasyfikuj klastry

  • Opis: wykonaj grupowanie

Podłącz górne wyjście Partitioning węzeł do wejścia k-Meanswęzeł. Zmień położenie przedmiotów, a ekran powinien wyglądać następująco -

Następnie dodamy plik Cluster Assigner węzeł.

Dodawanie przypisania klastra

Plik Cluster Assignerprzypisuje nowe dane do istniejącego zestawu prototypów. Wymaga dwóch danych wejściowych - modelu prototypowego i bazy danych zawierającej dane wejściowe. Sprawdź opis węzła w oknie opisu pokazanym na zrzucie ekranu poniżej -

Dlatego dla tego węzła musisz wykonać dwa połączenia -

  • Wynik modelu klastra PMML w programie Partitioning węzeł → Prototypy Wejście Cluster Assigner

  • Wyjście drugiej partycji Partitioning węzeł → Dane wejściowe Cluster Assigner

Te dwa połączenia pokazano na poniższym zrzucie ekranu -

Plik Cluster Assignernie wymaga specjalnej konfiguracji. Po prostu zaakceptuj wartości domyślne.

Teraz dodaj adnotację i opis do tego węzła. Zmień rozmieszczenie węzłów. Twój ekran powinien wyglądać następująco -

W tym momencie nasze grupowanie jest zakończone. Musimy wizualizować dane wyjściowe graficznie. W tym celu dodamy wykres punktowy. Na wykresie punktowym inaczej ustawimy kolory i kształty dla trzech klas. W ten sposób będziemy filtrować dane wyjściowek-Means węzeł najpierw przez Color Manager węzeł, a następnie przez Shape Manager węzeł.

Dodawanie menedżera kolorów

Znajdź plik Color Managerwęzeł w repozytorium. Dodaj go do obszaru roboczego. Pozostaw konfigurację do ustawień domyślnych. Zauważ, że musisz otworzyć okno konfiguracji i nacisnąćOKaby zaakceptować wartości domyślne. Ustaw tekst opisu dla węzła.

Nawiąż połączenie z wyjścia k-Means do wejścia Color Manager. Na tym etapie Twój ekran wyglądałby następująco -

Dodawanie menedżera kształtów

Znajdź plik Shape Managerw repozytorium i dodaj go do obszaru roboczego. Pozostaw konfigurację domyślną. Podobnie jak w poprzednim, musisz otworzyć okno konfiguracji i nacisnąćOKustawić wartości domyślne. Nawiąż połączenie z danych wyjściowych programuColor Manager do wejścia Shape Manager. Ustaw opis węzła.

Twój ekran powinien wyglądać następująco -

Teraz dodasz ostatni węzeł w naszym modelu, a jest to wykres punktowy.

Dodawanie wykresu punktowego

Znajdź Scatter Plotwęzeł w repozytorium i dodaj go do obszaru roboczego. Podłącz wyjścieShape Manager do wejścia Scatter Plot. Pozostaw konfigurację domyślną. Ustaw opis.

Na koniec dodaj adnotację grupy do ostatnio dodanych trzech węzłów

Adnotacja: wizualizacja

Zmień położenie węzłów według potrzeb. Na tym etapie Twój ekran powinien wyglądać następująco.

To kończy zadanie budowania modelu.

Aby przetestować model, wykonaj następujące opcje menu: NodeExecute All

Jeśli wszystko pójdzie dobrze, sygnał stanu na dole każdego węzła zmieni kolor na zielony. Jeśli nie, będziesz musiał sprawdzićConsole przejrzyj błędy, napraw je i ponownie uruchom przepływ pracy.

Teraz jesteś gotowy do wizualizacji przewidywanego wyniku modelu. W tym celu kliknij prawym przyciskiem myszy plikScatter Plot węzeł i wybierz następujące opcje menu: Interactive View: Scatter Plot

Jest to pokazane na poniższym zrzucie ekranu -

Na ekranie zobaczysz wykres punktowy, jak pokazano tutaj -

Możesz przeglądać różne wizualizacje, zmieniając oś X i Y. Aby to zrobić, kliknij menu ustawień w prawym górnym rogu wykresu punktowego. Pojawi się menu podręczne, jak pokazano na poniższym zrzucie ekranu -

Na tym ekranie można ustawić różne parametry wykresu, aby wizualizować dane z kilku aspektów.

To kończy nasze zadanie tworzenia modeli.

KNIME zapewnia graficzne narzędzie do tworzenia modeli uczenia maszynowego. W tym samouczku nauczyłeś się, jak pobrać i zainstalować KNIME na swoim komputerze.

Podsumowanie

Poznałeś różne widoki dostępne w środowisku roboczym KNIME. KNIME zapewnia kilka predefiniowanych przepływów pracy do nauki. Wykorzystaliśmy jeden z takich przepływów pracy, aby poznać możliwości KNIME. KNIME udostępnia kilka wstępnie zaprogramowanych węzłów do odczytu danych w różnych formatach, analizy danych za pomocą kilku algorytmów ML i wreszcie wizualizacji danych na wiele różnych sposobów. Pod koniec samouczka utworzyłeś swój własny model od zera. Użyliśmy dobrze znanego zestawu danych tęczówki, aby sklasyfikować rośliny za pomocą algorytmu k-średnich.

Jesteś teraz gotowy do użycia tych technik do własnych analiz.

Przyszła praca

Jeśli jesteś programistą i chciałbyś używać komponentów KNIME w swoich aplikacjach programistycznych, z przyjemnością dowiesz się, że KNIME natywnie integruje się z szeroką gamą języków programowania, takich jak Java, R, Python i wiele innych.