KNIME - Explorando o Fluxo de Trabalho

Se você verificar os nós no fluxo de trabalho, verá que ele contém o seguinte -

  • Leitor de arquivos,

  • Color Manager

  • Partitioning

  • Aprendiz da árvore de decisão

  • Preditor de árvore de decisão

  • Score

  • Mesa Interativa

  • Gráfico de dispersão

  • Statistics

Estes são facilmente vistos no Outline ver como mostrado aqui -

Cada nó fornece uma funcionalidade específica no fluxo de trabalho. Veremos agora como configurar esses nós para atender à funcionalidade desejada. Observe que discutiremos apenas os nós que são relevantes para nós no contexto atual de exploração do fluxo de trabalho.

Leitor de arquivos

O nó Leitor de arquivos é ilustrado na captura de tela abaixo -

Há alguma descrição na parte superior da janela fornecida pelo criador do fluxo de trabalho. Ele diz que esse nó lê o conjunto de dados adulto. O nome do arquivo éadult.csvconforme visto na descrição abaixo do símbolo do nó. oFile Reader tem duas saídas - uma vai para Color Manager nó e o outro vai para Statistics nó.

Se você clicar com o botão direito no File Manager, um menu pop-up seria exibido da seguinte maneira -

o ConfigureA opção de menu permite a configuração do nó. oExecutemenu executa o nó. Observe que, se o nó já tiver sido executado e estiver em um estado verde, este menu estará desabilitado. Além disso, observe a presença deEdit Note Descriptionopção de menu. Isso permite que você escreva a descrição do seu nó.

Agora, selecione o Configure opção de menu, ele mostra a tela que contém os dados do arquivo adult.csv como pode ser visto na imagem aqui -

Ao executar este nó, os dados serão carregados na memória. Todo o código do programa de carregamento de dados é escondido do usuário. Agora você pode apreciar a utilidade de tais nós - nenhuma codificação necessária.

Nosso próximo nó é o Color Manager.

Color Manager

Selecione os Color Managernó e entrar em sua configuração clicando com o botão direito nele. Uma caixa de diálogo de configurações de cores aparecerá. Selecione osincome coluna da lista suspensa.

Sua tela ficaria assim -

Observe a presença de duas restrições. Se o rendimento for inferior a 50K, o ponto de dados adquirirá a cor verde e se for superior ficará com a cor vermelha. Você verá os mapeamentos de pontos de dados quando examinarmos o gráfico de dispersão posteriormente neste capítulo.

Particionamento

No aprendizado de máquina, geralmente dividimos todos os dados disponíveis em duas partes. A parte maior é usada no treinamento do modelo, enquanto a parte menor é usada para teste. Existem diferentes estratégias usadas para particionar os dados.

Para definir o particionamento desejado, clique com o botão direito no Partitioning nó e selecione o Configureopção. Você veria a seguinte tela -

No caso, o modelador do sistema usou o Relative(%) e os dados são divididos na proporção de 80:20. Ao fazer a divisão, os pontos de dados são coletados aleatoriamente. Isso garante que seus dados de teste não sejam tendenciosos. No caso da amostragem Linear, os 20% restantes dos dados utilizados para o teste podem não representar corretamente os dados de treinamento, pois podem ser totalmente enviesados ​​durante sua coleta.

Se você tiver certeza de que durante a coleta de dados, a aleatoriedade é garantida, então você pode selecionar a amostragem linear. Assim que seus dados estiverem prontos para treinar o modelo, alimente-os para o próximo nó, que é oDecision Tree Learner.

Aprendiz da árvore de decisão

o Decision Tree Learnernó como o nome sugere usa os dados de treinamento e constrói um modelo. Verifique a definição de configuração deste nó, que é ilustrada na captura de tela abaixo -

Como você vê o Class é income. Assim, a árvore seria construída com base na coluna de receita e é isso que estamos tentando alcançar neste modelo. Queremos uma separação de pessoas com renda maior ou menor que 50 mil.

Depois que este nó for executado com sucesso, seu modelo estará pronto para teste.

Preditor de árvore de decisão

O nó Preditor de árvore de decisão aplica o modelo desenvolvido ao conjunto de dados de teste e anexa as previsões do modelo.

A saída do preditor é alimentada para dois nós diferentes - Scorer e Scatter Plot. A seguir, examinaremos a saída da previsão.

Marcador

Este nó gera o confusion matrix. Para visualizá-lo, clique com o botão direito no nó. Você verá o seguinte menu popup -

Clique no View: Confusion Matrix opção de menu e a matriz irá aparecer em uma janela separada, conforme mostrado na imagem aqui -

Isso indica que a precisão do nosso modelo desenvolvido é de 83,71%. Se não estiver satisfeito com isso, você pode brincar com outros parâmetros na construção do modelo, especialmente, você pode revisitar e limpar seus dados.

Gráfico de dispersão

Para ver o gráfico de dispersão da distribuição de dados, clique com o botão direito no Scatter Plot nó e selecione a opção de menu Interactive View: Scatter Plot. Você verá o seguinte gráfico -

O gráfico dá a distribuição de pessoas de diferentes grupos de renda com base no limite de 50K em dois pontos de cores diferentes - vermelho e azul. Estas foram as cores definidas em nossoColor Managernó. A distribuição é relativa à idade representada no eixo x. Você pode selecionar um recurso diferente para o eixo x, alterando a configuração do nó.

O diálogo de configuração é mostrado aqui, onde selecionamos o marital-status como um recurso para o eixo x.

Isso completa nossa discussão sobre o modelo predefinido fornecido pelo KNIME. Sugerimos que você pegue os outros dois nós (Estatísticas e Tabela Interativa) no modelo para seu auto-estudo.

Vamos agora passar para a parte mais importante do tutorial - criar seu próprio modelo.