KNIME: exploración del flujo de trabajo

Si revisa los nodos en el flujo de trabajo, puede ver que contiene lo siguiente:

  • Lector de archivos,

  • Administrador de color

  • Partitioning

  • Aprendiz del árbol de decisiones

  • Predictor de árbol de decisión

  • Score

  • Mesa interactiva

  • Gráfico de dispersión

  • Statistics

Estos se ven fácilmente en el Outline ver como se muestra aquí -

Cada nodo proporciona una funcionalidad específica en el flujo de trabajo. Ahora veremos cómo configurar estos nodos para cumplir con la funcionalidad deseada. Tenga en cuenta que analizaremos solo los nodos que son relevantes para nosotros en el contexto actual de exploración del flujo de trabajo.

Lector de archivos

El nodo Lector de archivos se muestra en la captura de pantalla a continuación:

Hay una descripción en la parte superior de la ventana proporcionada por el creador del flujo de trabajo. Indica que este nodo lee el conjunto de datos de adultos. El nombre del archivo esadult.csvcomo se ve en la descripción debajo del símbolo del nodo. losFile Reader tiene dos salidas - una va a Color Manager nodo y el otro va a Statistics nodo.

Si hace clic derecho en el File Manager, un menú emergente se mostraría de la siguiente manera:

los ConfigureLa opción de menú permite la configuración del nodo. losExecutemenú ejecuta el nodo. Tenga en cuenta que si el nodo ya se ha ejecutado y está en verde, este menú está desactivado. Además, tenga en cuenta la presencia deEdit Note Descriptionopción de menú. Esto le permite escribir la descripción de su nodo.

Ahora, seleccione el Configure opción de menú, muestra la pantalla que contiene los datos del archivo adult.csv como se ve en la captura de pantalla aquí -

Cuando ejecute este nodo, los datos se cargarán en la memoria. Todo el código del programa de carga de datos está oculto al usuario. Ahora puede apreciar la utilidad de dichos nodos, no se requiere codificación.

Nuestro siguiente nodo es el Color Manager.

Administrador de color

Selecciona el Color Managernodo y acceda a su configuración haciendo clic derecho sobre él. Aparecerá un cuadro de diálogo de configuración de colores. Selecciona elincome columna de la lista desplegable.

Su pantalla se vería así:

Observe la presencia de dos restricciones. Si el ingreso es menor a 50K, el punto de datos adquirirá color verde y si es mayor se pondrá rojo. Verá las asignaciones de puntos de datos cuando miremos el diagrama de dispersión más adelante en este capítulo.

Fraccionamiento

En el aprendizaje automático, generalmente dividimos todos los datos disponibles en dos partes. La mayor parte se usa para entrenar el modelo, mientras que la parte más pequeña se usa para probar. Se utilizan diferentes estrategias para particionar los datos.

Para definir la partición deseada, haga clic derecho en el Partitioning nodo y seleccione el Configureopción. Vería la siguiente pantalla:

En el caso, el modelador del sistema ha utilizado el Relative(%) y los datos se dividen en una proporción de 80:20. Al hacer la división, los puntos de datos se recogen al azar. Esto garantiza que sus datos de prueba no estén sesgados. En el caso del muestreo lineal, es posible que el 20% restante de los datos utilizados para las pruebas no representen correctamente los datos de entrenamiento, ya que pueden estar totalmente sesgados durante su recopilación.

Si está seguro de que durante la recopilación de datos, la aleatoriedad está garantizada, puede seleccionar el muestreo lineal. Una vez que sus datos estén listos para entrenar el modelo, transfiéralos al siguiente nodo, que es elDecision Tree Learner.

Aprendiz del árbol de decisiones

los Decision Tree Learnernodo, como su nombre indica, utiliza los datos de entrenamiento y crea un modelo. Consulte la configuración de este nodo, que se muestra en la captura de pantalla a continuación:

Como ves el Class es income. Por lo tanto, el árbol se construiría en función de la columna de ingresos y eso es lo que estamos tratando de lograr en este modelo. Queremos una separación de las personas que tienen ingresos superiores o inferiores a 50 mil.

Una vez que este nodo se ejecute correctamente, su modelo estará listo para la prueba.

Predictor de árbol de decisión

El nodo Predictor de árbol de decisión aplica el modelo desarrollado al conjunto de datos de prueba y agrega las predicciones del modelo.

La salida del predictor se alimenta a dos nodos diferentes: Scorer y Scatter Plot. A continuación, examinaremos el resultado de la predicción.

Goleador

Este nodo genera el confusion matrix. Para verlo, haga clic derecho en el nodo. Verá el siguiente menú emergente:

Haga clic en el View: Confusion Matrix opción de menú y la matriz aparecerá en una ventana separada como se muestra en la captura de pantalla aquí -

Indica que la precisión de nuestro modelo desarrollado es 83,71%. Si no está satisfecho con esto, puede jugar con otros parámetros en la construcción de modelos, especialmente, es posible que desee volver a visitar y limpiar sus datos.

Gráfico de dispersión

Para ver el diagrama de dispersión de la distribución de datos, haga clic derecho en el Scatter Plot nodo y seleccione la opción de menú Interactive View: Scatter Plot. Verá la siguiente trama:

El gráfico muestra la distribución de personas de diferentes grupos de ingresos según el umbral de 50 mil en dos puntos de diferentes colores: rojo y azul. Estos eran los colores establecidos en nuestroColor Managernodo. La distribución es relativa a la edad como se muestra en el eje x. Puede seleccionar una función diferente para el eje x cambiando la configuración del nodo.

El diálogo de configuración se muestra aquí donde hemos seleccionado el marital-status como característica para el eje x.

Esto completa nuestra discusión sobre el modelo predefinido proporcionado por KNIME. Le sugerimos que tome los otros dos nodos (Estadísticas y Tabla interactiva) en el modelo para su autoestudio.

Pasemos ahora a la parte más importante del tutorial: crear su propio modelo.