KNIME - Menjelajahi Alur Kerja

Jika Anda memeriksa node dalam alur kerja, Anda dapat melihat bahwa itu berisi berikut ini -

Pembaca File,
Manajer Warna
Partitioning
Pelajar Pohon Keputusan
Prediktor Pohon Keputusan
Score
Tabel Interaktif
Plot Sebar
Statistics

Ini mudah dilihat di Outline lihat seperti yang ditunjukkan di sini -

Setiap node menyediakan fungsionalitas tertentu dalam alur kerja. Sekarang kita akan melihat cara mengkonfigurasi node ini untuk memenuhi fungsionalitas yang diinginkan. Harap perhatikan bahwa kami hanya akan membahas node yang relevan bagi kami dalam konteks saat ini untuk menjelajahi alur kerja.

Pembaca File

Node File Reader digambarkan pada gambar di bawah -

Ada beberapa deskripsi di bagian atas jendela yang disediakan oleh pembuat alur kerja. Ia memberitahu bahwa node ini membaca kumpulan data dewasa. Nama file tersebut adalahadult.csvseperti yang terlihat dari deskripsi di bawah simbol node. ItuFile Reader memiliki dua keluaran - satu pergi ke Color Manager simpul dan yang lainnya pergi ke Statistics simpul.

Jika Anda mengklik kanan file File Manager, menu popup akan muncul sebagai berikut -

Itu Configureopsi menu memungkinkan untuk konfigurasi node. ItuExecutemenu menjalankan node. Perhatikan bahwa jika node telah dijalankan dan jika dalam keadaan hijau, menu ini dinonaktifkan. Perhatikan juga keberadaanEdit Note Descriptionopsi menu. Ini memungkinkan Anda untuk menulis deskripsi untuk node Anda.

Sekarang, pilih Configure opsi menu, ini menunjukkan layar yang berisi data dari file adult.csv seperti yang terlihat pada tangkapan layar di sini -

Saat Anda mengeksekusi node ini, data akan dimuat di memori. Seluruh kode program pemuatan data disembunyikan dari pengguna. Anda sekarang dapat menghargai kegunaan node tersebut - tidak diperlukan pengkodean.

Node berikutnya adalah Color Manager.

Manajer Warna

Pilih Color Managernode dan masuk ke konfigurasinya dengan mengklik kanan di atasnya. Dialog pengaturan warna akan muncul. Pilihincome kolom dari daftar tarik-turun.

Layar Anda akan terlihat seperti ini -

Perhatikan adanya dua kendala. Jika pendapatan kurang dari 50K maka datapoint akan berwarna hijau dan jika lebih akan berwarna merah. Anda akan melihat pemetaan titik data saat kita melihat plot pencar nanti di bab ini.

Mempartisi

Dalam pembelajaran mesin, kami biasanya membagi seluruh data yang tersedia menjadi dua bagian. Sebagian besar digunakan untuk melatih model, sedangkan sebagian kecil digunakan untuk pengujian. Ada berbagai strategi yang digunakan untuk mempartisi data.

Untuk menentukan partisi yang diinginkan, klik kanan pada Partitioning node dan pilih Configurepilihan. Anda akan melihat layar berikut -

Dalam kasus ini, pemodel sistem telah menggunakan Relative(%) mode dan data dibagi dalam rasio 80:20. Saat melakukan pemisahan, poin data diambil secara acak. Ini memastikan bahwa data pengujian Anda mungkin tidak bias. Dalam kasus pengambilan sampel Linear, sisa 20% data yang digunakan untuk pengujian mungkin tidak merepresentasikan data pelatihan dengan benar karena mungkin sepenuhnya bias selama pengumpulannya.

Jika Anda yakin bahwa selama pengumpulan data, keacakan dijamin, maka Anda dapat memilih pengambilan sampel linier. Setelah data Anda siap untuk melatih model, masukkan ke node berikutnya, yaituDecision Tree Learner.

Pelajar Pohon Keputusan

Itu Decision Tree Learnernode seperti namanya menggunakan data pelatihan dan membangun model. Lihat pengaturan konfigurasi node ini, yang digambarkan pada gambar di bawah -

Seperti yang Anda lihat Class adalah income. Jadi, pohon akan dibangun berdasarkan kolom pendapatan dan itulah yang kami coba capai dalam model ini. Kami ingin pemisahan orang-orang yang berpenghasilan lebih besar atau kurang dari 50K.

Setelah node ini berhasil dijalankan, model Anda akan siap untuk diuji.

Prediktor Pohon Keputusan

Node Decision Tree Predictor menerapkan model yang dikembangkan ke kumpulan data pengujian dan menambahkan prediksi model.

Output dari prediktor diumpankan ke dua node berbeda - Scorer dan Scatter Plot. Selanjutnya, kita akan memeriksa keluaran dari prediksi.

Pencetak gol

Node ini menghasilkan confusion matrix. Untuk melihatnya, klik kanan pada node. Anda akan melihat menu popup berikut -

Klik View: Confusion Matrix opsi menu dan matriks akan muncul di jendela terpisah seperti yang ditunjukkan pada tangkapan layar di sini -

Hal tersebut menunjukkan bahwa akurasi model yang dikembangkan adalah 83,71%. Jika Anda tidak puas dengan ini, Anda dapat bermain-main dengan parameter lain dalam pembuatan model, terutama, Anda mungkin ingin mengunjungi kembali dan membersihkan data Anda.

Plot Sebar

Untuk melihat plot sebaran distribusi data, klik kanan pada Scatter Plot node dan pilih opsi menu Interactive View: Scatter Plot. Anda akan melihat plot berikut -

Plot memberikan distribusi kelompok pendapatan yang berbeda berdasarkan ambang batas 50K dalam dua titik berwarna berbeda - merah dan biru. Ini adalah warna-warna yang ditetapkan di kamiColor Managersimpul. Distribusi ini relatif terhadap usia seperti yang diplot pada sumbu x. Anda dapat memilih fitur yang berbeda untuk sumbu x dengan mengubah konfigurasi node.

Dialog konfigurasi ditampilkan di sini di mana kami telah memilih marital-status sebagai fitur untuk sumbu x.

Ini melengkapi diskusi kita tentang model standar yang disediakan oleh KNIME. Kami menyarankan Anda untuk mengambil dua node lainnya (Tabel Statistik dan Interaktif) dalam model untuk belajar mandiri Anda.

Sekarang mari kita beralih ke bagian terpenting dari tutorial - membuat model Anda sendiri.