KNIME - Membangun Model Anda Sendiri
Dalam bab ini, Anda akan membuat model pembelajaran mesin Anda sendiri untuk mengategorikan tanaman berdasarkan beberapa fitur yang diamati. Kami akan menggunakan yang terkenaliris kumpulan data dari UCI Machine Learning Repositoryuntuk tujuan ini. Dataset berisi tiga kelas tumbuhan yang berbeda. Kami akan melatih model kami untuk mengklasifikasikan tanaman yang tidak diketahui ke dalam salah satu dari tiga kelas ini.
Kami akan mulai dengan membuat alur kerja baru di KNIME untuk membuat model pembelajaran mesin kami.
Membuat Alur Kerja
Untuk membuat alur kerja baru, pilih opsi menu berikut di meja kerja KNIME.
File → New
Anda akan melihat layar berikut -
Pilih New KNIME Workflow opsi dan klik pada Nexttombol. Di layar berikutnya, Anda akan ditanya nama yang diinginkan untuk alur kerja dan folder tujuan untuk menyimpannya. Masukkan informasi ini sesuai keinginan dan klikFinish untuk membuat ruang kerja baru.
Ruang kerja baru dengan nama yang diberikan akan ditambahkan ke Workspace lihat seperti yang terlihat di sini -
Anda sekarang akan menambahkan berbagai node di ruang kerja ini untuk membuat model Anda. Sebelum menambahkan node, Anda harus mendownload dan menyiapkan fileiris dataset untuk kami gunakan.
Mempersiapkan Set Data
Unduh set data iris dari situs UCI Machine Learning Repository, Unduh Set Data Iris . File iris.data yang diunduh dalam format CSV. Kami akan membuat beberapa perubahan di dalamnya untuk menambahkan nama kolom.
Buka file yang diunduh di editor teks favorit Anda dan tambahkan baris berikut di awal.
sepal length, petal length, sepal width, petal width, class
Saat kami File Reader node membaca file ini, maka secara otomatis akan mengambil field di atas sebagai nama kolom.
Sekarang, Anda akan mulai menambahkan berbagai node.
Menambahkan Pembaca File
Pergi ke Node Repository lihat, ketik "file" di kotak pencarian untuk menemukan File Readersimpul. Ini terlihat pada gambar di bawah -
Pilih dan klik dua kali file File Readeruntuk menambahkan node ke dalam ruang kerja. Atau, Anda dapat menggunakan fitur drag-n-drop untuk menambahkan node ke dalam ruang kerja. Setelah node ditambahkan, Anda harus mengkonfigurasinya. Klik kanan pada node dan pilihConfigureopsi menu. Anda telah melakukan ini di pelajaran sebelumnya.
Layar pengaturan terlihat seperti berikut ini setelah datafile dimuat.
Untuk memuat set data Anda, klik Browsetombol dan pilih lokasi file iris.data Anda. Node akan memuat konten file yang ditampilkan di bagian bawah kotak konfigurasi. Setelah Anda puas bahwa file data ditempatkan dengan benar dan dimuat, klik fileOK tombol untuk menutup dialog konfigurasi.
Anda sekarang akan menambahkan beberapa penjelasan ke node ini. Klik kanan pada node dan pilihNew Workflow Annotationopsi menu. Kotak anotasi akan muncul di layar seperti yang ditunjukkan pada tangkapan layar di sini:
Klik di dalam kotak dan tambahkan anotasi berikut -
Reads iris.data
Klik di mana saja di luar kotak untuk keluar dari mode edit. Ubah ukuran dan letakkan kotak di sekitar node sesuai keinginan. Terakhir, klik dua kali fileNode 1 teks di bawah node untuk mengubah string ini menjadi berikut -
Loads data
Pada titik ini, layar Anda akan terlihat seperti berikut -
Kami sekarang akan menambahkan node baru untuk mempartisi dataset kami yang dimuat ke dalam pelatihan dan pengujian.
Menambahkan Partitioning Node
Dalam Node Repository jendela pencarian, ketikkan beberapa karakter untuk menemukan file Partitioning node, seperti yang terlihat pada gambar di bawah -
Tambahkan node ke ruang kerja kita. Atur konfigurasinya sebagai berikut -
Relative (%) : 95
Draw Randomly
Tangkapan layar berikut menunjukkan parameter konfigurasi.
Selanjutnya, buat koneksi antara kedua node tersebut. Untuk melakukannya, klik pada keluaran dariFile Reader node, terus tombol mouse diklik, garis karet gelang akan muncul, seret ke masukan Partitioningnode, lepaskan tombol mouse. Koneksi sekarang dibuat antara dua node.
Tambahkan anotasi, ubah deskripsi, posisikan node dan tampilan anotasi sesuai keinginan. Layar Anda akan terlihat seperti berikut pada tahap ini -
Selanjutnya, kami akan menambahkan k-Means simpul.
Menambahkan Node k-Means
Pilih k-Meansnode dari repositori dan menambahkannya ke ruang kerja. Jika Anda ingin menyegarkan pengetahuan Anda tentang algoritma k-Means, lihat saja deskripsinya di tampilan deskripsi meja kerja. Ini ditunjukkan pada gambar di bawah -
Secara tidak sengaja, Anda mungkin mencari deskripsi algoritme yang berbeda di jendela deskripsi sebelum mengambil keputusan akhir tentang algoritme mana yang akan digunakan.
Buka dialog konfigurasi untuk node tersebut. Kami akan menggunakan default untuk semua bidang seperti yang ditunjukkan di sini -
Klik OK untuk menerima default dan menutup dialog.
Setel anotasi dan deskripsi sebagai berikut -
Anotasi: Mengklasifikasikan cluster
Deskripsi: Melakukan clustering
Hubungkan output teratas dari Partitioning simpul ke masukan dari k-Meanssimpul. Ubah posisi item Anda dan layar Anda akan terlihat seperti berikut -
Selanjutnya, kami akan menambahkan file Cluster Assigner simpul.
Menambahkan Cluster Assigner
Itu Cluster Assignermemberikan data baru ke kumpulan prototipe yang ada. Dibutuhkan dua masukan - model prototipe dan data yang berisi data masukan. Cari deskripsi node di jendela deskripsi yang digambarkan pada gambar di bawah -
Jadi, untuk node ini Anda harus membuat dua koneksi -
Keluaran Model Cluster PMML dari Partitioning node → Prototipe Input dari Cluster Assigner
Output partisi kedua dari Partitioning node → Input data dari Cluster Assigner
Kedua koneksi ini ditunjukkan pada gambar di bawah -
Itu Cluster Assignertidak memerlukan konfigurasi khusus. Terima saja defaultnya.
Sekarang, tambahkan beberapa penjelasan dan deskripsi ke node ini. Atur ulang node Anda. Layar Anda akan terlihat seperti berikut -
Pada titik ini, pengelompokan kami selesai. Kita perlu memvisualisasikan keluarannya secara grafis. Untuk ini, kami akan menambahkan plot pencar. Kami akan mengatur warna dan bentuk untuk tiga kelas secara berbeda di plot pencar. Jadi, kami akan memfilter keluaran darik-Means simpul pertama melalui Color Manager simpul dan kemudian melalui Shape Manager simpul.
Menambahkan Manajer Warna
Temukan Color Managernode di repositori. Tambahkan ke ruang kerja. Biarkan konfigurasi ke defaultnya. Perhatikan bahwa Anda harus membuka dialog konfigurasi dan tekanOKuntuk menerima default. Tetapkan teks deskripsi untuk node tersebut.
Buat koneksi dari output k-Means ke masukan dari Color Manager. Layar Anda akan terlihat seperti berikut pada tahap ini -
Menambahkan Manajer Bentuk
Temukan Shape Managerdi repositori dan menambahkannya ke ruang kerja. Biarkan konfigurasinya ke default. Seperti yang sebelumnya, Anda harus membuka dialog konfigurasi dan menekanOKuntuk menyetel default. Ciptakan koneksi dari outputColor Manager ke masukan dari Shape Manager. Tetapkan deskripsi untuk node tersebut.
Layar Anda akan terlihat seperti berikut -
Sekarang, Anda akan menambahkan simpul terakhir dalam model kita dan itu adalah plot pencar.
Menambahkan Plot Sebar
Menemukan Scatter Plotnode di repositori dan menambahkannya ke ruang kerja. Hubungkan output dariShape Manager ke masukan dari Scatter Plot. Biarkan konfigurasi ke default. Tetapkan deskripsi.
Terakhir, tambahkan anotasi grup ke tiga node yang baru ditambahkan
Anotasi: Visualisasi
Ubah posisi node sesuai keinginan. Layar Anda akan terlihat seperti berikut pada tahap ini.
Ini menyelesaikan tugas membangun model.