Weka - Panduan Cepat

Fondasi dari setiap aplikasi Pembelajaran Mesin adalah data - bukan hanya data kecil tetapi data besar yang disebut sebagai Big Data dalam terminologi saat ini.

Untuk melatih mesin untuk menganalisis data besar, Anda perlu memiliki beberapa pertimbangan pada datanya -

  • Datanya harus bersih.
  • Ini tidak boleh mengandung nilai nol.

Selain itu, tidak semua kolom dalam tabel data akan berguna untuk jenis analitik yang ingin Anda capai. Kolom data atau 'fitur' yang tidak relevan seperti yang disebut dalam terminologi Machine Learning, harus dihapus sebelum data dimasukkan ke dalam algoritme machine learning.

Singkatnya, big data Anda membutuhkan banyak pemrosesan awal sebelum dapat digunakan untuk Machine Learning. Setelah data siap, Anda akan menerapkan berbagai algoritme Pembelajaran Mesin seperti klasifikasi, regresi, pengelompokan, dan sebagainya untuk menyelesaikan masalah di pihak Anda.

Jenis algoritme yang Anda terapkan sebagian besar didasarkan pada pengetahuan domain Anda. Bahkan dalam tipe yang sama, misalnya klasifikasi, ada beberapa algoritma yang tersedia. Anda mungkin ingin menguji algoritme yang berbeda di bawah kelas yang sama untuk membangun model pembelajaran mesin yang efisien. Saat melakukannya, Anda lebih suka visualisasi data yang diproses dan karenanya Anda juga memerlukan alat visualisasi.

Di bab-bab selanjutnya, Anda akan belajar tentang Weka, perangkat lunak yang menyelesaikan semua hal di atas dengan mudah dan memungkinkan Anda bekerja dengan data besar dengan nyaman.

WEKA - perangkat lunak sumber terbuka menyediakan alat untuk pemrosesan awal data, implementasi beberapa algoritme Pembelajaran Mesin, dan alat visualisasi sehingga Anda dapat mengembangkan teknik pembelajaran mesin dan menerapkannya pada masalah data mining dunia nyata. Apa yang ditawarkan WEKA dirangkum dalam diagram berikut -

Jika Anda mengamati permulaan aliran image, Anda akan memahami bahwa ada banyak tahapan dalam menangani Big Data agar sesuai untuk pembelajaran mesin -

Pertama, Anda akan mulai dengan data mentah yang dikumpulkan dari lapangan. Data ini mungkin berisi beberapa nilai null dan bidang yang tidak relevan. Anda menggunakan alat preprocessing data yang disediakan di WEKA untuk membersihkan data.

Kemudian, Anda akan menyimpan data yang telah diproses sebelumnya di penyimpanan lokal Anda untuk menerapkan algoritme ML.

Selanjutnya, tergantung pada jenis model ML yang Anda coba kembangkan, Anda akan memilih salah satu opsi seperti Classify, Cluster, atau Associate. ItuAttributes Selection memungkinkan pemilihan fitur secara otomatis untuk membuat kumpulan data yang dikurangi.

Perhatikan bahwa di bawah setiap kategori, WEKA menyediakan implementasi beberapa algoritma. Anda akan memilih algoritma pilihan Anda, mengatur parameter yang diinginkan dan menjalankannya di dataset.

Kemudian, WEKA akan memberi Anda keluaran statistik dari pemrosesan model. Ini memberi Anda alat visualisasi untuk memeriksa data.

Berbagai model dapat diterapkan pada dataset yang sama. Anda kemudian dapat membandingkan keluaran model yang berbeda dan memilih yang terbaik yang sesuai dengan tujuan Anda.

Dengan demikian, penggunaan WEKA menghasilkan pengembangan model pembelajaran mesin yang lebih cepat secara keseluruhan.

Sekarang kita telah melihat apa itu WEKA dan apa fungsinya, di bab selanjutnya mari kita pelajari cara menginstal WEKA di komputer lokal Anda.

Untuk menginstal WEKA di mesin Anda, kunjungi situs web resmi WEKA dan unduh file instalasi. WEKA mendukung penginstalan di Windows, Mac OS X dan Linux. Anda hanya perlu mengikuti petunjuk di halaman ini untuk menginstal WEKA untuk OS Anda.

Langkah-langkah untuk menginstal di Mac adalah sebagai berikut -

  • Unduh file instalasi Mac.
  • Klik dua kali pada file weka-3-8-3-corretto-jvm.dmg file.

Anda akan melihat layar berikut pada instalasi yang berhasil.

  • Klik pada weak-3-8-3-corretto-jvm ikon untuk memulai Weka.
  • Secara opsional, Anda dapat memulainya dari baris perintah -
java -jar weka.jar

Aplikasi WEKA GUI Chooser akan mulai dan Anda akan melihat layar berikut -

Aplikasi GUI Chooser memungkinkan Anda menjalankan lima jenis aplikasi seperti yang tercantum di sini -

  • Explorer
  • Experimenter
  • KnowledgeFlow
  • Workbench
  • CLI sederhana

Kami akan menggunakan Explorer dalam tutorial ini.

Dalam bab ini, mari kita lihat berbagai fungsi yang disediakan penjelajah untuk bekerja dengan data besar.

Saat Anda mengklik Explorer tombol di Applications selektor, ini membuka layar berikut -

Di atas, Anda akan melihat beberapa tab seperti yang tercantum di sini -

  • Preprocess
  • Classify
  • Cluster
  • Associate
  • Pilih Atribut
  • Visualize

Di bawah tab ini, ada beberapa algoritme pembelajaran mesin yang telah diterapkan sebelumnya. Mari kita lihat masing-masing secara mendetail sekarang.

Tab Preprocess

Awalnya saat Anda membuka explorer, hanya file Preprocesstab diaktifkan. Langkah pertama dalam pembelajaran mesin adalah memproses data terlebih dahulu. Jadi, diPreprocess opsi, Anda akan memilih file data, memprosesnya dan membuatnya cocok untuk menerapkan berbagai algoritma pembelajaran mesin.

Klasifikasi Tab

Itu ClassifyTab memberi Anda beberapa algoritme pembelajaran mesin untuk klasifikasi data Anda. Untuk mencantumkan beberapa, Anda dapat menerapkan algoritme seperti Regresi Linier, Regresi Logistik, Mesin Vektor Dukungan, Pohon Keputusan, RandomTree, RandomForest, NaiveBayes, dan sebagainya. Daftarnya sangat lengkap dan menyediakan algoritme pembelajaran mesin yang diawasi dan tidak diawasi.

Tab Cluster

Di bawah Cluster tab, ada beberapa algoritma pengelompokan yang disediakan - seperti SimpleKMeans, FilteredClusterer, HierarchicalClusterer, dan sebagainya.

Tab Asosiasi

Di bawah Associate tab, Anda akan menemukan Apriori, FilteredAssociator dan FPGrowth.

Pilih Tab Atribut

Select Attributes memungkinkan Anda menampilkan pilihan berdasarkan beberapa algoritme seperti ClassifierSubsetEval, PrinicipalComponents, dll.

Visualisasikan Tab

Terakhir, Visualize memungkinkan Anda untuk memvisualisasikan data yang diproses untuk analisis.

Seperti yang Anda ketahui, WEKA menyediakan beberapa algoritme yang siap digunakan untuk menguji dan membuat aplikasi pembelajaran mesin Anda. Untuk menggunakan WEKA secara efektif, Anda harus memiliki pengetahuan yang baik tentang algoritme ini, cara kerjanya, mana yang harus dipilih dalam keadaan apa, apa yang harus dicari dalam hasil yang diproses, dan sebagainya. Singkatnya, Anda harus memiliki dasar yang kuat dalam pembelajaran mesin untuk menggunakan WEKA secara efektif dalam membangun aplikasi Anda.

Di bab-bab selanjutnya, Anda akan mempelajari setiap tab di penjelajah secara mendalam.

Dalam bab ini, kita mulai dengan tab pertama yang Anda gunakan untuk memproses data sebelumnya. Ini umum untuk semua algoritme yang akan Anda terapkan pada data Anda untuk membangun model dan merupakan langkah umum untuk semua operasi selanjutnya di WEKA.

Agar algoritme pembelajaran mesin memberikan akurasi yang dapat diterima, penting bagi Anda untuk membersihkan data Anda terlebih dahulu. Ini karena data mentah yang dikumpulkan dari lapangan mungkin berisi nilai null, kolom yang tidak relevan, dan sebagainya.

Dalam bab ini, Anda akan mempelajari cara memproses data mentah dan membuat kumpulan data yang bersih dan bermakna untuk digunakan lebih lanjut.

Pertama, Anda akan belajar memuat file data ke dalam penjelajah WEKA. Data dapat dimuat dari sumber berikut -

  • Sistem file lokal
  • Web
  • Database

Dalam bab ini, kita akan melihat ketiga opsi memuat data secara detail.

Memuat Data dari Sistem File Lokal

Tepat di bawah tab Machine Learning yang Anda pelajari di pelajaran sebelumnya, Anda akan menemukan tiga tombol berikut -

  • Membuka file …
  • Buka URL…
  • Buka DB…

Klik pada Open file... tombol. Jendela navigator direktori terbuka seperti yang ditunjukkan pada layar berikut -

Sekarang, navigasikan ke folder tempat file data Anda disimpan. Penginstalan WEKA menghasilkan banyak database sampel untuk Anda coba. Ini tersedia didata folder penginstalan WEKA.

Untuk tujuan pembelajaran, pilih file data apa pun dari folder ini. Isi file akan dimuat di lingkungan WEKA. Kami akan segera mempelajari cara memeriksa dan memproses data yang dimuat ini. Sebelumnya, mari kita lihat cara memuat file data dari Web.

Memuat Data dari Web

Setelah Anda mengklik Open URL … tombol, Anda dapat melihat jendela sebagai berikut -

Kami akan membuka file dari URL publik Ketik URL berikut di kotak popup -

https://storm.cis.fordham.edu/~gweiss/data-mining/weka-data/weather.nominal.arff

Anda dapat menentukan URL lain tempat data Anda disimpan. ItuExplorer akan memuat data dari situs jarak jauh ke lingkungannya.

Memuat Data dari DB

Setelah Anda mengklik Open DB ..., Anda dapat melihat jendela sebagai berikut -

Setel string koneksi ke database Anda, siapkan kueri untuk pemilihan data, proses kueri, dan muat rekaman yang dipilih di WEKA.

WEKA mendukung sejumlah besar format file untuk data tersebut. Berikut daftar lengkapnya -

  • arff
  • arff.gz
  • bsi
  • csv
  • dat
  • data
  • json
  • json.gz
  • libsvm
  • m
  • names
  • xrff
  • xrff.gz

Jenis file yang didukungnya tercantum dalam kotak daftar turun bawah di bagian bawah layar. Ini ditunjukkan pada gambar yang diberikan di bawah ini.

Seperti yang Anda lihat, ini mendukung beberapa format termasuk CSV dan JSON. Jenis file default adalah Arff.

Format Arff

Sebuah Arff file berisi dua bagian - header dan data.

  • Header menjelaskan jenis atribut.
  • Bagian data berisi daftar data yang dipisahkan koma.

Sebagai contoh untuk format Arff, file Weather file data yang dimuat dari database sampel WEKA ditunjukkan di bawah ini -

Dari tangkapan layar, Anda dapat menyimpulkan poin-poin berikut -

  • Tag @relation mendefinisikan nama database.

  • Tag @attribute mendefinisikan atribut.

  • Tag @data memulai daftar baris data yang masing-masing berisi bidang yang dipisahkan koma.

  • Atribut dapat mengambil nilai nominal seperti dalam kasus pandangan yang ditunjukkan di sini -

@attribute outlook (sunny, overcast, rainy)
  • Atribut dapat mengambil nilai nyata seperti dalam kasus ini -

@attribute temperature real
  • Anda juga dapat mengatur Target atau variabel Kelas yang disebut bermain seperti yang ditunjukkan di sini -

@attribute play (yes, no)
  • Target mengasumsikan dua nilai nominal ya atau tidak.

Format Lainnya

Explorer dapat memuat data dalam salah satu format yang disebutkan sebelumnya. Karena arff adalah format yang disukai di WEKA, Anda dapat memuat data dari format apapun dan menyimpannya ke format arff untuk digunakan nanti. Setelah melakukan preprocessing data, simpan saja ke format arff untuk analisis lebih lanjut.

Sekarang setelah Anda mempelajari cara memuat data ke WEKA, di bab berikutnya, Anda akan mempelajari cara memproses data sebelumnya.

Data yang dikumpulkan dari lapangan mengandung banyak hal yang tidak diinginkan yang mengarah pada analisis yang salah. Misalnya, data mungkin berisi bidang null, mungkin berisi kolom yang tidak relevan dengan analisis saat ini, dan seterusnya. Jadi, data harus diproses sebelumnya untuk memenuhi persyaratan jenis analisis yang Anda cari. Ini dilakukan dalam modul preprocessing.

Untuk mendemonstrasikan fitur yang tersedia di preprocessing, kita akan menggunakan Weather database yang disediakan dalam instalasi.

Menggunakan Open file ... opsi di bawah Preprocess tag pilih weather-nominal.arff mengajukan.

Saat Anda membuka file, layar Anda terlihat seperti yang ditunjukkan di sini -

Layar ini memberi tahu kita beberapa hal tentang data yang dimuat, yang akan dibahas lebih lanjut dalam bab ini.

Memahami Data

Mari kita lihat dulu yang disorot Current relationsub jendela. Ini menunjukkan nama database yang sedang dimuat. Anda dapat menyimpulkan dua poin dari sub jendela ini -

  • Ada 14 contoh - jumlah baris dalam tabel.

  • Tabel tersebut berisi 5 atribut - bidang, yang dibahas di bagian selanjutnya.

Di sisi kiri, perhatikan Attributes sub jendela yang menampilkan berbagai bidang dalam database.

Itu weatherdatabase berisi lima bidang - pandangan, suhu, kelembaban, angin dan permainan. Jika Anda memilih atribut dari daftar ini dengan mengkliknya, detail lebih lanjut tentang atribut itu sendiri ditampilkan di sisi kanan.

Mari kita pilih atribut suhu terlebih dahulu. Ketika Anda mengkliknya, Anda akan melihat layar berikut -

Dalam Selected Attribute subwindow, Anda dapat mengamati yang berikut -

  • Nama dan jenis atribut ditampilkan.

  • Jenis untuk file temperature atributnya adalah Nominal.

  • Jumlah Missing nilainya nol.

  • Ada tiga nilai berbeda tanpa nilai unik.

  • Tabel di bawah informasi ini menunjukkan nilai nominal untuk bidang ini sebagai panas, ringan dan dingin.

  • Ini juga menunjukkan hitungan dan bobot dalam bentuk persentase untuk setiap nilai nominal.

Di bagian bawah jendela, Anda melihat representasi visual dari class nilai-nilai.

Jika Anda mengklik Visualize All tombol, Anda akan dapat melihat semua fitur dalam satu jendela seperti yang ditunjukkan di sini -

Menghapus Atribut

Sering kali, data yang ingin Anda gunakan untuk pembuatan model datang dengan banyak bidang yang tidak relevan. Misalnya, database pelanggan mungkin berisi nomor ponselnya yang relevan dalam menganalisis peringkat kreditnya.

Untuk menghapus Atribut / s pilih mereka dan klik pada Remove tombol di bagian bawah.

Atribut yang dipilih akan dihapus dari database. Setelah Anda sepenuhnya melakukan praproses data, Anda dapat menyimpannya untuk pembuatan model.

Selanjutnya, Anda akan belajar memproses data dengan menerapkan filter pada data ini.

Menerapkan Filter

Beberapa teknik pembelajaran mesin seperti penambangan aturan asosiasi memerlukan data kategorikal. Untuk menggambarkan penggunaan filter, kami akan menggunakanweather-numeric.arff database yang berisi dua numeric atribut - temperature dan humidity.

Kami akan mengubahnya menjadi nominaldengan menerapkan filter pada data mentah kami. Klik padaChoose tombol di Filter subwindow dan pilih filter berikut -

weka→filters→supervised→attribute→Discretize

Klik pada Apply tombol dan periksa temperature dan / atau humidityatribut. Anda akan melihat bahwa ini telah berubah dari tipe numerik menjadi nominal.

Mari kita lihat filter lain sekarang. Misalkan Anda ingin memilih atribut terbaik untuk memutuskanplay. Pilih dan terapkan filter berikut -

weka→filters→supervised→attribute→AttributeSelection

Anda akan melihat bahwa ini menghapus atribut suhu dan kelembaban dari database.

Setelah Anda puas dengan preprocessing data Anda, simpan data tersebut dengan mengklik Save... tombol. Anda akan menggunakan file yang disimpan ini untuk membangun model.

Di bab berikutnya, kita akan mempelajari pembuatan model menggunakan beberapa algoritme ML yang telah ditentukan sebelumnya.

Banyak aplikasi pembelajaran mesin yang terkait dengan klasifikasi. Misalnya, Anda mungkin ingin mengklasifikasikan tumor sebagai tumor ganas atau jinak. Anda mungkin ingin memutuskan apakah akan memainkan permainan luar tergantung pada kondisi cuaca. Umumnya, keputusan ini bergantung pada beberapa fitur / kondisi cuaca. Jadi, Anda mungkin lebih suka menggunakan pengklasifikasi pohon untuk membuat keputusan apakah akan bermain atau tidak.

Dalam bab ini, kita akan belajar bagaimana membangun pengklasifikasi pohon pada data cuaca untuk memutuskan kondisi permainan.

Mengatur Data Uji

Kami akan menggunakan file data cuaca praproses dari pelajaran sebelumnya. Buka file yang disimpan dengan menggunakanOpen file ... opsi di bawah Preprocess tab, klik pada Classify tab, dan Anda akan melihat layar berikut -

Sebelum Anda mempelajari tentang pengklasifikasi yang tersedia, mari kita periksa opsi Tes. Anda akan melihat empat opsi pengujian seperti yang tercantum di bawah ini -

  • Perlengkapan latihan
  • Set pengujian yang disediakan
  • Cross-validation
  • Pembagian persentase

Kecuali Anda memiliki set pelatihan sendiri atau set pengujian yang disediakan klien, Anda akan menggunakan opsi validasi silang atau pemisahan persentase. Di bawah validasi silang, Anda dapat menyetel jumlah lipatan di mana seluruh data akan dipisahkan dan digunakan selama setiap iterasi pelatihan. Dalam pembagian persentase, Anda akan membagi data antara pelatihan dan pengujian menggunakan persentase pemisahan yang ditetapkan.

Sekarang, pertahankan default play opsi untuk kelas keluaran -

Selanjutnya, Anda akan memilih pengklasifikasi.

Memilih Pengklasifikasi

Klik pada tombol Pilih dan pilih pengklasifikasi berikut -

weka→classifiers>trees>J48

Ini ditunjukkan pada gambar di bawah -

Klik pada Starttombol untuk memulai proses klasifikasi. Setelah beberapa saat, hasil klasifikasi akan ditampilkan di layar Anda seperti yang ditunjukkan di sini -

Mari kita periksa output yang ditampilkan di sisi kanan layar.

Dikatakan bahwa ukuran pohon adalah 6. Anda akan segera melihat representasi visual dari pohon tersebut. Dalam Ringkasan, dikatakan bahwa contoh yang diklasifikasikan dengan benar sebagai 2 dan contoh yang salah diklasifikasikan sebagai 3, Ia juga mengatakan bahwa kesalahan absolut relatif adalah 110%. Ini juga menunjukkan Matriks Kebingungan. Analisis hasil ini berada di luar cakupan tutorial ini. Namun, Anda dapat dengan mudah melihat dari hasil ini bahwa klasifikasi tersebut tidak dapat diterima dan Anda akan memerlukan lebih banyak data untuk analisis, untuk menyempurnakan pilihan fitur, membangun kembali model, dan seterusnya hingga Anda puas dengan keakuratan model. Bagaimanapun, itulah WEKA. Ini memungkinkan Anda untuk menguji ide-ide Anda dengan cepat.

Visualisasikan Hasil

Untuk melihat representasi visual dari hasil, klik kanan pada hasil di Result listkotak. Beberapa opsi akan muncul di layar seperti yang ditunjukkan di sini -

Pilih Visualize tree untuk mendapatkan representasi visual dari pohon traversal seperti yang terlihat pada gambar di bawah -

Memilih Visualize classifier errors akan memplot hasil klasifikasi seperti yang ditunjukkan di sini -

SEBUAH cross mewakili instance yang diklasifikasikan dengan benar while squaresmewakili contoh yang diklasifikasikan secara salah. Di sudut kiri bawah plot, Anda akan melihat across yang menunjukkan jika outlook cerah kalau begitu playpermainan. Jadi ini adalah contoh yang diklasifikasikan dengan benar. Untuk menemukan instance, Anda dapat memasukkan beberapa jitter di dalamnya dengan menggeserjitter bilah geser.

Plot saat ini adalah outlook melawan play. Ini ditunjukkan oleh dua kotak daftar drop-down di bagian atas layar.

Sekarang, coba pilihan yang berbeda di setiap kotak ini dan perhatikan bagaimana sumbu X & Y berubah. Hal yang sama dapat dicapai dengan menggunakan strip horizontal di sisi kanan plot. Setiap strip mewakili sebuah atribut. Klik kiri pada strip menetapkan atribut yang dipilih pada sumbu X sementara klik kanan akan mengaturnya pada sumbu Y.

Ada beberapa plot lain yang disediakan untuk analisis Anda yang lebih dalam. Gunakan dengan bijaksana untuk menyempurnakan model Anda. Salah satu plot seperti ituCost/Benefit analysis ditampilkan di bawah untuk referensi cepat Anda.

Menjelaskan analisis dalam bagan ini berada di luar cakupan tutorial ini. Pembaca didorong untuk meningkatkan pengetahuan mereka tentang analisis algoritme pembelajaran mesin.

Di bab berikutnya, kita akan mempelajari kumpulan algoritme pembelajaran mesin berikutnya, yaitu pengelompokan.

Algoritme pengelompokan menemukan grup instance serupa di seluruh kumpulan data. WEKA mendukung beberapa algoritma pengelompokan seperti EM, FilteredClusterer, HierarchicalClusterer, SimpleKMeans, dan sebagainya. Anda harus memahami algoritme ini sepenuhnya untuk memanfaatkan kapabilitas WEKA sepenuhnya.

Seperti dalam kasus klasifikasi, WEKA memungkinkan Anda untuk memvisualisasikan cluster yang terdeteksi secara grafis. Untuk mendemonstrasikan clustering, kita akan menggunakan database iris yang telah disediakan. Kumpulan data berisi tiga kelas yang masing-masing terdiri dari 50 instance. Setiap kelas mengacu pada jenis tanaman iris.

Memuat Data

Di penjelajah WEKA pilih Preprocesstab. Klik padaOpen file ... dan pilih iris.arfffile dalam dialog pemilihan file. Saat Anda memuat data, layar terlihat seperti yang ditunjukkan di bawah ini -

Anda dapat mengamati bahwa ada 150 instance dan 5 atribut. Nama atribut terdaftar sebagaisepallength, sepalwidth, petallength, petalwidth dan class. Empat atribut pertama adalah tipe numerik sedangkan kelasnya adalah tipe nominal dengan 3 nilai berbeda. Periksa setiap atribut untuk memahami fitur database. Kami tidak akan melakukan pra-pemrosesan pada data ini dan langsung melanjutkan ke pembuatan model.

Kekelompokan

Klik pada ClusterTAB untuk menerapkan algoritme pengelompokan ke data yang kami muat. Klik padaChoosetombol. Anda akan melihat layar berikut -

Sekarang, pilih EMsebagai algoritma pengelompokan. DalamCluster mode sub jendela, pilih Classes to clusters evaluation opsi seperti yang ditunjukkan pada gambar di bawah -

Klik pada Starttombol untuk memproses data. Setelah beberapa saat, hasilnya akan ditampilkan di layar.

Selanjutnya mari kita pelajari hasilnya.

Meneliti Output

Output dari pemrosesan data ditampilkan pada layar di bawah ini -

Dari layar keluaran, Anda dapat mengamati bahwa -

  • Ada 5 contoh berkerumun yang terdeteksi di database.

  • Itu Cluster 0 mewakili setosa, Cluster 1 mewakili virginika, Cluster 2 mewakili versicolor, sedangkan dua cluster terakhir tidak memiliki kelas yang terkait dengannya.

Jika Anda menggulir ke atas jendela keluaran, Anda juga akan melihat beberapa statistik yang memberikan mean dan deviasi standar untuk setiap atribut dalam berbagai cluster yang terdeteksi. Ini ditunjukkan pada gambar yang diberikan di bawah ini -

Selanjutnya, kita akan melihat representasi visual dari cluster.

Memvisualisasikan Cluster

Untuk memvisualisasikan cluster, klik kanan pada EM menghasilkan Result list. Anda akan melihat opsi berikut -

Pilih Visualize cluster assignments. Anda akan melihat output berikut -

Seperti dalam kasus klasifikasi, Anda akan melihat perbedaan antara contoh yang diidentifikasi dengan benar dan salah. Anda dapat bermain-main dengan mengubah sumbu X dan Y untuk menganalisis hasil. Anda dapat menggunakan jittering seperti dalam kasus klasifikasi untuk mengetahui konsentrasi instance yang teridentifikasi dengan benar. Operasi dalam plot visualisasi mirip dengan yang Anda pelajari dalam kasus klasifikasi.

Menerapkan Hierarchical Clusterer

Untuk mendemonstrasikan kekuatan WEKA, sekarang mari kita lihat aplikasi dari algoritma pengelompokan lain. Di penjelajah WEKA, pilih fileHierarchicalClusterer sebagai algoritma ML Anda seperti yang ditunjukkan pada gambar di bawah ini -

Memilih Cluster mode pilihan untuk Classes to cluster evaluation, dan klik Starttombol. Anda akan melihat output berikut -

Perhatikan bahwa di Result list, ada dua hasil yang terdaftar: yang pertama adalah hasil EM dan yang kedua adalah Hierarki saat ini. Selain itu, Anda dapat menerapkan beberapa algoritme ML ke kumpulan data yang sama dan membandingkan hasilnya dengan cepat.

Jika Anda memeriksa pohon yang dihasilkan oleh algoritma ini, Anda akan melihat output berikut -

Di bab berikutnya, Anda akan mempelajari Associate jenis algoritme ML.

Teramati bahwa orang yang membeli bir juga membeli popok pada saat yang bersamaan. Artinya ada keterkaitan dalam membeli bir dan popok bersama-sama. Meskipun ini tampaknya tidak terlalu meyakinkan, aturan asosiasi ini ditambang dari database supermarket yang sangat besar. Demikian pula, hubungan dapat ditemukan antara selai kacang dan roti.

Menemukan asosiasi semacam itu menjadi penting bagi supermarket karena mereka akan menyimpan popok di samping bir sehingga pelanggan dapat menemukan kedua item tersebut dengan mudah sehingga meningkatkan penjualan supermarket.

Itu AprioriAlgoritme adalah salah satu algoritme dalam ML yang menemukan kemungkinan asosiasi dan membuat aturan asosiasi. WEKA menyediakan implementasi algoritma Apriori. Anda dapat menentukan dukungan minimum dan tingkat kepercayaan yang dapat diterima saat menghitung aturan ini. Anda akan menerapkanApriori algoritma ke supermarket data yang disediakan di instalasi WEKA.

Memuat Data

Di penjelajah WEKA, buka Preprocess tab, klik pada Open file ... dan pilih supermarket.arffdatabase dari folder instalasi. Setelah data dimuat, Anda akan melihat layar berikut -

Basis data berisi 4627 contoh dan 217 atribut. Anda dapat dengan mudah memahami betapa sulitnya mendeteksi hubungan antara sejumlah besar atribut. Untungnya, tugas ini diotomatiskan dengan bantuan algoritma Apriori.

Associator

Klik pada Associate TAB dan klik Choosetombol. PilihApriori asosiasi seperti yang ditunjukkan pada tangkapan layar -

Untuk mengatur parameter untuk algoritma Apriori, klik namanya, sebuah jendela akan muncul seperti yang ditunjukkan di bawah ini yang memungkinkan Anda untuk mengatur parameter -

Setelah Anda mengatur parameter, klik Starttombol. Setelah beberapa saat Anda akan melihat hasilnya seperti yang ditunjukkan pada gambar di bawah -

Di bagian bawah, Anda akan menemukan aturan asosiasi terbaik yang terdeteksi. Ini akan membantu supermarket dalam menyimpan produk mereka di rak yang sesuai.

Ketika database berisi sejumlah besar atribut, akan ada beberapa atribut yang tidak menjadi signifikan dalam analisis yang Anda cari. Dengan demikian, menghapus atribut yang tidak diinginkan dari kumpulan data menjadi tugas penting dalam mengembangkan model pembelajaran mesin yang baik.

Anda dapat memeriksa seluruh dataset secara visual dan memutuskan atribut yang tidak relevan. Ini bisa menjadi tugas besar untuk database yang berisi banyak atribut seperti kasus supermarket yang Anda lihat di pelajaran sebelumnya. Untungnya, WEKA menyediakan alat otomatis untuk pemilihan fitur.

Bab ini mendemonstrasikan fitur ini pada database yang berisi sejumlah besar atribut.

Memuat Data

Dalam Preprocess tag penjelajah WEKA, pilih labor.arfffile untuk dimuat ke dalam sistem. Saat Anda memuat data, Anda akan melihat layar berikut -

Perhatikan bahwa ada 17 atribut. Tugas kita adalah membuat kumpulan data yang dikurangi dengan menghilangkan beberapa atribut yang tidak relevan dengan analisis kita.

Fitur Ekstraksi

Klik pada Select attributesTAB. Anda akan melihat layar berikut -

Di bawah Attribute Evaluator dan Search Method, Anda akan menemukan beberapa opsi. Kami hanya akan menggunakan default di sini. DalamAttribute Selection Mode, gunakan opsi set pelatihan lengkap.

Klik pada tombol Start untuk memproses dataset. Anda akan melihat output berikut -

Di bagian bawah jendela hasil, Anda akan mendapatkan daftar Selectedatribut. Untuk mendapatkan representasi visual, klik kanan pada hasil diResult daftar.

Outputnya ditunjukkan pada tangkapan layar berikut -

Mengklik salah satu kotak akan memberi Anda plot data untuk analisis lebih lanjut. Plot data tipikal ditunjukkan di bawah ini -

Ini mirip dengan yang telah kita lihat di bab-bab sebelumnya. Bermain-main dengan berbagai opsi yang tersedia untuk menganalisis hasil.

Apa berikutnya?

Anda telah melihat sejauh ini kekuatan WEKA dalam model pembelajaran mesin yang berkembang dengan cepat. Apa yang kami gunakan adalah alat grafis yang disebutExploreruntuk mengembangkan model ini. WEKA juga menyediakan antarmuka baris perintah yang memberi Anda lebih banyak kekuatan daripada yang disediakan di penjelajah.

Mengklik Simple CLI tombol di GUI Chooser aplikasi memulai antarmuka baris perintah ini yang ditunjukkan pada gambar di bawah -

Ketik perintah Anda di kotak input di bagian bawah. Anda akan dapat melakukan semua yang telah Anda lakukan sejauh ini di penjelajah dan banyak lagi. Lihat dokumentasi WEKA (https://www.cs.waikato.ac.nz/ml/weka/documentation.html) untuk detail lebih lanjut.

Terakhir, WEKA dikembangkan di Java dan menyediakan antarmuka ke API-nya. Jadi, jika Anda adalah pengembang Java dan ingin memasukkan implementasi WEKA ML dalam proyek Java Anda sendiri, Anda dapat melakukannya dengan mudah.

Kesimpulan

WEKA adalah alat yang ampuh untuk mengembangkan model pembelajaran mesin. Ini menyediakan implementasi dari beberapa algoritma ML yang paling banyak digunakan. Sebelum algoritme ini diterapkan ke kumpulan data Anda, ini juga memungkinkan Anda untuk memproses data terlebih dahulu. Jenis algoritme yang didukung diklasifikasikan dalam atribut Klasifikasi, Cluster, Associate, dan Select. Hasil dari berbagai tahapan pemrosesan dapat divisualisasikan dengan representasi visual yang indah dan kuat. Ini memudahkan Data Scientist untuk dengan cepat menerapkan berbagai teknik pembelajaran mesin pada set data-nya, membandingkan hasil, dan membuat model terbaik untuk penggunaan akhir.