Pembelajaran Mesin Dengan Python - Panduan Cepat
Kita hidup di 'era data' yang diperkaya dengan daya komputasi yang lebih baik dan lebih banyak sumber daya penyimpanan. Data atau informasi ini meningkat dari hari ke hari, tetapi tantangan sebenarnya adalah memahami semua data. Bisnis & organisasi mencoba menghadapinya dengan membangun sistem cerdas menggunakan konsep dan metodologi dari ilmu Data, Penambangan Data, dan pembelajaran Mesin. Di antara mereka, pembelajaran mesin adalah bidang ilmu komputer yang paling menarik. Tidak salah jika kita menyebut pembelajaran mesin sebagai aplikasi dan ilmu algoritma yang memberikan pengertian pada data.
Apa itu Pembelajaran Mesin?
Machine Learning (ML) adalah bidang ilmu komputer dengan bantuan sistem komputer yang dapat memberikan pengertian pada data dengan cara yang sama seperti yang dilakukan manusia.
Dengan kata sederhana, ML adalah jenis kecerdasan buatan yang mengekstrak pola dari data mentah dengan menggunakan algoritme atau metode. Fokus utama ML adalah memungkinkan sistem komputer belajar dari pengalaman tanpa diprogram secara eksplisit atau campur tangan manusia.
Kebutuhan akan Pembelajaran Mesin
Manusia, pada saat ini, adalah spesies paling cerdas dan maju di bumi karena mereka dapat berpikir, mengevaluasi, dan memecahkan masalah yang kompleks. Di sisi lain, AI masih dalam tahap awal dan belum melampaui kecerdasan manusia dalam banyak aspek. Lalu pertanyaannya adalah apa yang dibutuhkan untuk membuat mesin belajar? Alasan paling tepat untuk melakukan ini adalah, “untuk membuat keputusan, berdasarkan data, dengan efisiensi dan skala”.
Akhir-akhir ini, banyak organisasi berinvestasi besar-besaran dalam teknologi yang lebih baru seperti Artificial Intelligence, Machine Learning, dan Deep Learning untuk mendapatkan informasi utama dari data guna melakukan beberapa tugas dunia nyata dan memecahkan masalah. Kita bisa menyebutnya keputusan berdasarkan data yang diambil oleh mesin, terutama untuk mengotomatiskan prosesnya. Keputusan berdasarkan data ini dapat digunakan, alih-alih menggunakan logika pemrograman, dalam masalah yang tidak dapat diprogram secara inheren. Faktanya adalah kita tidak dapat bekerja tanpa kecerdasan manusia, tetapi aspek lainnya adalah kita semua perlu menyelesaikan masalah dunia nyata dengan efisiensi dalam skala besar. Itulah mengapa kebutuhan akan pembelajaran mesin muncul.
Mengapa & Kapan Membuat Mesin Belajar?
Kita telah membahas perlunya pembelajaran mesin, tetapi pertanyaan lain muncul bahwa dalam skenario apa kita harus membuat pembelajaran mesin? Ada beberapa keadaan di mana kita membutuhkan mesin untuk mengambil keputusan berdasarkan data dengan efisiensi dan dalam skala besar. Berikut ini adalah beberapa keadaan di mana membuat mesin belajar akan menjadi lebih efektif -
Kurangnya keahlian manusia
Skenario pertama di mana kita menginginkan mesin untuk belajar dan mengambil keputusan berdasarkan data, bisa menjadi domain di mana ada kekurangan keahlian manusia. Contohnya dapat berupa navigasi di wilayah yang tidak diketahui atau planet spasial.
Skenario dinamis
Ada beberapa skenario yang sifatnya dinamis yaitu terus berubah dari waktu ke waktu. Dalam kasus skenario dan perilaku ini, kami menginginkan mesin untuk belajar dan mengambil keputusan berdasarkan data. Beberapa contohnya dapat berupa konektivitas jaringan dan ketersediaan infrastruktur dalam suatu organisasi.
Kesulitan dalam menerjemahkan keahlian menjadi tugas komputasi
Ada berbagai domain di mana manusia memiliki keahliannya ,; namun, mereka tidak dapat menerjemahkan keahlian ini ke dalam tugas komputasi. Dalam keadaan seperti itu, kami menginginkan pembelajaran mesin. Contohnya dapat berupa domain pengenalan ucapan, tugas kognitif, dll.
Model Pembelajaran Mesin
Sebelum membahas model pembelajaran mesin, kita harus memahami definisi formal ML yang diberikan oleh profesor Mitchell -
"Sebuah program komputer dikatakan belajar dari pengalaman E sehubungan dengan beberapa kelas tugas T dan kinerja mengukur P, jika kinerjanya pada tugas di T, yang diukur dengan P, meningkat dengan pengalaman E."
Definisi di atas pada dasarnya berfokus pada tiga parameter, juga komponen utama dari setiap algoritma pembelajaran, yaitu Task (T), Performance (P) dan experience (E). Dalam konteks ini, kita dapat menyederhanakan definisi ini sebagai -
ML adalah bidang AI yang terdiri dari algoritma pembelajaran yang -
Tingkatkan kinerja mereka (P)
Saat menjalankan beberapa tugas (T)
Seiring waktu dengan pengalaman (E)
Berdasarkan hal di atas, diagram berikut merepresentasikan Model Machine Learning -
Mari kita bahas lebih detail sekarang -
Tugas (T)
Dari perspektif masalah, kita dapat mendefinisikan tugas T sebagai masalah dunia nyata yang harus diselesaikan. Masalahnya bisa apa saja seperti menemukan harga rumah terbaik di lokasi tertentu atau menemukan strategi pemasaran terbaik dll. Di sisi lain, jika kita berbicara tentang pembelajaran mesin, definisi tugas berbeda karena sulit untuk menyelesaikan tugas berbasis ML dengan pendekatan pemrograman konvensional.
Tugas T dikatakan sebagai tugas berbasis ML jika didasarkan pada proses dan sistem harus mengikuti untuk beroperasi pada titik data. Contoh tugas berbasis ML adalah Klasifikasi, Regresi, Anotasi terstruktur, Pengelompokan, Transkripsi, dll.
Pengalaman (E)
Seperti namanya, ini adalah pengetahuan yang diperoleh dari titik data yang diberikan ke algoritme atau model. Setelah disediakan dengan kumpulan data, model akan berjalan secara iteratif dan akan mempelajari beberapa pola yang melekat. Pembelajaran yang diperoleh disebut pengalaman (E). Membuat analogi dengan pembelajaran manusia, kita dapat memikirkan situasi ini seperti di mana seorang manusia sedang belajar atau mendapatkan beberapa pengalaman dari berbagai atribut seperti situasi, hubungan dll. Pembelajaran yang diawasi, tanpa pengawasan dan penguatan adalah beberapa cara untuk belajar atau mendapatkan pengalaman. Pengalaman yang diperoleh dari model atau algoritma ML akan digunakan untuk menyelesaikan tugas T.
Kinerja (P)
Algoritme ML seharusnya melakukan tugas dan mendapatkan pengalaman seiring berjalannya waktu. Ukuran yang memberi tahu apakah algoritma ML bekerja sesuai harapan atau tidak adalah kinerjanya (P). P pada dasarnya adalah metrik kuantitatif yang memberi tahu bagaimana model melakukan tugas, T, menggunakan pengalamannya, E. Ada banyak metrik yang membantu untuk memahami kinerja ML, seperti skor akurasi, skor F1, matriks kebingungan, presisi, penarikan kembali , sensitivitas, dll.
Tantangan dalam Pembelajaran Mesin
Sementara Pembelajaran Mesin berkembang pesat, membuat langkah signifikan dengan keamanan siber dan mobil otonom, segmen AI ini secara keseluruhan masih memiliki jalan panjang. Alasannya, ML belum mampu mengatasi sejumlah tantangan. Tantangan yang dihadapi ML saat ini adalah -
Quality of data- Memiliki data berkualitas baik untuk algoritme ML adalah salah satu tantangan terbesar. Penggunaan data berkualitas rendah menyebabkan masalah yang terkait dengan pemrosesan awal data dan ekstraksi fitur.
Time-Consuming task - Tantangan lain yang dihadapi model ML adalah konsumsi waktu terutama untuk akuisisi data, ekstraksi fitur, dan pengambilan.
Lack of specialist persons - Karena teknologi ML masih dalam tahap awal, ketersediaan sumber daya ahli adalah pekerjaan yang sulit.
No clear objective for formulating business problems - Tidak adanya tujuan yang jelas dan tujuan yang jelas untuk masalah bisnis merupakan tantangan utama lainnya bagi ML karena teknologi ini belum begitu matang.
Issue of overfitting & underfitting - Jika model overfitting atau underfitting, model tidak dapat direpresentasikan dengan baik untuk masalah tersebut.
Curse of dimensionality- Tantangan lain yang dihadapi model ML adalah terlalu banyak fitur titik data. Ini bisa menjadi penghalang nyata.
Difficulty in deployment - Kompleksitas model ML membuatnya cukup sulit untuk diterapkan di kehidupan nyata.
Aplikasi Machine Learning
Machine Learning adalah teknologi yang berkembang paling pesat dan menurut para peneliti, kita berada di tahun emas AI dan ML. Ini digunakan untuk menyelesaikan banyak masalah kompleks dunia nyata yang tidak dapat diselesaikan dengan pendekatan tradisional. Berikut adalah beberapa aplikasi ML di dunia nyata -
Analisis emosi
Analisis sentimen
Deteksi dan pencegahan kesalahan
Peramalan dan prediksi cuaca
Analisis dan peramalan pasar saham
Sintesis ucapan
Pengenalan suara
Segmentasi pelanggan
Pengenalan objek
Deteksi penipuan
Pencegahan penipuan
Rekomendasi produk kepada pelanggan dalam belanja online.
Pengantar Python
Python adalah bahasa pemrograman berorientasi objek populer yang memiliki kemampuan bahasa pemrograman tingkat tinggi. Sintaks yang mudah dipelajari dan kapabilitas portabilitas membuatnya populer akhir-akhir ini. Fakta-fakta berikut memberi kita pengenalan tentang Python -
Python dikembangkan oleh Guido van Rossum di Stichting Mathematisch Centrum di Belanda.
Itu ditulis sebagai penerus bahasa pemrograman bernama 'ABC'.
Versi pertama dirilis pada tahun 1991.
Nama Python dipilih oleh Guido van Rossum dari sebuah acara TV bernama Sirkus Terbang Monty Python.
Ini adalah bahasa pemrograman open source yang artinya kita dapat dengan bebas mendownloadnya dan menggunakannya untuk mengembangkan program. Ini dapat diunduh dari www.python.org .
Bahasa pemrograman Python memiliki fitur Java dan C keduanya. Ia memiliki kode 'C' yang elegan dan di sisi lain, ia memiliki kelas dan objek seperti Java untuk pemrograman berorientasi objek.
Ini adalah bahasa yang ditafsirkan, yang berarti kode sumber program Python akan diubah terlebih dahulu menjadi bytecode dan kemudian dieksekusi oleh mesin virtual Python.
Kekuatan dan Kelemahan Python
Setiap bahasa pemrograman memiliki beberapa kelebihan dan juga kelemahan, begitu pula Python.
Kekuatan
Menurut studi dan survei, Python adalah bahasa terpenting kelima serta bahasa paling populer untuk pembelajaran mesin dan ilmu data. Itu karena kekuatan berikut yang dimiliki Python -
Easy to learn and understand- Sintaks Python lebih sederhana; oleh karena itu relatif mudah, bahkan bagi pemula juga, untuk belajar dan memahami bahasa.
Multi-purpose language - Python adalah bahasa pemrograman multiguna karena mendukung pemrograman terstruktur, pemrograman berorientasi objek, serta pemrograman fungsional.
Huge number of modules- Python memiliki sejumlah besar modul untuk mencakup setiap aspek pemrograman. Modul-modul ini mudah tersedia untuk digunakan sehingga menjadikan Python bahasa yang dapat dikembangkan.
Support of open source community- Sebagai bahasa pemrograman open source, Python didukung oleh komunitas pengembang yang sangat besar. Karena itu, bug dengan mudah diperbaiki oleh komunitas Python. Karakteristik ini membuat Python sangat kuat dan adaptif.
Scalability - Python adalah bahasa pemrograman yang dapat diskalakan karena menyediakan struktur yang lebih baik untuk mendukung program besar daripada skrip shell.
Kelemahan
Meskipun Python adalah bahasa pemrograman yang populer dan kuat, ia memiliki kelemahannya sendiri yaitu kecepatan eksekusi yang lambat.
Kecepatan eksekusi Python lambat dibandingkan dengan bahasa yang dikompilasi karena Python adalah bahasa yang ditafsirkan. Ini bisa menjadi area utama peningkatan untuk komunitas Python.
Menginstal Python
Untuk bekerja dengan Python, kita harus menginstalnya terlebih dahulu. Anda dapat melakukan instalasi Python dengan salah satu dari dua cara berikut -
Menginstal Python satu per satu
Menggunakan distribusi Python yang dikemas sebelumnya - Anaconda
Mari kita bahas masing-masing secara rinci.
Menginstal Python Secara Individual
Jika Anda ingin menginstal Python di komputer Anda, maka Anda hanya perlu mendownload kode biner yang berlaku untuk platform Anda. Distribusi Python tersedia untuk platform Windows, Linux dan Mac.
Berikut ini adalah ikhtisar cepat menginstal Python pada platform yang disebutkan di atas -
On Unix and Linux platform
Dengan bantuan langkah-langkah berikut, kita dapat menginstal Python di platform Unix dan Linux -
Pertama, buka https://www.python.org/downloads/.
Selanjutnya, klik tautan untuk mengunduh kode sumber zip yang tersedia untuk Unix / Linux.
Sekarang, Unduh dan ekstrak file.
Selanjutnya, kita dapat mengedit file Modules / Setup jika kita ingin menyesuaikan beberapa opsi.
Selanjutnya, tulis perintah run ./configure script
make
buat instal
On Windows platform
Dengan bantuan langkah-langkah berikut, kita dapat menginstal Python di platform Windows -
Pertama, buka https://www.python.org/downloads/.
Selanjutnya, klik tautan untuk file python-XYZ.msi penginstal Windows. Di sini XYZ adalah versi yang ingin kami instal.
Sekarang, kita harus menjalankan file yang diunduh. Ini akan membawa kita ke wizard instalasi Python, yang mudah digunakan. Sekarang, terima pengaturan default dan tunggu sampai penginstalan selesai.
On Macintosh platform
Untuk Mac OS X, Homebrew, penginstal paket yang hebat dan mudah digunakan disarankan untuk menginstal Python 3. Jika Anda tidak memiliki Homebrew, Anda dapat menginstalnya dengan bantuan perintah berikut -
$ ruby -e "$(curl -fsSL
https://raw.githubusercontent.com/Homebrew/install/master/install)"
Itu dapat diperbarui dengan perintah di bawah ini -
$ brew update
Sekarang, untuk menginstal Python3 di sistem Anda, kita perlu menjalankan perintah berikut -
$ brew install python3
Menggunakan Distribusi Python Pra-paket: Anaconda
Anaconda adalah kompilasi paket Python yang memiliki semua pustaka yang banyak digunakan dalam ilmu Data. Kita dapat mengikuti langkah-langkah berikut untuk mengatur lingkungan Python menggunakan Anaconda -
Step1- Pertama, kita perlu mengunduh paket instalasi yang diperlukan dari distribusi Anaconda. Tautan untuk hal yang sama adalahhttps://www.anaconda.com/distribution/. Anda dapat memilih dari Windows, Mac dan Linux OS sesuai kebutuhan Anda.
Step2- Selanjutnya, pilih versi Python yang ingin Anda instal di mesin Anda. Versi Python terbaru adalah 3.7. Di sana Anda akan mendapatkan opsi untuk penginstal Grafis 64-bit dan 32-bit keduanya.
Step3- Setelah memilih versi OS dan Python, penginstal Anaconda akan diunduh di komputer Anda. Sekarang, klik dua kali file tersebut dan penginstal akan menginstal paket Anaconda.
Step4 - Untuk memeriksa apakah sudah diinstal atau tidak, buka command prompt dan ketik Python sebagai berikut -
Anda juga dapat memeriksanya dalam video kuliah rinci dihttps://www.tutorialspoint.com/python_essentials_online_training/getting_started_with_anaconda.asp.
Mengapa Python untuk Ilmu Data?
Python adalah bahasa terpenting kelima serta bahasa paling populer untuk pembelajaran Mesin dan ilmu data. Berikut ini adalah fitur-fitur Python yang menjadikannya pilihan bahasa yang disukai untuk ilmu data -
Paket yang ekstensif
Python memiliki kumpulan paket yang luas dan kuat yang siap digunakan di berbagai domain. Ini juga memiliki paket seperti numpy, scipy, pandas, scikit-learn, dll. Yang diperlukan untuk pembelajaran mesin dan ilmu data.
Pembuatan prototipe yang mudah
Fitur penting lainnya dari Python yang menjadikannya pilihan bahasa untuk ilmu data adalah pembuatan prototipe yang mudah dan cepat. Fitur ini berguna untuk mengembangkan algoritma baru.
Fitur kolaborasi
Bidang ilmu data pada dasarnya membutuhkan kolaborasi yang baik dan Python menyediakan banyak alat berguna yang menjadikannya sangat berguna.
Satu bahasa untuk banyak domain
Proyek ilmu data yang khas mencakup berbagai domain seperti ekstraksi data, manipulasi data, analisis data, ekstraksi fitur, pemodelan, evaluasi, penerapan, dan pembaruan solusi. Karena Python adalah bahasa multiguna, ini memungkinkan ilmuwan data untuk menangani semua domain ini dari platform yang sama.
Komponen Ekosistem Python ML
Di bagian ini, mari kita bahas beberapa pustaka Sains Data inti yang membentuk komponen ekosistem pembelajaran Mesin Python. Komponen yang berguna ini menjadikan Python bahasa yang penting untuk Ilmu Data. Meskipun ada banyak komponen seperti itu, mari kita bahas beberapa komponen penting ekosistem Python di sini -
Notebook Jupyter
Notebook Jupyter pada dasarnya menyediakan lingkungan komputasi interaktif untuk mengembangkan aplikasi Ilmu Data berbasis Python. Mereka sebelumnya dikenal sebagai notebook ipython. Berikut ini adalah beberapa fitur notebook Jupyter yang menjadikannya salah satu komponen terbaik dari ekosistem Python ML -
Notebook Jupyter dapat mengilustrasikan proses analisis langkah demi langkah dengan mengatur hal-hal seperti kode, gambar, teks, keluaran, dll. Secara langkah demi langkah.
Ini membantu data scientist untuk mendokumentasikan proses berpikir sambil mengembangkan proses analisis.
Anda juga dapat menangkap hasilnya sebagai bagian dari notebook.
Dengan bantuan notebook jupyter, kami juga dapat berbagi pekerjaan kami dengan rekan.
Instalasi dan Eksekusi
Jika Anda menggunakan distribusi Anaconda, maka Anda tidak perlu menginstal notebook jupyter secara terpisah karena sudah terpasang dengannya. Anda hanya perlu pergi ke Anaconda Prompt dan ketik perintah berikut -
C:\>jupyter notebook
Setelah menekan enter, ini akan memulai server notebook di localhost: 8888 komputer Anda. Itu ditunjukkan pada tangkapan layar berikut -
Sekarang, setelah mengklik tab Baru, Anda akan mendapatkan daftar opsi. Pilih Python 3 dan itu akan membawa Anda ke buku catatan baru untuk mulai mengerjakannya. Anda akan melihatnya sekilas di screenshot berikut -
Di sisi lain, jika Anda menggunakan distribusi Python standar maka notebook jupyter dapat diinstal menggunakan pemasang paket python populer, pip.
pip install jupyter
Jenis Sel di Notebook Jupyter
Berikut ini adalah tiga jenis sel di notebook jupyter -
Code cells- Seperti namanya, kita bisa menggunakan sel ini untuk menulis kode. Setelah kode / konten ditulis, ia akan mengirimkannya ke kernel yang terkait dengan notebook.
Markdown cells- Kita dapat menggunakan sel-sel ini untuk mencatat proses komputasi. Mereka dapat berisi hal-hal seperti teks, gambar, persamaan Lateks, tag HTML, dll.
Raw cells- Teks yang tertulis di dalamnya ditampilkan sebagaimana adanya. Sel-sel ini pada dasarnya digunakan untuk menambahkan teks yang tidak ingin kita ubah oleh mekanisme konversi otomatis notebook jupyter.
Untuk studi lebih rinci tentang notebook jupyter, Anda dapat pergi ke linkhttps://www.tutorialspoint.com/jupyter/index.htm.
NumPy
Ini adalah komponen berguna lainnya yang menjadikan Python sebagai salah satu bahasa favorit untuk Data Science. Ini pada dasarnya adalah singkatan dari Numerical Python dan terdiri dari objek array multidimensi. Dengan menggunakan NumPy, kita dapat melakukan operasi penting berikut -
Operasi matematika dan logika pada array.
Transformasi Fourier
Operasi yang terkait dengan aljabar linier.
Kita juga bisa melihat NumPy sebagai pengganti MatLab karena NumPy banyak digunakan bersama dengan Scipy (Scientific Python) dan Mat-plotlib (pustaka plotting).
Installation and Execution
Jika Anda menggunakan distribusi Anaconda, maka tidak perlu memasang NumPy secara terpisah karena sudah terpasang dengannya. Anda hanya perlu mengimpor paket ke skrip Python Anda dengan bantuan berikut -
import numpy as np
Di sisi lain, jika Anda menggunakan distribusi Python standar, NumPy dapat diinstal menggunakan penginstal paket python populer, pip.
pip install NumPy
Untuk studi lebih lanjut tentang NumPy, Anda dapat mengunjungi tautanhttps://www.tutorialspoint.com/numpy/index.htm.
Panda
Ini adalah pustaka Python berguna lainnya yang menjadikan Python salah satu bahasa favorit untuk Data Science. Panda pada dasarnya digunakan untuk manipulasi, perselisihan, dan analisis data. Ini dikembangkan oleh Wes McKinney pada tahun 2008. Dengan bantuan Pandas, dalam pemrosesan data kita dapat menyelesaikan lima langkah berikut -
Load
Prepare
Manipulate
Model
Analyze
Representasi data di Pandas
Seluruh representasi data di Pandas dilakukan dengan bantuan tiga struktur data berikut -
Series- Ini pada dasarnya adalah ndarray satu dimensi dengan label sumbu yang berarti seperti array sederhana dengan data homogen. Misalnya, rangkaian berikut adalah kumpulan bilangan bulat 1,5,10,15,24,25…
1 | 5 | 10 | 15 | 24 | 25 | 28 | 36 | 40 | 89 |
Data frame- Ini adalah struktur data yang paling berguna dan digunakan untuk hampir semua jenis representasi dan manipulasi data di panda. Ini pada dasarnya adalah struktur data dua dimensi yang dapat berisi data heterogen. Umumnya data tabular direpresentasikan dengan menggunakan data frame. Misalnya, tabel berikut menunjukkan data siswa yang memiliki nama dan nomor gulungan, usia dan jenis kelamin -
Nama |
Nomor gulungan |
Usia |
Jenis kelamin |
---|---|---|---|
Aarav |
1 |
15 |
Pria |
Harshit |
2 |
14 |
Pria |
Kanika |
3 |
16 |
Perempuan |
Mayank |
4 |
15 |
Pria |
Panel- Ini adalah struktur data 3 dimensi yang berisi data heterogen. Sangat sulit untuk merepresentasikan panel dalam representasi grafis, tetapi dapat diilustrasikan sebagai wadah DataFrame.
Tabel berikut memberi kita dimensi dan deskripsi tentang struktur data yang disebutkan di atas yang digunakan di Pandas -
Struktur data |
Dimensi |
Deskripsi |
---|---|---|
Seri |
1-D |
Ukuran tidak dapat diubah, data homogen 1-D |
DataFrames |
2-D |
Size Mutable, data heterogen dalam bentuk tabel |
Panel |
3-D |
Larik yang dapat diubah ukuran, penampung DataFrame. |
Kita dapat memahami struktur data ini karena struktur data berdimensi lebih tinggi adalah wadah dari struktur data berdimensi lebih rendah.
Instalasi dan Eksekusi
Jika Anda menggunakan distribusi Anaconda, maka tidak perlu menginstal Pandas secara terpisah karena sudah diinstal dengannya. Anda hanya perlu mengimpor paket ke skrip Python Anda dengan bantuan berikut -
import pandas as pd
Di sisi lain, jika Anda menggunakan distribusi Python standar, Pandas dapat diinstal menggunakan penginstal paket python populer, pip.
pip install Pandas
Setelah menginstal Pandas, Anda dapat mengimpornya ke skrip Python Anda seperti yang dilakukan di atas.
Contoh
Berikut adalah contoh pembuatan rangkaian dari ndarray dengan menggunakan Pandas -
In [1]: import pandas as pd
In [2]: import numpy as np
In [3]: data = np.array(['g','a','u','r','a','v'])
In [4]: s = pd.Series(data)
In [5]: print (s)
0 g
1 a
2 u
3 r
4 a
5 v
dtype: object
Untuk studi lebih lanjut tentang Panda, Anda dapat mengunjungi tautan https://www.tutorialspoint.com/python_pandas/index.htm.
Scikit-learn
Pustaka python berguna dan terpenting lainnya untuk Ilmu Data dan pembelajaran mesin di Python adalah Scikit-learn. Berikut ini adalah beberapa fitur Scikit-learn yang membuatnya sangat berguna -
Itu dibangun di atas NumPy, SciPy, dan Matplotlib.
Ini adalah open source dan dapat digunakan kembali di bawah lisensi BSD.
Ini dapat diakses oleh semua orang dan dapat digunakan kembali dalam berbagai konteks.
Berbagai algoritme pembelajaran mesin yang mencakup area utama ML seperti klasifikasi, pengelompokan, regresi, pengurangan dimensi, pemilihan model, dll. Dapat diimplementasikan dengan bantuannya.
Instalasi dan Eksekusi
Jika Anda menggunakan distribusi Anaconda, maka tidak perlu menginstal Scikit-learn secara terpisah karena sudah diinstal dengannya. Anda hanya perlu menggunakan paket tersebut ke dalam skrip Python Anda. Misalnya, dengan baris skrip berikut kami mengimpor kumpulan data pasien kanker payudara dariScikit-learn -
from sklearn.datasets import load_breast_cancer
Di sisi lain, jika Anda menggunakan distribusi Python standar dan memiliki NumPy dan SciPy, maka Scikit-learn dapat diinstal menggunakan penginstal paket python populer, pip.
pip install -U scikit-learn
Setelah menginstal Scikit-learn, Anda dapat menggunakannya ke dalam skrip Python Anda seperti yang telah Anda lakukan di atas.
Ada berbagai algoritma, teknik, dan metode ML yang dapat digunakan untuk membangun model untuk memecahkan masalah kehidupan nyata dengan menggunakan data. Dalam bab ini, kita akan membahas berbagai jenis metode.
Jenis Metode yang Berbeda
Berikut ini adalah berbagai metode ML berdasarkan beberapa kategori luas -
Berdasarkan pengawasan manusia
Dalam proses pembelajaran, beberapa metode yang didasarkan pada supervisi manusia adalah sebagai berikut -
Supervised Learning
Algoritme atau metode pembelajaran yang diawasi adalah algoritme ML yang paling umum digunakan. Metode atau algoritma pembelajaran ini mengambil sampel data yaitu data latih dan keluaran terkaitnya yaitu label atau tanggapan dengan masing-masing sampel data selama proses pelatihan.
Tujuan utama dari algoritma pembelajaran yang diawasi adalah untuk mempelajari hubungan antara sampel data masukan dan keluaran yang sesuai setelah melakukan beberapa contoh data pelatihan.
Misalnya, kami punya
x: Variabel masukan dan
Y: Variabel keluaran
Sekarang, terapkan algoritma untuk mempelajari fungsi pemetaan dari masukan ke keluaran sebagai berikut -
Y = f (x)
Sekarang, tujuan utamanya adalah untuk memperkirakan fungsi pemetaan dengan sangat baik sehingga meskipun kita memiliki data masukan baru (x), kita dapat dengan mudah memprediksi variabel keluaran (Y) untuk data masukan baru tersebut.
Disebut diawasi karena seluruh proses pembelajaran dapat dianggap sebagai diawasi oleh seorang guru atau pengawas. Contoh algoritme pembelajaran mesin yang diawasi termasukDecision tree, Random Forest, KNN, Logistic Regression dll.
Berdasarkan tugas ML, algoritme pembelajaran yang diawasi dapat dibagi menjadi dua kelas besar berikut -
Classification
Regression
Classification
Tujuan utama dari tugas berbasis klasifikasi adalah untuk memprediksi label keluaran kategorial atau tanggapan untuk data masukan yang diberikan. Keluarannya akan didasarkan pada apa yang telah dipelajari model dalam fase pelatihan. Seperti yang kita ketahui bahwa respon keluaran kategorial berarti nilai tidak berurutan dan diskrit, maka setiap respon keluaran akan termasuk dalam kelas atau kategori tertentu. Kami juga akan membahas Klasifikasi dan algoritme terkait secara detail di bab-bab selanjutnya.
Regression
Tujuan utama dari tugas berbasis regresi adalah untuk memprediksi label keluaran atau tanggapan yang merupakan nilai numerik berkelanjutan, untuk data masukan yang diberikan. Keluaran akan didasarkan pada apa yang telah dipelajari model dalam fase pelatihannya. Pada dasarnya, model regresi menggunakan fitur data input (variabel independen) dan nilai output numerik kontinu yang sesuai (variabel dependen atau hasil) untuk mempelajari hubungan khusus antara input dan output yang sesuai. Kami akan membahas regresi dan algoritma terkait secara rinci di bab selanjutnya juga.
Pembelajaran Tanpa Pengawasan
Seperti namanya, ini berlawanan dengan metode atau algoritme ML yang diawasi yang berarti dalam algoritme pembelajaran mesin tanpa pengawasan, kami tidak memiliki supervisor untuk memberikan panduan apa pun. Algoritme pembelajaran yang tidak diawasi berguna dalam skenario di mana kami tidak memiliki kebebasan, seperti dalam algoritme pembelajaran yang diawasi, memiliki data pelatihan yang telah diberi label sebelumnya dan kami ingin mengekstrak pola yang berguna dari data masukan.
Misalnya, dapat dipahami sebagai berikut -
Misalkan kita memiliki -
x: Input variables, maka tidak akan ada variabel output yang sesuai dan algoritme perlu menemukan pola yang menarik dalam data untuk pembelajaran.
Contoh algoritme pembelajaran mesin tanpa pengawasan termasuk pengelompokan K-means, K-nearest neighbors dll.
Berdasarkan tugas ML, algoritme pembelajaran tanpa pengawasan dapat dibagi menjadi beberapa kelas luas berikut -
Clustering
Association
Pengurangan Dimensi
Clustering
Metode pengelompokan adalah salah satu metode ML tanpa pengawasan yang paling berguna. Algoritma ini digunakan untuk mencari kesamaan serta pola hubungan antar sampel data dan kemudian mengelompokkan sampel tersebut ke dalam kelompok yang memiliki kesamaan berdasarkan fiturnya. Contoh pengelompokan dunia nyata adalah mengelompokkan pelanggan menurut perilaku pembelian mereka.
Association
Metode ML tanpa pengawasan yang berguna lainnya adalah Associationyang digunakan untuk menganalisis kumpulan data yang besar untuk menemukan pola yang selanjutnya mewakili hubungan yang menarik antara berbagai item. Itu juga disebut sebagaiAssociation Rule Mining atau Market basket analysis yang terutama digunakan untuk menganalisis pola belanja pelanggan.
Dimensionality Reduction
Metode ML tanpa pengawasan ini digunakan untuk mengurangi jumlah variabel fitur untuk setiap sampel data dengan memilih kumpulan fitur utama atau perwakilan. Pertanyaan yang muncul di sini adalah mengapa kita perlu mengurangi dimensionalitas? Alasan di baliknya adalah masalah kompleksitas ruang fitur yang muncul saat kami mulai menganalisis dan mengekstrak jutaan fitur dari sampel data. Masalah ini umumnya mengacu pada "kutukan dimensi". PCA (Principal Component Analysis), K-terdekat tetangga dan analisis diskriminan adalah beberapa algoritma populer untuk tujuan ini.
Anomaly Detection
Metode ML tanpa pengawasan ini digunakan untuk mengetahui kemunculan kejadian langka atau observasi yang umumnya tidak terjadi. Dengan menggunakan pengetahuan yang dipelajari, metode deteksi anomali akan dapat membedakan antara titik data anomali atau normal. Beberapa algoritma unsupervised seperti clustering, KNN dapat mendeteksi anomali berdasarkan data dan fiturnya.
Pembelajaran Semi-supervisi
Algoritme atau metode semacam itu tidak sepenuhnya diawasi atau tidak sepenuhnya diawasi. Mereka pada dasarnya berada di antara keduanya yaitu metode pembelajaran yang diawasi dan tidak diawasi. Jenis algoritma ini umumnya menggunakan komponen pembelajaran yang diawasi kecil yaitu sejumlah kecil data beranotasi yang diberi label sebelumnya dan komponen pembelajaran tanpa pengawasan yang besar, yaitu banyak data yang tidak berlabel untuk pelatihan. Kami dapat mengikuti salah satu pendekatan berikut untuk menerapkan metode pembelajaran semi-supervisi -
Pendekatan pertama dan sederhana adalah membangun model yang diawasi berdasarkan sejumlah kecil data berlabel dan beranotasi, lalu membangun model tanpa pengawasan dengan menerapkan yang sama ke sejumlah besar data tak berlabel untuk mendapatkan lebih banyak sampel berlabel. Sekarang, latih modelnya dan ulangi prosesnya.
- , p> Pendekatan kedua membutuhkan upaya ekstra. Dalam pendekatan ini, pertama-tama kita dapat menggunakan metode tanpa pengawasan untuk mengelompokkan sampel data yang serupa, memberi anotasi pada kelompok ini, lalu menggunakan kombinasi informasi ini untuk melatih model.
Pembelajaran Penguatan
Metode ini berbeda dengan metode yang dipelajari sebelumnya dan sangat jarang digunakan juga. Dalam algoritma pembelajaran semacam ini, akan ada agen yang ingin kita latih selama periode waktu tertentu sehingga dapat berinteraksi dengan lingkungan tertentu. Agen akan mengikuti serangkaian strategi untuk berinteraksi dengan lingkungan dan kemudian setelah mengamati lingkungan itu akan mengambil tindakan terhadap keadaan lingkungan saat ini. Berikut ini adalah langkah-langkah utama metode pembelajaran penguatan -
Step1 - Pertama, kita perlu menyiapkan agen dengan beberapa rangkaian strategi awal.
Step2 - Kemudian amati lingkungan dan keadaannya saat ini.
Step3 - Selanjutnya, pilih kebijakan yang optimal sesuai dengan keadaan lingkungan saat ini dan lakukan tindakan penting.
Step4 - Sekarang, agen bisa mendapatkan hadiah atau penalti yang sesuai dengan tindakan yang diambil di langkah sebelumnya.
Step5 - Sekarang, kami dapat memperbarui strategi jika diperlukan.
Step6 - Terakhir, ulangi langkah 2-5 hingga agen mempelajari dan mengadopsi kebijakan yang optimal.
Tugas yang Cocok untuk Pembelajaran Mesin
Diagram berikut menunjukkan jenis tugas yang sesuai untuk berbagai masalah ML -
Berdasarkan kemampuan belajar
Dalam proses pembelajaran, berikut adalah beberapa metode yang didasarkan pada kemampuan belajar -
Batch Learning
Dalam banyak kasus, kami memiliki sistem Machine Learning end-to-end yang mengharuskan kami melatih model sekaligus menggunakan seluruh data pelatihan yang tersedia. Metode atau algoritma pembelajaran semacam itu disebutBatch or Offline learning. Ini disebut pembelajaran Batch atau Offline karena merupakan prosedur satu kali dan model akan dilatih dengan data dalam satu batch tunggal. Berikut ini adalah langkah-langkah utama metode pembelajaran batch -
Step1 - Pertama, kita perlu mengumpulkan semua data pelatihan untuk mulai melatih model.
Step2 - Sekarang, mulai pelatihan model dengan menyediakan seluruh data pelatihan sekaligus.
Step3 - Selanjutnya, hentikan proses belajar / pelatihan setelah Anda mendapatkan hasil / kinerja yang memuaskan.
Step4- Terakhir, terapkan model terlatih ini ke dalam produksi. Di sini, ini akan memprediksi keluaran untuk sampel data baru.
Pembelajaran online
Ini sepenuhnya berlawanan dengan metode pembelajaran batch atau offline. Dalam metode pembelajaran ini, data pelatihan disediakan dalam beberapa batch tambahan, yang disebut batch mini, ke algoritme. Berikut adalah langkah-langkah utama metode pembelajaran Online -
Step1 - Pertama, kita perlu mengumpulkan semua data pelatihan untuk memulai pelatihan model.
Step2 - Sekarang, mulai pelatihan model dengan menyediakan kumpulan kecil data pelatihan ke algoritme.
Step3 - Selanjutnya, kita perlu menyediakan kumpulan mini data pelatihan dalam beberapa peningkatan pada algoritme.
Step4 - Karena tidak akan berhenti seperti pembelajaran batch, maka setelah menyediakan seluruh data pelatihan dalam batch mini, berikan sampel data baru juga padanya.
Step5 - Terakhir, ini akan terus belajar selama periode waktu tertentu berdasarkan sampel data baru.
Berdasarkan Pendekatan Generalisasi
Dalam proses pembelajaran, berikut adalah beberapa metode yang didasarkan pada pendekatan generalisasi -
Pembelajaran berbasis Instance
Metode pembelajaran berbasis instans merupakan salah satu metode yang berguna untuk membangun model ML dengan melakukan generalisasi berdasarkan data masukan. Hal ini berlawanan dengan metode pembelajaran yang telah dipelajari sebelumnya karena jenis pembelajaran ini melibatkan sistem ML serta metode yang menggunakan titik data mentah itu sendiri untuk menarik hasil sampel data yang lebih baru tanpa membangun model eksplisit pada data pelatihan.
Dengan kata sederhana, pembelajaran berbasis contoh pada dasarnya mulai bekerja dengan melihat titik data masukan dan kemudian menggunakan metrik kesamaan, itu akan menggeneralisasi dan memprediksi titik data baru.
Pembelajaran berbasis model
Dalam metode pembelajaran berbasis model, proses iteratif terjadi pada model ML yang dibangun berdasarkan berbagai parameter model, yang disebut hyperparameter dan di mana data masukan digunakan untuk mengekstrak fitur. Dalam pembelajaran ini, hyperparameter dioptimalkan berdasarkan berbagai teknik validasi model. Itulah sebabnya kami dapat mengatakan bahwa metode pembelajaran berbasis model menggunakan pendekatan ML yang lebih tradisional menuju generalisasi.
Misalkan jika Anda ingin memulai proyek ML lalu apa hal pertama dan terpenting yang akan Anda perlukan? Ini adalah data yang perlu kami muat untuk memulai salah satu proyek ML. Terkait data, format data yang paling umum untuk project ML adalah CSV (nilai dipisahkan koma).
Pada dasarnya CSV adalah format file sederhana yang digunakan untuk menyimpan data tabular (angka dan teks) seperti spreadsheet dalam teks biasa. Dengan Python, kita dapat memuat data CSV ke dalam dengan cara yang berbeda tetapi sebelum memuat data CSV kita harus memperhatikan beberapa pertimbangan.
Pertimbangan Saat Memuat data CSV
Format data CSV adalah format yang paling umum untuk data ML, tetapi kami harus berhati-hati dalam mengikuti pertimbangan utama saat memuat yang sama ke dalam proyek ML kami -
File Header
Dalam file data CSV, header berisi informasi untuk setiap bidang. Kita harus menggunakan pembatas yang sama untuk file header dan untuk file data karena file headerlah yang menentukan bagaimana seharusnya bidang data diinterpretasikan.
Berikut adalah dua kasus terkait header file CSV yang harus diperhatikan -
Case-I: When Data file is having a file header - Ini akan secara otomatis menetapkan nama ke setiap kolom data jika file data memiliki file header.
Case-II: When Data file is not having a file header - Kita perlu memberikan nama untuk setiap kolom data secara manual jika file data tidak memiliki file header.
Dalam kedua kasus tersebut, kita harus menentukan secara eksplisit apakah file CSV kita berisi header atau tidak.
Komentar
Komentar dalam file data apa pun memiliki arti penting. Dalam file data CSV, komentar ditandai dengan hash (#) di awal baris. Kita perlu mempertimbangkan komentar saat memuat data CSV ke dalam proyek ML karena jika kita memiliki komentar di file maka kita mungkin perlu menunjukkan, tergantung pada metode yang kita pilih untuk memuat, apakah akan mengharapkan komentar tersebut atau tidak.
Pembatas
Dalam file data CSV, karakter koma (,) adalah pembatas standar. Peran pembatas adalah untuk memisahkan nilai di bidang. Penting untuk mempertimbangkan peran pembatas saat mengupload file CSV ke project ML karena kita juga dapat menggunakan pembatas yang berbeda seperti tab atau spasi. Tetapi dalam kasus menggunakan pembatas yang berbeda dari yang standar, kita harus menentukannya secara eksplisit.
Tanda kutip
Dalam file data CSV, tanda kutip ganda ("") adalah karakter kutipan default. Penting untuk mempertimbangkan peran tanda kutip saat mengunggah file CSV ke dalam proyek ML karena kita juga dapat menggunakan karakter kutipan selain tanda kutip ganda. Tetapi jika menggunakan karakter kutipan yang berbeda dari yang standar, kita harus menentukannya secara eksplisit.
Metode untuk Memuat File Data CSV
Saat bekerja dengan proyek ML, tugas terpenting adalah memuat data dengan benar ke dalamnya. Format data yang paling umum untuk project ML adalah CSV dan tersedia dalam berbagai bentuk dan berbagai kesulitan untuk diurai. Di bagian ini, kita akan membahas tentang tiga pendekatan umum dengan Python untuk memuat file data CSV -
Muat CSV dengan Python Standard Library
Pendekatan pertama dan paling banyak digunakan untuk memuat file data CSV adalah penggunaan pustaka standar Python yang memberi kita berbagai modul bawaan yaitu modul csv dan fungsi reader (). Berikut ini adalah contoh memuat file data CSV dengan bantuannya -
Contoh
Dalam contoh ini, kami menggunakan kumpulan data bunga iris yang dapat diunduh ke direktori lokal kami. Setelah memuat file data, kita dapat mengubahnya menjadi array NumPy dan menggunakannya untuk proyek ML. Berikut ini adalah script Python untuk memuat file data CSV -
Pertama, kita perlu mengimpor modul csv yang disediakan oleh pustaka standar Python sebagai berikut -
import csv
Selanjutnya, kita perlu mengimpor modul Numpy untuk mengubah data yang dimuat menjadi array NumPy.
import numpy as np
Sekarang, berikan jalur lengkap file tersebut, yang disimpan di direktori lokal kami, dengan file data CSV -
path = r"c:\iris.csv"
Selanjutnya, gunakan fungsi csv.reader () untuk membaca data dari file CSV -
with open(path,'r') as f:
reader = csv.reader(f,delimiter = ',')
headers = next(reader)
data = list(reader)
data = np.array(data).astype(float)
Kami dapat mencetak nama-nama header dengan baris skrip berikut -
print(headers)
Baris script berikut akan mencetak bentuk data yaitu jumlah baris & kolom di file -
print(data.shape)
Baris skrip berikutnya akan memberikan tiga baris pertama file data -
print(data[:3])
Output
['sepal_length', 'sepal_width', 'petal_length', 'petal_width']
(150, 4)
[ [5.1 3.5 1.4 0.2]
[4.9 3. 1.4 0.2]
[4.7 3.2 1.3 0.2]]
Muat CSV dengan NumPy
Pendekatan lain untuk memuat file data CSV adalah fungsi NumPy dan numpy.loadtxt (). Berikut ini adalah contoh memuat file data CSV dengan bantuannya -
Contoh
Dalam contoh ini, kami menggunakan Pima Indians Dataset yang memiliki data pasien diabetes. Dataset ini merupakan set data numerik tanpa header. Itu juga dapat diunduh ke direktori lokal kami. Setelah memuat file data, kita dapat mengubahnya menjadi array NumPy dan menggunakannya untuk proyek ML. Berikut ini adalah script Python untuk memuat file data CSV -
from numpy import loadtxt
path = r"C:\pima-indians-diabetes.csv"
datapath= open(path, 'r')
data = loadtxt(datapath, delimiter=",")
print(data.shape)
print(data[:3])
Keluaran
(768, 9)
[ [ 6. 148. 72. 35. 0. 33.6 0.627 50. 1.]
[ 1. 85. 66. 29. 0. 26.6 0.351 31. 0.]
[ 8. 183. 64. 0. 0. 23.3 0.672 32. 1.]]
Muat CSV dengan Panda
Pendekatan lain untuk memuat file data CSV adalah dengan fungsi Pandas dan pandas.read_csv (). Ini adalah fungsi yang sangat fleksibel yang mengembalikan pandas.DataFrame yang bisa langsung digunakan untuk membuat plot. Berikut ini adalah contoh memuat file data CSV dengan bantuannya -
Contoh
Di sini, kita akan menerapkan dua skrip Python, pertama dengan set data Iris yang memiliki header dan yang lainnya adalah dengan menggunakan Pima Indians Dataset yang merupakan dataset numerik tanpa header. Kedua dataset tersebut dapat diunduh ke direktori lokal.
Script-1
Berikut ini adalah script Python untuk memuat file data CSV menggunakan Pandas pada kumpulan Data Iris -
from pandas import read_csv
path = r"C:\iris.csv"
data = read_csv(path)
print(data.shape)
print(data[:3])
Output:
(150, 4)
sepal_length sepal_width petal_length petal_width
0 5.1 3.5 1.4 0.2
1 4.9 3.0 1.4 0.2
2 4.7 3.2 1.3 0.2
Script-2
Berikut ini adalah skrip Python untuk memuat file data CSV, bersama dengan memberikan nama header juga, menggunakan Pandas di dataset Pima Indians Diabetes -
from pandas import read_csv
path = r"C:\pima-indians-diabetes.csv"
headernames = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(path, names=headernames)
print(data.shape)
print(data[:3])
Output
(768, 9)
preg plas pres skin test mass pedi age class
0 6 148 72 35 0 33.6 0.627 50 1
1 1 85 66 29 0 26.6 0.351 31 0
2 8 183 64 0 0 23.3 0.672 32 1
Perbedaan antara tiga pendekatan yang digunakan di atas untuk memuat file data CSV dapat dengan mudah dipahami dengan bantuan contoh yang diberikan.
pengantar
Saat mengerjakan proyek pembelajaran mesin, biasanya kami mengabaikan dua bagian terpenting yang disebut mathematics dan data. Itu karena, kita tahu bahwa ML adalah pendekatan yang didorong oleh data dan model ML kita hanya akan memberikan hasil yang baik atau seburuk data yang kita berikan padanya.
Pada bab sebelumnya, kita membahas bagaimana kita dapat mengupload data CSV ke dalam proyek ML kita, tetapi alangkah baiknya untuk memahami data tersebut sebelum menguploadnya. Kami dapat memahami data dengan dua cara, dengan statistik dan dengan visualisasi.
Dalam bab ini, dengan bantuan resep Python berikut, kita akan memahami data ML dengan statistik.
Melihat Data Mentah
Resep pertama adalah melihat data mentah Anda. Penting untuk melihat data mentah karena wawasan yang akan kita dapatkan setelah melihat data mentah akan meningkatkan peluang kita untuk melakukan pra-pemrosesan serta penanganan data untuk proyek ML dengan lebih baik.
Berikut ini adalah skrip Python yang diimplementasikan dengan menggunakan fungsi head () dari Pandas DataFrame pada dataset diabetes Pima Indians untuk melihat 50 baris pertama untuk mendapatkan pemahaman yang lebih baik tentangnya -
Contoh
from pandas import read_csv
path = r"C:\pima-indians-diabetes.csv"
headernames = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(path, names=headernames)
print(data.head(50))
Keluaran
preg plas pres skin test mass pedi age class
0 6 148 72 35 0 33.6 0.627 50 1
1 1 85 66 29 0 26.6 0.351 31 0
2 8 183 64 0 0 23.3 0.672 32 1
3 1 89 66 23 94 28.1 0.167 21 0
4 0 137 40 35 168 43.1 2.288 33 1
5 5 116 74 0 0 25.6 0.201 30 0
6 3 78 50 32 88 31.0 0.248 26 1
7 10 115 0 0 0 35.3 0.134 29 0
8 2 197 70 45 543 30.5 0.158 53 1
9 8 125 96 0 0 0.0 0.232 54 1
10 4 110 92 0 0 37.6 0.191 30 0
11 10 168 74 0 0 38.0 0.537 34 1
12 10 139 80 0 0 27.1 1.441 57 0
13 1 189 60 23 846 30.1 0.398 59 1
14 5 166 72 19 175 25.8 0.587 51 1
15 7 100 0 0 0 30.0 0.484 32 1
16 0 118 84 47 230 45.8 0.551 31 1
17 7 107 74 0 0 29.6 0.254 31 1
18 1 103 30 38 83 43.3 0.183 33 0
19 1 115 70 30 96 34.6 0.529 32 1
20 3 126 88 41 235 39.3 0.704 27 0
21 8 99 84 0 0 35.4 0.388 50 0
22 7 196 90 0 0 39.8 0.451 41 1
23 9 119 80 35 0 29.0 0.263 29 1
24 11 143 94 33 146 36.6 0.254 51 1
25 10 125 70 26 115 31.1 0.205 41 1
26 7 147 76 0 0 39.4 0.257 43 1
27 1 97 66 15 140 23.2 0.487 22 0
28 13 145 82 19 110 22.2 0.245 57 0
29 5 117 92 0 0 34.1 0.337 38 0
30 5 109 75 26 0 36.0 0.546 60 0
31 3 158 76 36 245 31.6 0.851 28 1
32 3 88 58 11 54 24.8 0.267 22 0
33 6 92 92 0 0 19.9 0.188 28 0
34 10 122 78 31 0 27.6 0.512 45 0
35 4 103 60 33 192 24.0 0.966 33 0
36 11 138 76 0 0 33.2 0.420 35 0
37 9 102 76 37 0 32.9 0.665 46 1
38 2 90 68 42 0 38.2 0.503 27 1
39 4 111 72 47 207 37.1 1.390 56 1
40 3 180 64 25 70 34.0 0.271 26 0
41 7 133 84 0 0 40.2 0.696 37 0
42 7 106 92 18 0 22.7 0.235 48 0
43 9 171 110 24 240 45.4 0.721 54 1
44 7 159 64 0 0 27.4 0.294 40 0
45 0 180 66 39 0 42.0 1.893 25 1
46 1 146 56 0 0 29.7 0.564 29 0
47 2 71 70 27 0 28.0 0.586 22 0
48 7 103 66 32 0 39.1 0.344 31 1
49 7 105 0 0 0 0.0 0.305 24 0
Kita dapat mengamati dari keluaran di atas bahwa kolom pertama memberikan nomor baris yang sangat berguna untuk mereferensikan pengamatan tertentu.
Memeriksa Dimensi Data
Itu selalu merupakan praktik yang baik untuk mengetahui berapa banyak data, dalam hal baris dan kolom, yang kami miliki untuk proyek ML kami. Alasan di baliknya adalah -
Misalkan jika kita memiliki terlalu banyak baris dan kolom maka akan membutuhkan waktu lama untuk menjalankan algoritma dan melatih modelnya.
Misalkan jika kita memiliki terlalu sedikit baris dan kolom maka kita tidak akan memiliki cukup data untuk melatih model dengan baik.
Berikut ini adalah skrip Python yang diimplementasikan dengan mencetak properti bentuk pada Pandas Data Frame. Kami akan menerapkannya pada kumpulan data iris untuk mendapatkan jumlah baris dan kolom di dalamnya.
Contoh
from pandas import read_csv
path = r"C:\iris.csv"
data = read_csv(path)
print(data.shape)
Keluaran
(150, 4)
Dari output dapat kita amati dengan mudah bahwa kumpulan data iris yang akan kita gunakan memiliki 150 baris dan 4 kolom.
Mendapatkan Jenis Data Setiap Atribut
Ini adalah praktik baik lainnya untuk mengetahui tipe data dari setiap atribut. Alasan di baliknya adalah, sesuai dengan kebutuhan, terkadang kami mungkin perlu mengonversi satu tipe data ke tipe lainnya. Misalnya, kita mungkin perlu mengubah string menjadi floating point atau int untuk mewakili nilai kategorial atau ordinal. Kita bisa mendapatkan gambaran tentang tipe data atribut dengan melihat data mentahnya, tetapi cara lain adalah dengan menggunakan properti dtypes dari Pandas DataFrame. Dengan bantuan properti dtypes kita dapat mengkategorikan setiap tipe data atribut. Ini dapat dipahami dengan bantuan mengikuti skrip Python -
Contoh
from pandas import read_csv
path = r"C:\iris.csv"
data = read_csv(path)
print(data.dtypes)
Keluaran
sepal_length float64
sepal_width float64
petal_length float64
petal_width float64
dtype: object
Dari keluaran di atas, kita dapat dengan mudah mendapatkan tipe data dari setiap atribut.
Ringkasan Statistik Data
Kita telah membahas resep Python untuk mendapatkan bentuk yaitu jumlah baris dan kolom, dari data tetapi sering kali kita perlu meninjau ringkasan dari bentuk data tersebut. Ini dapat dilakukan dengan bantuan fungsi description () dari Pandas DataFrame yang selanjutnya menyediakan 8 properti statistik berikut dari setiap & setiap atribut data -
Count
Mean
Standar Deviasi
Nilai Minimum
Nilai maksimum
25%
Median yaitu 50%
75%
Contoh
from pandas import read_csv
from pandas import set_option
path = r"C:\pima-indians-diabetes.csv"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(path, names=names)
set_option('display.width', 100)
set_option('precision', 2)
print(data.shape)
print(data.describe())
Keluaran
(768, 9)
preg plas pres skin test mass pedi age class
count 768.00 768.00 768.00 768.00 768.00 768.00 768.00 768.00 768.00
mean 3.85 120.89 69.11 20.54 79.80 31.99 0.47 33.24 0.35
std 3.37 31.97 19.36 15.95 115.24 7.88 0.33 11.76 0.48
min 0.00 0.00 0.00 0.00 0.00 0.00 0.08 21.00 0.00
25% 1.00 99.00 62.00 0.00 0.00 27.30 0.24 24.00 0.00
50% 3.00 117.00 72.00 23.00 30.50 32.00 0.37 29.00 0.00
75% 6.00 140.25 80.00 32.00 127.25 36.60 0.63 41.00 1.00
max 17.00 199.00 122.00 99.00 846.00 67.10 2.42 81.00 1.00
Dari keluaran di atas dapat dilihat ringkasan statistik dari data dataset Pima Indian Diabetes beserta bentuk datanya.
Meninjau Distribusi Kelas
Statistik distribusi kelas berguna dalam masalah klasifikasi dimana kita perlu mengetahui keseimbangan nilai kelas. Penting untuk mengetahui distribusi nilai kelas karena jika kita memiliki distribusi kelas yang sangat tidak seimbang, yaitu satu kelas mengalami lebih banyak pengamatan dibandingkan kelas lainnya, maka mungkin perlu penanganan khusus pada tahap persiapan data proyek ML kita. Kita bisa dengan mudah mendapatkan distribusi kelas dengan Python dengan bantuan Pandas DataFrame.
Contoh
from pandas import read_csv
path = r"C:\pima-indians-diabetes.csv"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(path, names=names)
count_class = data.groupby('class').size()
print(count_class)
Keluaran
Class
0 500
1 268
dtype: int64
Dari keluaran di atas terlihat jelas bahwa jumlah observasi kelas 0 hampir dua kali lipat dari jumlah observasi kelas 1.
Meninjau Korelasi antara Atribut
Hubungan antara dua variabel disebut korelasi. Dalam statistik, metode paling umum untuk menghitung korelasi adalah Koefisien Korelasi Pearson. Ini dapat memiliki tiga nilai sebagai berikut -
Coefficient value = 1 - Ini mewakili penuh positive korelasi antar variabel.
Coefficient value = -1 - Ini mewakili penuh negative korelasi antar variabel.
Coefficient value = 0 - Ini mewakili no korelasi sama sekali antar variabel.
Ada baiknya bagi kami untuk meninjau korelasi berpasangan dari atribut dalam kumpulan data kami sebelum menggunakannya ke dalam proyek ML karena beberapa algoritme pembelajaran mesin seperti regresi linier dan regresi logistik akan berkinerja buruk jika kami memiliki atribut yang sangat berkorelasi. Dengan Python, kita dapat dengan mudah menghitung matriks korelasi atribut set data dengan bantuan fungsi corr () pada Pandas DataFrame.
Contoh
from pandas import read_csv
from pandas import set_option
path = r"C:\pima-indians-diabetes.csv"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(path, names=names)
set_option('display.width', 100)
set_option('precision', 2)
correlations = data.corr(method='pearson')
print(correlations)
Keluaran
preg plas pres skin test mass pedi age class
preg 1.00 0.13 0.14 -0.08 -0.07 0.02 -0.03 0.54 0.22
plas 0.13 1.00 0.15 0.06 0.33 0.22 0.14 0.26 0.47
pres 0.14 0.15 1.00 0.21 0.09 0.28 0.04 0.24 0.07
skin -0.08 0.06 0.21 1.00 0.44 0.39 0.18 -0.11 0.07
test -0.07 0.33 0.09 0.44 1.00 0.20 0.19 -0.04 0.13
mass 0.02 0.22 0.28 0.39 0.20 1.00 0.14 0.04 0.29
pedi -0.03 0.14 0.04 0.18 0.19 0.14 1.00 0.03 0.17
age 0.54 0.26 0.24 -0.11 -0.04 0.04 0.03 1.00 0.24
class 0.22 0.47 0.07 0.07 0.13 0.29 0.17 0.24 1.00
Matriks pada keluaran di atas memberikan korelasi antara semua pasangan atribut dalam dataset.
Meninjau Kemiringan Distribusi Atribut
Skewness dapat didefinisikan sebagai distribusi yang diasumsikan sebagai Gaussian tetapi tampak terdistorsi atau bergeser ke satu arah atau lainnya, atau ke kiri atau kanan. Meninjau kemiringan atribut adalah salah satu tugas penting karena alasan berikut -
Adanya skewness pada data membutuhkan koreksi pada tahap preparasi data sehingga diperoleh akurasi yang lebih dari model yang kita buat.
Sebagian besar algoritma ML mengasumsikan bahwa data memiliki distribusi Gaussian, yaitu data kurva lonceng normal.
Dengan Python, kita dapat dengan mudah menghitung kemiringan setiap atribut dengan menggunakan fungsi skew () pada Pandas DataFrame.
Contoh
from pandas import read_csv
path = r"C:\pima-indians-diabetes.csv"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(path, names=names)
print(data.skew())
Keluaran
preg 0.90
plas 0.17
pres -1.84
skin 0.11
test 2.27
mass -0.43
pedi 1.92
age 1.13
class 0.64
dtype: float64
Dari keluaran di atas, kemiringan positif atau negatif dapat diamati. Jika nilainya mendekati nol, maka kemiringannya berkurang.
pengantar
Di bab sebelumnya, kita telah membahas pentingnya data untuk algoritma Pembelajaran Mesin bersama dengan beberapa resep Python untuk memahami data dengan statistik. Ada cara lain yang disebut Visualisasi, untuk memahami data.
Dengan bantuan visualisasi data, kita dapat melihat seperti apa data tersebut dan seperti apa korelasi yang dimiliki oleh atribut data tersebut. Ini adalah cara tercepat untuk melihat apakah fitur sesuai dengan keluarannya. Dengan bantuan resep Python berikut, kita dapat memahami data ML dengan statistik.
Plot Univariat: Memahami Atribut Secara Mandiri
Jenis visualisasi yang paling sederhana adalah visualisasi variabel tunggal atau "univariat". Dengan bantuan visualisasi univariat, kami dapat memahami setiap atribut kumpulan data kami secara independen. Berikut ini adalah beberapa teknik dalam Python untuk mengimplementasikan visualisasi univariat -
Histogram
Histogram mengelompokkan data dalam bins dan merupakan cara tercepat untuk mendapatkan gambaran tentang distribusi setiap atribut dalam dataset. Berikut ini adalah beberapa ciri dari histogram -
Ini memberi kita hitungan jumlah pengamatan di setiap bin yang dibuat untuk visualisasi.
Dari bentuk binnya, kita dapat dengan mudah mengamati distribusinya yaitu cuaca Gaussian, miring atau eksponensial.
Histogram juga membantu kita melihat kemungkinan pencilan.
Contoh
Kode yang ditunjukkan di bawah ini adalah contoh script Python yang membuat histogram dari atribut dataset Pima Indian Diabetes. Di sini, kita akan menggunakan fungsi hist () pada Pandas DataFrame untuk menghasilkan histogram danmatplotlib untuk merencanakannya.
from matplotlib import pyplot
from pandas import read_csv
path = r"C:\pima-indians-diabetes.csv"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(path, names=names)
data.hist()
pyplot.show()
Keluaran
Output di atas menunjukkan bahwa itu membuat histogram untuk setiap atribut dalam dataset. Dari sini, kita dapat mengamati bahwa mungkin umur, pedi dan atribut uji mungkin memiliki distribusi eksponensial sedangkan massa dan plas memiliki distribusi Gaussian.
Petak Kepadatan
Teknik cepat dan mudah lainnya untuk mendapatkan setiap distribusi atribut adalah Density plot. Ini juga seperti histogram tetapi memiliki kurva halus yang ditarik melalui bagian atas setiap nampan. Kita bisa menyebutnya sebagai histogram abstrak.
Contoh
Dalam contoh berikut, skrip Python akan menghasilkan Density Plots untuk distribusi atribut dari dataset Pima Indian Diabetes.
from matplotlib import pyplot
from pandas import read_csv
path = r"C:\pima-indians-diabetes.csv"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(path, names=names)
data.plot(kind='density', subplots=True, layout=(3,3), sharex=False)
pyplot.show()
Keluaran
Dari keluaran di atas, perbedaan antara Density plot dan Histogram dapat dengan mudah dipahami.
Plot Kotak dan Kumis
Plot Kotak dan Kumis, singkatnya juga disebut plot kotak, adalah teknik lain yang berguna untuk meninjau distribusi setiap distribusi atribut. Berikut ini adalah karakteristik dari teknik ini -
Ini bersifat univariat dan merangkum distribusi setiap atribut.
Ini menarik garis untuk nilai tengah yaitu untuk median.
Ini menggambar kotak di sekitar 25% dan 75%.
Ini juga menarik kumis yang akan memberi kita gambaran tentang penyebaran data.
Titik-titik di luar kumis menandakan nilai pencilan. Nilai pencilan akan menjadi 1,5 kali lebih besar dari ukuran penyebaran data tengah.
Contoh
Dalam contoh berikut, skrip Python akan menghasilkan Density Plots untuk distribusi atribut dari dataset Pima Indian Diabetes.
from matplotlib import pyplot
from pandas import read_csv
path = r"C:\pima-indians-diabetes.csv"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(path, names=names)
data.plot(kind='box', subplots=True, layout=(3,3), sharex=False,sharey=False)
pyplot.show()
Keluaran
Dari plot sebaran atribut di atas, terlihat bahwa umur, tes dan kulit tampak condong ke nilai yang lebih kecil.
Plot Multivariasi: Interaksi Di Antara Beberapa Variabel
Jenis visualisasi lainnya adalah visualisasi multi-variabel atau "multivariasi". Dengan bantuan visualisasi multivariasi, kita dapat memahami interaksi antara beberapa atribut dari dataset kita. Berikut ini adalah beberapa teknik dalam Python untuk mengimplementasikan visualisasi multivariasi -
Plot Matriks Korelasi
Korelasi merupakan indikasi tentang perubahan antara dua variabel. Pada bab sebelumnya, kita telah membahas koefisien Korelasi Pearson dan pentingnya Korelasi juga. Kita dapat memplot matriks korelasi untuk menunjukkan variabel mana yang memiliki korelasi tinggi atau rendah terhadap variabel lain.
Contoh
Pada contoh berikut, skrip Python akan menghasilkan dan memetakan matriks korelasi untuk dataset Pima Indian Diabetes. Itu dapat dibuat dengan bantuan fungsi corr () pada Pandas DataFrame dan diplot dengan bantuan pyplot.
from matplotlib import pyplot
from pandas import read_csv
import numpy
Path = r"C:\pima-indians-diabetes.csv"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(Path, names=names)
correlations = data.corr()
fig = pyplot.figure()
ax = fig.add_subplot(111)
cax = ax.matshow(correlations, vmin=-1, vmax=1)
fig.colorbar(cax)
ticks = numpy.arange(0,9,1)
ax.set_xticks(ticks)
ax.set_yticks(ticks)
ax.set_xticklabels(names)
ax.set_yticklabels(names)
pyplot.show()
Keluaran
Dari keluaran matriks korelasi di atas, terlihat bahwa matriks tersebut simetris, yaitu kiri bawah sama dengan kanan atas. Juga diamati bahwa setiap variabel berkorelasi positif satu sama lain.
Plot Matriks Sebar
Plot sebar menunjukkan seberapa besar satu variabel dipengaruhi oleh variabel lain atau hubungan di antara mereka dengan bantuan titik dalam dua dimensi. Plot sebar sangat mirip dengan grafik garis dalam konsep yang menggunakan sumbu horizontal dan vertikal untuk memplot titik data.
Contoh
Pada contoh berikut, skrip Python akan menghasilkan dan memplot matriks Scatter untuk dataset Pima Indian Diabetes. Itu bisa dibuat dengan bantuan fungsi scatter_matrix () pada Pandas DataFrame dan diplot dengan bantuan pyplot.
from matplotlib import pyplot
from pandas import read_csv
from pandas.tools.plotting import scatter_matrix
path = r"C:\pima-indians-diabetes.csv"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(path, names=names)
scatter_matrix(data)
pyplot.show()
Keluaran
pengantar
Algoritme Pembelajaran Mesin sepenuhnya bergantung pada data karena ini adalah aspek paling penting yang memungkinkan pelatihan model. Di sisi lain, jika kami tidak dapat memahami data tersebut, sebelum memasukkannya ke algoritme ML, mesin tidak akan berguna. Dengan kata sederhana, kita selalu perlu memasukkan data yang benar yaitu data dalam skala yang benar, format dan berisi fitur yang berarti, untuk masalah yang kita ingin mesin selesaikan.
Ini menjadikan persiapan data sebagai langkah terpenting dalam proses ML. Persiapan data dapat didefinisikan sebagai prosedur yang membuat kumpulan data kami lebih sesuai untuk proses ML.
Mengapa Data Pre-processing?
Setelah memilih data mentah untuk pelatihan ML, tugas terpenting adalah pra-pemrosesan data. Dalam arti luas, pemrosesan awal data akan mengubah data yang dipilih menjadi bentuk yang dapat kami gunakan atau dapat dimasukkan ke algoritme ML. Kami selalu perlu memproses data kami terlebih dahulu sehingga dapat sesuai dengan harapan algoritme pembelajaran mesin.
Teknik Pra-pemrosesan Data
Kami memiliki teknik preprocessing data berikut yang dapat diterapkan pada kumpulan data untuk menghasilkan data untuk algoritma ML -
Penskalaan
Kemungkinan besar kumpulan data kami terdiri dari atribut dengan skala yang bervariasi, tetapi kami tidak dapat memberikan data tersebut ke algoritme ML sehingga memerlukan penskalaan ulang. Penskalaan ulang data memastikan bahwa atribut memiliki skala yang sama. Umumnya, atribut diskalakan kembali ke dalam rentang 0 dan 1. Algoritme ML seperti penurunan gradien dan k-Nearest Neighbours memerlukan data yang diskalakan. Kita dapat mengubah skala data dengan bantuan kelas MinMaxScaler dari pustaka scikit-learn Python.
Contoh
Dalam contoh ini kita akan melakukan rescale data dataset Pima Indians Diabetes yang kita gunakan sebelumnya. Pertama, data CSV akan dimuat (seperti yang dilakukan di bab-bab sebelumnya) dan kemudian dengan bantuan kelas MinMaxScaler, itu akan diskalakan kembali dalam kisaran 0 dan 1.
Beberapa baris pertama dari skrip berikut ini sama seperti yang telah kita tulis di bab sebelumnya saat memuat data CSV.
from pandas import read_csv
from numpy import set_printoptions
from sklearn import preprocessing
path = r'C:\pima-indians-diabetes.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(path, names=names)
array = dataframe.values
Sekarang, kita dapat menggunakan kelas MinMaxScaler untuk mengubah skala data dalam kisaran 0 dan 1.
data_scaler = preprocessing.MinMaxScaler(feature_range=(0,1))
data_rescaled = data_scaler.fit_transform(array)
Kami juga dapat meringkas data untuk output sesuai pilihan kami. Di sini, kami menetapkan presisi ke 1 dan menampilkan 10 baris pertama dalam output.
set_printoptions(precision=1)
print ("\nScaled data:\n", data_rescaled[0:10])
Keluaran
Scaled data:
[[0.4 0.7 0.6 0.4 0. 0.5 0.2 0.5 1. ]
[0.1 0.4 0.5 0.3 0. 0.4 0.1 0.2 0. ]
[0.5 0.9 0.5 0. 0. 0.3 0.3 0.2 1. ]
[0.1 0.4 0.5 0.2 0.1 0.4 0. 0. 0. ]
[0. 0.7 0.3 0.4 0.2 0.6 0.9 0.2 1. ]
[0.3 0.6 0.6 0. 0. 0.4 0.1 0.2 0. ]
[0.2 0.4 0.4 0.3 0.1 0.5 0.1 0.1 1. ]
[0.6 0.6 0. 0. 0. 0.5 0. 0.1 0. ]
[0.1 1. 0.6 0.5 0.6 0.5 0. 0.5 1. ]
[0.5 0.6 0.8 0. 0. 0. 0.1 0.6 1. ]]
Dari keluaran di atas, semua data diskalakan kembali ke kisaran 0 dan 1.
Normalisasi
Teknik preprocessing data berguna lainnya adalah Normalisasi. Ini digunakan untuk mengubah skala setiap baris data agar memiliki panjang 1. Ini terutama berguna dalam dataset Sparse di mana kita memiliki banyak nol. Kita bisa mengubah skala data dengan bantuan kelas Normalizer dari pustaka scikit-learn Python.
Jenis Normalisasi
Dalam pembelajaran mesin, ada dua jenis teknik preprocessing normalisasi sebagai berikut -
Normalisasi L1
Ini dapat didefinisikan sebagai teknik normalisasi yang mengubah nilai set data sedemikian rupa sehingga di setiap baris jumlah nilai absolut akan selalu mencapai 1. Ini juga disebut Penyimpangan Mutlak Terkecil.
Example
Pada contoh ini, kami menggunakan teknik L1 Normalize untuk menormalkan data dataset Pima Indians Diabetes yang kami gunakan sebelumnya. Pertama, data CSV akan dimuat dan kemudian dengan bantuan kelas Normalizer akan dinormalisasi.
Beberapa baris pertama dari skrip berikut ini sama seperti yang telah kita tulis di bab sebelumnya saat memuat data CSV.
from pandas import read_csv
from numpy import set_printoptions
from sklearn.preprocessing import Normalizer
path = r'C:\pima-indians-diabetes.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv (path, names=names)
array = dataframe.values
Sekarang, kita dapat menggunakan kelas Normalizer dengan L1 untuk menormalkan data.
Data_normalizer = Normalizer(norm='l1').fit(array)
Data_normalized = Data_normalizer.transform(array)
Kami juga dapat meringkas data untuk output sesuai pilihan kami. Di sini, kami menetapkan presisi ke 2 dan menampilkan 3 baris pertama di output.
set_printoptions(precision=2)
print ("\nNormalized data:\n", Data_normalized [0:3])
Output
Normalized data:
[[0.02 0.43 0.21 0.1 0. 0.1 0. 0.14 0. ]
[0. 0.36 0.28 0.12 0. 0.11 0. 0.13 0. ]
[0.03 0.59 0.21 0. 0. 0.07 0. 0.1 0. ]]
Normalisasi L2
Ini dapat didefinisikan sebagai teknik normalisasi yang memodifikasi nilai set data sedemikian rupa sehingga di setiap baris jumlah kuadrat akan selalu sampai 1. Ini juga disebut kuadrat terkecil.
Example
Dalam contoh ini, kami menggunakan teknik Normalisasi L2 untuk menormalkan data dataset Pima Indians Diabetes yang kami gunakan sebelumnya. Pertama, data CSV akan dimuat (seperti yang dilakukan pada bab sebelumnya) dan kemudian dengan bantuan kelas Normalizer akan dinormalisasi.
Beberapa baris pertama dari skrip berikut ini sama seperti yang telah kita tulis di bab sebelumnya saat memuat data CSV.
from pandas import read_csv
from numpy import set_printoptions
from sklearn.preprocessing import Normalizer
path = r'C:\pima-indians-diabetes.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv (path, names=names)
array = dataframe.values
Sekarang, kita dapat menggunakan kelas Normalizer dengan L1 untuk menormalkan data.
Data_normalizer = Normalizer(norm='l2').fit(array)
Data_normalized = Data_normalizer.transform(array)
Kami juga dapat meringkas data untuk output sesuai pilihan kami. Di sini, kami menetapkan presisi ke 2 dan menampilkan 3 baris pertama di output.
set_printoptions(precision=2)
print ("\nNormalized data:\n", Data_normalized [0:3])
Output
Normalized data:
[[0.03 0.83 0.4 0.2 0. 0.19 0. 0.28 0.01]
[0.01 0.72 0.56 0.24 0. 0.22 0. 0.26 0. ]
[0.04 0.92 0.32 0. 0. 0.12 0. 0.16 0.01]]
Binarisasi
Seperti namanya, ini adalah teknik yang dengannya kita dapat membuat biner data kita. Kita dapat menggunakan ambang biner untuk membuat data biner kita. Nilai di atas nilai ambang tersebut akan diubah menjadi 1 dan di bawah ambang tersebut akan diubah menjadi 0. Misalnya jika kita memilih nilai ambang = 0,5, maka nilai dataset di atasnya akan menjadi 1 dan di bawahnya menjadi 0. Artinya mengapa kita bisa menyebutnyabinarizing data atau thresholdingdata. Teknik ini berguna ketika kita memiliki probabilitas dalam dataset kita dan ingin mengubahnya menjadi nilai yang tajam.
Kita dapat melakukan binarisasi data dengan bantuan kelas Binarizer pustaka scikit-learn Python.
Contoh
Dalam contoh ini, kami akan mengubah skala data dari dataset Pima Indians Diabetes yang kami gunakan sebelumnya. Pertama, data CSV akan dimuat dan kemudian dengan bantuan kelas Binarizer akan diubah menjadi nilai biner yaitu 0 dan 1 tergantung pada nilai ambang batas. Kami mengambil 0,5 sebagai nilai ambang batas.
Beberapa baris pertama dari skrip berikut ini sama seperti yang telah kita tulis di bab sebelumnya saat memuat data CSV.
from pandas import read_csv
from sklearn.preprocessing import Binarizer
path = r'C:\pima-indians-diabetes.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(path, names=names)
array = dataframe.values
Sekarang, kita dapat menggunakan kelas Binarize untuk mengubah data menjadi nilai biner.
binarizer = Binarizer(threshold=0.5).fit(array)
Data_binarized = binarizer.transform(array)
Di sini, kami menunjukkan 5 baris pertama dalam output.
print ("\nBinary data:\n", Data_binarized [0:5])
Keluaran
Binary data:
[[1. 1. 1. 1. 0. 1. 1. 1. 1.]
[1. 1. 1. 1. 0. 1. 0. 1. 0.]
[1. 1. 1. 0. 0. 1. 1. 1. 1.]
[1. 1. 1. 1. 1. 1. 0. 1. 0.]
[0. 1. 1. 1. 1. 1. 1. 1. 1.]]
Standardisasi
Teknik preprocessing data berguna lainnya yang pada dasarnya digunakan untuk mengubah atribut data dengan distribusi Gaussian. Ini membedakan mean dan SD (Standard Deviation) dengan distribusi Gaussian standar dengan mean 0 dan SD 1. Teknik ini berguna dalam algoritma ML seperti regresi linier, regresi logistik yang mengasumsikan distribusi Gaussian dalam set data masukan dan menghasilkan lebih baik hasil dengan data yang diskalakan. Kita dapat membakukan data (mean = 0 dan SD = 1) dengan bantuan kelas StandardScaler pustaka scikit-learn Python.
Contoh
Dalam contoh ini, kami akan mengubah skala data dari dataset Pima Indians Diabetes yang kami gunakan sebelumnya. Pertama, data CSV akan dimuat kemudian dengan bantuan kelas StandardScaler akan diubah menjadi Distribusi Gaussian dengan mean = 0 dan SD = 1.
Beberapa baris pertama dari skrip berikut ini sama seperti yang telah kita tulis di bab sebelumnya saat memuat data CSV.
from sklearn.preprocessing import StandardScaler
from pandas import read_csv
from numpy import set_printoptions
path = r'C:\pima-indians-diabetes.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(path, names=names)
array = dataframe.values
Sekarang, kita dapat menggunakan kelas StandardScaler untuk mengubah skala data.
data_scaler = StandardScaler().fit(array)
data_rescaled = data_scaler.transform(array)
Kami juga dapat meringkas data untuk output sesuai pilihan kami. Di sini, kami menetapkan presisi ke 2 dan menampilkan 5 baris pertama di output.
set_printoptions(precision=2)
print ("\nRescaled data:\n", data_rescaled [0:5])
Keluaran
Rescaled data:
[[ 0.64 0.85 0.15 0.91 -0.69 0.2 0.47 1.43 1.37]
[-0.84 -1.12 -0.16 0.53 -0.69 -0.68 -0.37 -0.19 -0.73]
[ 1.23 1.94 -0.26 -1.29 -0.69 -1.1 0.6 -0.11 1.37]
[-0.84 -1. -0.16 0.15 0.12 -0.49 -0.92 -1.04 -0.73]
[-1.14 0.5 -1.5 0.91 0.77 1.41 5.48 -0.02 1.37]]
Pelabelan Data
Kami membahas pentingnya fata yang baik untuk algoritme ML serta beberapa teknik untuk memproses data sebelumnya sebelum mengirimkannya ke algoritme ML. Satu aspek lagi dalam hal ini adalah pelabelan data. Mengirimkan data ke algoritme ML yang memiliki pelabelan yang tepat juga sangat penting. Misalnya pada kasus masalah klasifikasi, banyak label berupa kata, angka, dll. Pada data tersebut.
Apa itu Label Encoding?
Sebagian besar fungsi sklearn mengharapkan data dengan label angka daripada label kata. Oleh karena itu, kita perlu mengubah label tersebut menjadi label angka. Proses ini disebut pengkodean label. Kita bisa melakukan pengkodean label data dengan bantuan fungsi LabelEncoder () dari pustaka scikit-learn Python.
Contoh
Dalam contoh berikut, skrip Python akan melakukan pengkodean label.
Pertama, impor pustaka Python yang diperlukan sebagai berikut -
import numpy as np
from sklearn import preprocessing
Sekarang, kita perlu memberikan label input sebagai berikut -
input_labels = ['red','black','red','green','black','yellow','white']
Baris kode berikutnya akan membuat pembuat enkode label dan melatihnya.
encoder = preprocessing.LabelEncoder()
encoder.fit(input_labels)
Baris skrip berikutnya akan memeriksa kinerja dengan menyandikan daftar urutan acak -
test_labels = ['green','red','black']
encoded_values = encoder.transform(test_labels)
print("\nLabels =", test_labels)
print("Encoded values =", list(encoded_values))
encoded_values = [3,0,4,1]
decoded_list = encoder.inverse_transform(encoded_values)
Kita bisa mendapatkan daftar nilai yang disandikan dengan bantuan skrip python berikut -
print("\nEncoded values =", encoded_values)
print("\nDecoded labels =", list(decoded_list))
Keluaran
Labels = ['green', 'red', 'black']
Encoded values = [1, 2, 0]
Encoded values = [3, 0, 4, 1]
Decoded labels = ['white', 'black', 'yellow', 'green']
Di bab sebelumnya, kita telah melihat secara detail cara melakukan praproses dan menyiapkan data untuk pembelajaran mesin. Pada bab ini, mari kita pahami secara detail pemilihan fitur data dan berbagai aspek yang terlibat di dalamnya.
Pentingnya Pemilihan Fitur Data
Performa model pembelajaran mesin berbanding lurus dengan fitur data yang digunakan untuk melatihnya. Performa model ML akan terpengaruh secara negatif jika fitur data yang disediakan tidak relevan. Di sisi lain, penggunaan fitur data yang relevan dapat meningkatkan akurasi model ML Anda, terutama regresi linier dan logistik.
Sekarang pertanyaan yang muncul adalah apa itu pemilihan fitur otomatis? Ini dapat didefinisikan sebagai proses dengan bantuan yang kami pilih fitur-fitur dalam data kami yang paling relevan dengan output atau variabel prediksi yang kami minati. Ini juga disebut pemilihan atribut.
Berikut ini adalah beberapa keuntungan dari pemilihan fitur otomatis sebelum memodelkan data -
Melakukan pemilihan fitur sebelum pemodelan data akan mengurangi overfitting.
Melakukan pemilihan fitur sebelum pemodelan data akan meningkatkan akurasi model ML.
Melakukan pemilihan fitur sebelum pemodelan data akan mengurangi waktu pelatihan
Teknik Pemilihan Fitur
Berikut ini adalah teknik pemilihan fitur otomatis yang dapat kita gunakan untuk membuat model data ML dengan Python -
Seleksi Univariat
Teknik pemilihan fitur ini sangat berguna dalam memilih fitur tersebut, dengan bantuan pengujian statistik, yang memiliki hubungan terkuat dengan variabel prediksi. Kita dapat mengimplementasikan teknik pemilihan fitur univariat dengan bantuan SelectKBest0class dari pustaka scikit-learn Python.
Example
Dalam contoh ini, kita akan menggunakan dataset Pima Indians Diabetes untuk memilih 4 atribut yang memiliki fitur terbaik dengan bantuan uji statistik chi-square.
from pandas import read_csv
from numpy import set_printoptions
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2
path = r'C:\pima-indians-diabetes.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(path, names=names)
array = dataframe.values
Selanjutnya, kita akan memisahkan array menjadi komponen input dan output -
X = array[:,0:8]
Y = array[:,8]
Baris kode berikut akan memilih fitur terbaik dari dataset -
test = SelectKBest(score_func=chi2, k=4)
fit = test.fit(X,Y)
Kami juga dapat meringkas data untuk output sesuai pilihan kami. Di sini, kami menetapkan presisi ke 2 dan menampilkan 4 atribut data dengan fitur terbaik bersama dengan skor terbaik dari setiap atribut -
set_printoptions(precision=2)
print(fit.scores_)
featured_data = fit.transform(X)
print ("\nFeatured data:\n", featured_data[0:4])
Output
[ 111.52 1411.89 17.61 53.11 2175.57 127.67 5.39 181.3 ]
Featured data:
[[148. 0. 33.6 50. ]
[ 85. 0. 26.6 31. ]
[183. 0. 23.3 32. ]
[ 89. 94. 28.1 21. ]]
Penghapusan Fitur Rekursif
Seperti namanya, teknik pemilihan fitur RFE (Recursive feature elimination) menghilangkan atribut secara rekursif dan membangun model dengan atribut yang tersisa. Kita dapat mengimplementasikan teknik pemilihan fitur RFE dengan bantuan kelas RFE pustaka scikit-learn Python.
Contoh
Dalam contoh ini, kami akan menggunakan RFE dengan algoritme regresi logistik untuk memilih 3 atribut terbaik yang memiliki fitur terbaik dari dataset Pima Indians Diabetes hingga.
from pandas import read_csv
from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression
path = r'C:\pima-indians-diabetes.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(path, names=names)
array = dataframe.values
Selanjutnya, kita akan memisahkan array menjadi komponen input dan outputnya -
X = array[:,0:8]
Y = array[:,8]
Baris kode berikut akan memilih fitur terbaik dari kumpulan data -
model = LogisticRegression()
rfe = RFE(model, 3)
fit = rfe.fit(X, Y)
print("Number of Features: %d")
print("Selected Features: %s")
print("Feature Ranking: %s")
Keluaran
Number of Features: 3
Selected Features: [ True False False False False True True False]
Feature Ranking: [1 2 3 5 6 1 1 4]
Kita dapat melihat pada output di atas, RFE memilih preg, mass dan pedi sebagai 3 fitur terbaik pertama. Mereka ditandai sebagai 1 pada keluaran.
Analisis Komponen Utama (PCA)
PCA, umumnya disebut teknik reduksi data, adalah teknik pemilihan fitur yang sangat berguna karena menggunakan aljabar linier untuk mengubah dataset menjadi bentuk terkompresi. Kita dapat mengimplementasikan teknik pemilihan fitur PCA dengan bantuan kelas PCA pustaka scikit-learn Python. Kita dapat memilih jumlah komponen utama dalam output.
Contoh
Dalam contoh ini, kami akan menggunakan PCA untuk memilih 3 komponen utama terbaik dari kumpulan data Pima Indians Diabetes.
from pandas import read_csv
from sklearn.decomposition import PCA
path = r'C:\pima-indians-diabetes.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(path, names=names)
array = dataframe.values
Selanjutnya, kita akan memisahkan array menjadi komponen input dan output -
X = array[:,0:8]
Y = array[:,8]
Baris kode berikut akan mengekstrak fitur dari dataset -
pca = PCA(n_components=3)
fit = pca.fit(X)
print("Explained Variance: %s") % fit.explained_variance_ratio_
print(fit.components_)
Keluaran
Explained Variance: [ 0.88854663 0.06159078 0.02579012]
[[ -2.02176587e-03 9.78115765e-02 1.60930503e-02 6.07566861e-02
9.93110844e-01 1.40108085e-02 5.37167919e-04 -3.56474430e-03]
[ 2.26488861e-02 9.72210040e-01 1.41909330e-01 -5.78614699e-02
-9.46266913e-02 4.69729766e-02 8.16804621e-04 1.40168181e-01]
[ -2.24649003e-02 1.43428710e-01 -9.22467192e-01 -3.07013055e-01
2.09773019e-02 -1.32444542e-01 -6.39983017e-04 -1.25454310e-01]]
Kita dapat mengamati dari keluaran di atas bahwa 3 Komponen Utama memiliki sedikit kemiripan dengan data sumber.
Pentingnya Fitur
Seperti namanya, teknik kepentingan fitur digunakan untuk memilih fitur kepentingan. Ini pada dasarnya menggunakan pengklasifikasi yang diawasi terlatih untuk memilih fitur. Kita bisa mengimplementasikan teknik pemilihan fitur ini dengan bantuan kelas ExtraTreeClassifier dari pustaka scikit-learn Python.
Contoh
Dalam contoh ini, kami akan menggunakan ExtraTreeClassifier untuk memilih fitur dari kumpulan data Pima Indians Diabetes.
from pandas import read_csv
from sklearn.ensemble import ExtraTreesClassifier
path = r'C:\Desktop\pima-indians-diabetes.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(data, names=names)
array = dataframe.values
Selanjutnya, kita akan memisahkan array menjadi komponen input dan output -
X = array[:,0:8]
Y = array[:,8]
Baris kode berikut akan mengekstrak fitur dari dataset -
model = ExtraTreesClassifier()
model.fit(X, Y)
print(model.feature_importances_)
Keluaran
[ 0.11070069 0.2213717 0.08824115 0.08068703 0.07281761 0.14548537 0.12654214 0.15415431]
Dari keluaran tersebut dapat diketahui bahwa terdapat skor untuk setiap atribut. Semakin tinggi skornya, semakin tinggi pentingnya atribut itu.
Pengantar Klasifikasi
Klasifikasi dapat didefinisikan sebagai proses memprediksi kelas atau kategori dari nilai yang diamati atau titik data yang diberikan. Keluaran yang dikategorikan dapat berupa "Hitam" atau "Putih" atau "spam" atau "tidak ada spam".
Secara matematis, klasifikasi adalah tugas mendekati fungsi pemetaan (f) dari variabel masukan (X) ke variabel keluaran (Y). Ini pada dasarnya milik pembelajaran mesin yang diawasi di mana target juga disediakan bersama dengan kumpulan data masukan.
Contoh masalah klasifikasi adalah deteksi spam di email. Hanya ada dua kategori keluaran, "spam" dan "tidak ada spam"; maka ini adalah klasifikasi tipe biner.
Untuk mengimplementasikan klasifikasi ini, pertama-tama kita perlu melatih pengklasifikasi. Untuk contoh ini, email "spam" dan "tanpa spam" akan digunakan sebagai data pelatihan. Setelah berhasil melatih pengklasifikasi, ini dapat digunakan untuk mendeteksi email yang tidak dikenal.
Jenis Peserta Didik dalam Klasifikasi
Kami memiliki dua jenis pelajar di masing-masing untuk masalah klasifikasi -
Pelajar Malas
Seperti namanya, pembelajar seperti itu menunggu data pengujian muncul setelah menyimpan data pelatihan. Klasifikasi dilakukan hanya setelah mendapatkan data pengujian. Mereka menghabiskan lebih sedikit waktu untuk pelatihan tetapi lebih banyak waktu untuk memprediksi. Contoh pelajar yang malas adalah tetangga terdekat K dan penalaran berbasis kasus.
Pelajar yang bersemangat
Berbeda dengan pelajar yang malas, pelajar yang bersemangat membuat model klasifikasi tanpa menunggu data pengujian muncul setelah menyimpan data pelatihan. Mereka menghabiskan lebih banyak waktu untuk pelatihan tetapi lebih sedikit waktu untuk memprediksi. Contoh pelajar yang bersemangat adalah Decision Trees, Naïve Bayes, dan Artificial Neural Networks (ANN).
Membangun Pengklasifikasi dengan Python
Scikit-learn, pustaka Python untuk pembelajaran mesin dapat digunakan untuk membangun pengklasifikasi dengan Python. Langkah-langkah untuk membuat pengklasifikasi dengan Python adalah sebagai berikut -
Langkah 1: Mengimpor paket python yang diperlukan
Untuk membangun pengklasifikasi menggunakan scikit-learn, kita perlu mengimpornya. Kita dapat mengimpornya dengan menggunakan skrip berikut -
import sklearn
Langkah2: Mengimpor kumpulan data
Setelah mengimpor paket yang diperlukan, kita membutuhkan dataset untuk membangun model prediksi klasifikasi. Kami dapat mengimpornya dari dataset sklearn atau dapat menggunakan yang lain sesuai kebutuhan kami. Kami akan menggunakan database Sklearn's Breast Cancer Wisconsin Diagnostic. Kami dapat mengimpornya dengan bantuan skrip berikut -
from sklearn.datasets import load_breast_cancer
Script berikut akan memuat dataset;
data = load_breast_cancer()
Kami juga perlu mengatur data dan itu dapat dilakukan dengan bantuan skrip berikut -
label_names = data['target_names']
labels = data['target']
feature_names = data['feature_names']
features = data['data']
Perintah berikut akan mencetak nama label, 'ganas' dan 'jinak' dalam database kami.
print(label_names)
Output dari perintah di atas adalah nama-nama label -
['malignant' 'benign']
Label ini dipetakan ke nilai biner 0 dan 1. Malignant kanker diwakili oleh 0 dan Benign kanker diwakili oleh 1.
Nama fitur dan nilai fitur dari label ini dapat dilihat dengan bantuan perintah berikut -
print(feature_names[0])
Output dari perintah di atas adalah nama-nama fitur untuk label 0 ie Malignant kanker -
mean radius
Demikian pula, nama fitur untuk label dapat dihasilkan sebagai berikut -
print(feature_names[1])
Output dari perintah di atas adalah nama fitur untuk label 1 ie Benign kanker -
mean texture
Kami dapat mencetak fitur untuk label ini dengan bantuan perintah berikut -
print(features[0])
Ini akan memberikan hasil sebagai berikut -
[1.799e+01 1.038e+01 1.228e+02 1.001e+03 1.184e-01 2.776e-01 3.001e-01
1.471e-01 2.419e-01 7.871e-02 1.095e+00 9.053e-01 8.589e+00 1.534e+02
6.399e-03 4.904e-02 5.373e-02 1.587e-02 3.003e-02 6.193e-03 2.538e+01
1.733e+01 1.846e+02 2.019e+03 1.622e-01 6.656e-01 7.119e-01 2.654e-01
4.601e-01 1.189e-01]
Kami dapat mencetak fitur untuk label ini dengan bantuan perintah berikut -
print(features[1])
Ini akan memberikan hasil sebagai berikut -
[2.057e+01 1.777e+01 1.329e+02 1.326e+03 8.474e-02 7.864e-02 8.690e-02
7.017e-02 1.812e-01 5.667e-02 5.435e-01 7.339e-01 3.398e+00 7.408e+01
5.225e-03 1.308e-02 1.860e-02 1.340e-02 1.389e-02 3.532e-03 2.499e+01
2.341e+01 1.588e+02 1.956e+03 1.238e-01 1.866e-01 2.416e-01 1.860e-01
2.750e-01 8.902e-02]
Langkah3: Mengatur data ke dalam set pelatihan & pengujian
Karena kami perlu menguji model kami pada data yang tidak terlihat, kami akan membagi kumpulan data kami menjadi dua bagian: satu set pelatihan dan satu set pengujian. Kita bisa menggunakan fungsi train_test_split () dari paket sklearn python untuk membagi data menjadi beberapa set. Perintah berikut akan mengimpor fungsi -
from sklearn.model_selection import train_test_split
Sekarang, perintah selanjutnya akan membagi data menjadi data pelatihan & pengujian. Dalam contoh ini, kami menggunakan pengambilan 40 persen data untuk tujuan pengujian dan 60 persen data untuk tujuan pelatihan -
train, test, train_labels, test_labels = train_test_split(features,labels,test_size = 0.40, random_state = 42)
Step4 - Evaluasi model
Setelah membagi data menjadi pelatihan dan pengujian kita perlu membangun model. Kami akan menggunakan algoritma Naïve Bayes untuk tujuan ini. Perintah berikut akan mengimpor modul GaussianNB -
from sklearn.naive_bayes import GaussianNB
Sekarang, inisialisasi model sebagai berikut -
gnb = GaussianNB()
Selanjutnya, dengan bantuan perintah berikut kita dapat melatih model -
model = gnb.fit(train, train_labels)
Nah, untuk tujuan evaluasi kita perlu membuat prediksi. Itu bisa dilakukan dengan menggunakan fungsi predict () sebagai berikut -
preds = gnb.predict(test)
print(preds)
Ini akan memberikan hasil sebagai berikut -
[1 0 0 1 1 0 0 0 1 1 1 0 1 0 1 0 1 1 1 0 1 1 0 1 1 1 1 1 1 0 1 1 1 1 1 1 0
1 0 1 1 0 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 0 0 1 1 0 0 1 1 1 0 0 1 1 0 0 1 0
1 1 1 1 1 1 0 1 1 0 0 0 0 0 1 1 1 1 1 1 1 1 0 0 1 0 0 1 0 0 1 1 1 0 1 1 0
1 1 0 0 0 1 1 1 0 0 1 1 0 1 0 0 1 1 0 0 0 1 1 1 0 1 1 0 0 1 0 1 1 0 1 0 0
1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 0 1 1 0 1 1 1 1 1 1 0 0
0 1 1 0 1 0 1 1 1 1 0 1 1 0 1 1 1 0 1 0 0 1 1 1 1 1 1 1 1 0 1 1 1 1 1 0 1
0 0 1 1 0 1]
Rangkaian 0s dan 1s dalam output di atas adalah nilai prediksi untuk Malignant dan Benign kelas tumor.
Step5- Menemukan akurasi
Akurasi dari build model dapat kita temukan pada langkah sebelumnya dengan membandingkan dua array yaitu test_labels dan preds. Kami akan menggunakan fungsi akurasi_score () untuk menentukan akurasi.
from sklearn.metrics import accuracy_score
print(accuracy_score(test_labels,preds))
0.951754385965
Keluaran di atas menunjukkan bahwa pengklasifikasi NaïveBayes akurat 95.17%.
Metrik Evaluasi Klasifikasi
Pekerjaan belum selesai meskipun Anda telah menyelesaikan implementasi model atau aplikasi Machine Learning Anda. Kita harus mencari tahu seberapa efektif model kita? Mungkin ada metrik evaluasi yang berbeda, tetapi kita harus memilihnya dengan hati-hati karena pilihan metrik memengaruhi bagaimana performa algoritme pembelajaran mesin diukur dan dibandingkan.
Berikut ini adalah beberapa metrik evaluasi klasifikasi yang penting di antaranya yang dapat Anda pilih berdasarkan kumpulan data dan jenis masalahnya -
Confusion Matrix
Ini adalah cara termudah untuk mengukur kinerja masalah klasifikasi di mana keluarannya bisa dari dua atau lebih jenis kelas. Matriks konfusi tidak lain adalah tabel dengan dua dimensi yaitu. “Aktual” dan “Prediksi” dan selanjutnya, kedua dimensi tersebut memiliki “True Positives (TP)”, “True Negatives (TN)”, “False Positives (FP)”, “False Negatives (FN)” seperti yang ditunjukkan di bawah ini -
True Positives (TP) - Ini adalah kasus ketika kelas aktual & kelas prediksi titik data adalah 1.
True Negatives (TN) - Ini adalah kasus ketika kelas aktual & kelas prediksi titik data adalah 0.
False Positives (FP) - Ini adalah kasus ketika kelas titik data aktual adalah 0 & kelas titik data yang diprediksi adalah 1.
False Negatives (FN) - Ini adalah kasus ketika kelas titik data aktual adalah 1 & kelas titik data yang diprediksi adalah 0.
Kita dapat menemukan matriks konfusi dengan bantuan fungsi confusion_matrix () dari sklearn. Dengan bantuan skrip berikut, kita dapat menemukan matriks kebingungan dari pengklasifikasi biner yang dibangun di atas -
from sklearn.metrics import confusion_matrix
Keluaran
[[ 73 7]
[ 4 144]]
Ketepatan
Ini dapat didefinisikan sebagai jumlah prediksi yang benar yang dibuat oleh model ML kami. Kita dapat dengan mudah menghitungnya dengan matriks kebingungan dengan bantuan rumus berikut -
$$=\frac{+}{+++}$$Untuk pengklasifikasi biner yang dibangun di atas, TP + TN = 73 + 144 = 217 dan TP + FP + FN + TN = 73 + 7 + 4 + 144 = 228.
Karenanya, Accuracy = 217/228 = 0.951754385965 yang sama seperti yang telah kita hitung setelah membuat pengklasifikasi biner kita.
Presisi
Presisi, yang digunakan dalam pengambilan dokumen, dapat didefinisikan sebagai jumlah dokumen benar yang dikembalikan oleh model ML kita. Kita dapat dengan mudah menghitungnya dengan matriks kebingungan dengan bantuan rumus berikut -
$$=\frac{}{+FP}$$Untuk pengklasifikasi biner yang dibangun di atas, TP = 73 dan TP + FP = 73 + 7 = 80.
Karenanya, Presisi = 73/80 = 0,915
Ingat atau Sensitivitas
Perolehan dapat didefinisikan sebagai jumlah positif yang dikembalikan oleh model ML kami. Kita dapat dengan mudah menghitungnya dengan matriks kebingungan dengan bantuan rumus berikut -
$$=\frac{}{+FN}$$Untuk pengklasifikasi biner yang dibangun di atas, TP = 73 dan TP + FN = 73 + 4 = 77.
Karenanya, Presisi = 73/77 = 0,94805
Kekhususan
Kekhususan, berbeda dengan perolehan, dapat didefinisikan sebagai jumlah negatif yang dikembalikan oleh model ML kita. Kita dapat dengan mudah menghitungnya dengan matriks kebingungan dengan bantuan rumus berikut -
$$=\frac{N}{N+FP}$$Untuk pengklasifikasi biner yang dibangun di atas, TN = 144 dan TN + FP = 144 + 7 = 151.
Oleh karena itu, Presisi = 144/151 = 0,95364
Berbagai Algoritma Klasifikasi ML
Berikut ini adalah beberapa algoritme klasifikasi ML yang penting -
Regresi logistik
Mendukung Mesin Vektor (SVM)
Pohon Keputusan
Naïve Bayes
Random Forest
Kita akan membahas semua algoritma klasifikasi ini secara mendetail di bab selanjutnya.
Aplikasi
Beberapa aplikasi terpenting dari algoritma klasifikasi adalah sebagai berikut -
Pengenalan suara
Pengenalan tulisan tangan
Identifikasi Biometrik
Klasifikasi Dokumen
Pengantar Regresi Logistik
Regresi logistik adalah algoritma klasifikasi pembelajaran terbimbing yang digunakan untuk memprediksi probabilitas variabel target. Sifat target atau variabel dependen bersifat dikotomis, yang berarti hanya akan ada dua kelas yang memungkinkan.
Dengan kata sederhana, variabel dependen bersifat biner yang memiliki data dikodekan sebagai 1 (singkatan dari sukses / ya) atau 0 (singkatan dari kegagalan / tidak).
Secara matematis, model regresi logistik memprediksi P (Y = 1) sebagai fungsi X. Ini adalah salah satu algoritma ML paling sederhana yang dapat digunakan untuk berbagai masalah klasifikasi seperti deteksi spam, prediksi diabetes, deteksi kanker, dll.
Jenis-jenis Regresi Logistik
Secara umum, regresi logistik berarti regresi logistik biner yang memiliki variabel target biner, tetapi dapat ada dua kategori variabel target lagi yang dapat diprediksi olehnya. Berdasarkan jumlah kategori tersebut, regresi logistik dapat dibagi menjadi beberapa jenis berikut -
Biner atau Binomial
Dalam klasifikasi semacam itu, variabel dependen hanya akan memiliki dua jenis yang mungkin, yaitu 1 dan 0. Misalnya, variabel ini dapat mewakili keberhasilan atau kegagalan, ya atau tidak, menang atau kalah, dll.
Multinomial
Dalam klasifikasi semacam itu, variabel dependen dapat memiliki 3 atau lebih kemungkinan tipe tak berurutan atau tipe yang tidak memiliki signifikansi kuantitatif. Misalnya, variabel ini mungkin mewakili "Tipe A" atau "Tipe B" atau "Tipe C".
Urut
Dalam klasifikasi semacam itu, variabel dependen dapat memiliki 3 atau lebih jenis urutan yang mungkin atau jenis yang memiliki signifikansi kuantitatif. Misalnya, variabel ini mungkin mewakili "buruk" atau "baik", "sangat baik", "Sangat baik" dan setiap kategori dapat memiliki skor seperti 0,1,2,3.
Asumsi Regresi Logistik
Sebelum mendalami penerapan regresi logistik, kita harus menyadari asumsi berikut tentang hal yang sama -
Dalam kasus regresi logistik biner, variabel target harus selalu biner dan hasil yang diinginkan diwakili oleh level faktor 1.
Tidak boleh ada multikolinieritas dalam model, yang berarti variabel independen harus independen satu sama lain.
Kita harus memasukkan variabel yang berarti dalam model kita.
Kita harus memilih ukuran sampel yang besar untuk regresi logistik.
Model Regresi Logistik Biner
Bentuk paling sederhana dari regresi logistik adalah regresi logistik biner atau binomial di mana target atau variabel dependen hanya dapat memiliki 2 kemungkinan jenis, baik 1 atau 0. Hal ini memungkinkan kita untuk memodelkan hubungan antara beberapa variabel prediktor dan variabel target biner / binomial. Dalam kasus regresi logistik, fungsi linier pada dasarnya digunakan sebagai input ke fungsi lain seperti pada relasi berikut -
$h_{\theta}{(x)}=g(\theta^{T}x)ℎ 0≤h_{\theta}≤1$Di sini, adalah fungsi logistik atau sigmoid yang dapat diberikan sebagai berikut -
$g(z)= \frac{1}{1+e^{-z}}ℎ =\theta ^{T}$Untuk kurva sigmoid dapat direpresentasikan dengan bantuan grafik berikut. Kita dapat melihat nilai sumbu y berada di antara 0 dan 1 dan memotong sumbu pada 0,5.
Kelas dapat dibagi menjadi positif atau negatif. Output berada di bawah probabilitas kelas positif jika terletak antara 0 dan 1. Untuk implementasi kami, kami menginterpretasikan output fungsi hipotesis sebagai positif jika ≥0,5, jika tidak negatif.
Kita juga perlu mendefinisikan fungsi kerugian untuk mengukur seberapa baik kinerja algoritma menggunakan bobot pada fungsi, yang diwakili oleh theta sebagai berikut -
ℎ = ()
$J(\theta) = \frac{1}{m}.(-y^{T}log(h) - (1 -y)^Tlog(1-h))$Sekarang, setelah menentukan fungsi kerugian, tujuan utama kami adalah meminimalkan fungsi kerugian. Hal itu dapat dilakukan dengan bantuan pemasangan bobot yang artinya menambah atau mengurangi bobot. Dengan bantuan turunan dari fungsi kerugian wrt setiap bobot, kita akan dapat mengetahui parameter apa yang harus memiliki bobot tinggi dan parameter apa yang harus memiliki bobot lebih kecil.
Persamaan penurunan gradien berikut memberi tahu kita bagaimana kerugian akan berubah jika kita memodifikasi parameter -
$\frac{()}{\theta_{j}}=\frac{1}{m}X^{T}(()−)$Implementasi dengan Python
Sekarang kita akan menerapkan konsep regresi logistik binomial di atas dengan Python. Untuk tujuan ini, kami menggunakan kumpulan data bunga multivariat bernama 'iris' yang memiliki 3 kelas masing-masing 50 instance, tetapi kami akan menggunakan dua kolom fitur pertama. Setiap kelas mewakili satu jenis bunga iris.
Pertama, kita perlu mengimpor pustaka yang diperlukan sebagai berikut -
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn import datasets
Selanjutnya, muat dataset iris sebagai berikut -
iris = datasets.load_iris()
X = iris.data[:, :2]
y = (iris.target != 0) * 1
Kita dapat memplot data pelatihan kita sebagai berikut -
plt.figure(figsize=(6, 6))
plt.scatter(X[y == 0][:, 0], X[y == 0][:, 1], color='g', label='0')
plt.scatter(X[y == 1][:, 0], X[y == 1][:, 1], color='y', label='1')
plt.legend();
Selanjutnya, kita akan mendefinisikan fungsi sigmoid, fungsi kerugian dan penurunan gradien sebagai berikut -
class LogisticRegression:
def __init__(self, lr=0.01, num_iter=100000, fit_intercept=True, verbose=False):
self.lr = lr
self.num_iter = num_iter
self.fit_intercept = fit_intercept
self.verbose = verbose
def __add_intercept(self, X):
intercept = np.ones((X.shape[0], 1))
return np.concatenate((intercept, X), axis=1)
def __sigmoid(self, z):
return 1 / (1 + np.exp(-z))
def __loss(self, h, y):
return (-y * np.log(h) - (1 - y) * np.log(1 - h)).mean()
def fit(self, X, y):
if self.fit_intercept:
X = self.__add_intercept(X)
Sekarang, inisialisasi bobot sebagai berikut -
self.theta = np.zeros(X.shape[1])
for i in range(self.num_iter):
z = np.dot(X, self.theta)
h = self.__sigmoid(z)
gradient = np.dot(X.T, (h - y)) / y.size
self.theta -= self.lr * gradient
z = np.dot(X, self.theta)
h = self.__sigmoid(z)
loss = self.__loss(h, y)
if(self.verbose ==True and i % 10000 == 0):
print(f'loss: {loss} \t')
Dengan bantuan skrip berikut, kita dapat memprediksi probabilitas keluaran -
def predict_prob(self, X):
if self.fit_intercept:
X = self.__add_intercept(X)
return self.__sigmoid(np.dot(X, self.theta))
def predict(self, X):
return self.predict_prob(X).round()
Selanjutnya, kita dapat mengevaluasi model dan memplotnya sebagai berikut -
model = LogisticRegression(lr=0.1, num_iter=300000)
preds = model.predict(X)
(preds == y).mean()
plt.figure(figsize=(10, 6))
plt.scatter(X[y == 0][:, 0], X[y == 0][:, 1], color='g', label='0')
plt.scatter(X[y == 1][:, 0], X[y == 1][:, 1], color='y', label='1')
plt.legend()
x1_min, x1_max = X[:,0].min(), X[:,0].max(),
x2_min, x2_max = X[:,1].min(), X[:,1].max(),
xx1, xx2 = np.meshgrid(np.linspace(x1_min, x1_max), np.linspace(x2_min, x2_max))
grid = np.c_[xx1.ravel(), xx2.ravel()]
probs = model.predict_prob(grid).reshape(xx1.shape)
plt.contour(xx1, xx2, probs, [0.5], linewidths=1, colors='red');
Model Regresi Logistik Multinomial
Bentuk lain dari regresi logistik adalah regresi logistik multinomial di mana target atau variabel dependen dapat memiliki 3 atau lebih kemungkinan jenis tak berurutan, yaitu jenis yang tidak memiliki signifikansi kuantitatif.
Implementasi dengan Python
Sekarang kita akan menerapkan konsep regresi logistik multinomial di atas dengan Python. Untuk tujuan ini, kami menggunakan dataset dari sklearn bernama digit.
Pertama, kita perlu mengimpor pustaka yang diperlukan sebagai berikut -
Import sklearn
from sklearn import datasets
from sklearn import linear_model
from sklearn import metrics
from sklearn.model_selection import train_test_split
Selanjutnya, kita perlu memuat dataset digit -
digits = datasets.load_digits()
Sekarang, tentukan matriks fitur (X) dan vektor respons (y) sebagai berikut -
X = digits.data
y = digits.target
Dengan bantuan baris kode berikutnya, kita dapat membagi X dan y menjadi set pelatihan dan pengujian -
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=1)
Sekarang buat objek regresi logistik sebagai berikut -
digreg = linear_model.LogisticRegression()
Sekarang, kita perlu melatih model dengan menggunakan set pelatihan sebagai berikut -
digreg.fit(X_train, y_train)
Selanjutnya, buat prediksi pada set pengujian sebagai berikut -
y_pred = digreg.predict(X_test)
Selanjutnya cetak keakuratan model sebagai berikut -
print("Accuracy of Logistic Regression model is:",
metrics.accuracy_score(y_test, y_pred)*100)
Keluaran
Accuracy of Logistic Regression model is: 95.6884561891516
Dari keluaran di atas kita bisa melihat akurasi model kita sekitar 96 persen.
Pengantar SVM
Mesin vektor dukungan (SVM) adalah algoritme pembelajaran mesin yang diawasi dan kuat namun fleksibel yang digunakan untuk klasifikasi dan regresi. Tetapi secara umum, mereka digunakan dalam masalah klasifikasi. Pada tahun 1960-an, SVM pertama kali diperkenalkan tetapi kemudian disempurnakan pada tahun 1990. SVM memiliki cara penerapan yang unik dibandingkan dengan algoritme pembelajaran mesin lainnya. Belakangan ini, mereka sangat populer karena kemampuannya untuk menangani banyak variabel kontinu dan kategorikal.
Bekerja dari SVM
Model SVM pada dasarnya adalah representasi dari kelas-kelas yang berbeda dalam bidang-hiper dalam ruang multidimensi. Hyperplane akan dibuat secara iteratif oleh SVM sehingga kesalahan dapat diminimalkan. Tujuan dari SVM adalah membagi dataset ke dalam kelas-kelas untuk menemukan bidang maksimum marginal (MMH).
Berikut ini adalah konsep penting dalam SVM -
Support Vectors- Titik data yang paling dekat dengan hyperplane disebut vektor dukungan. Garis pemisah akan ditentukan dengan bantuan titik data ini.
Hyperplane - Seperti yang dapat kita lihat pada diagram di atas, itu adalah bidang keputusan atau ruang yang terbagi antara sekumpulan objek yang memiliki kelas berbeda.
Margin- Dapat didefinisikan sebagai celah antara dua garis pada titik data lemari dari kelas yang berbeda. Ini dapat dihitung sebagai jarak tegak lurus dari garis ke vektor pendukung. Margin besar dianggap sebagai margin baik dan margin kecil dianggap sebagai margin buruk.
Tujuan utama dari SVM adalah membagi dataset menjadi kelas-kelas untuk menemukan maksimum marginal hyperplane (MMH) dan dapat dilakukan dalam dua langkah berikut -
Pertama, SVM akan menghasilkan hyperplanes secara berulang yang memisahkan kelas dengan cara terbaik.
Kemudian, ia akan memilih hyperplane yang memisahkan kelas dengan benar.
Menerapkan SVM dengan Python
Untuk mengimplementasikan SVM dengan Python kita akan mulai dengan import librari standar sebagai berikut -
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
import seaborn as sns; sns.set()
Selanjutnya, kami membuat kumpulan data sampel, yang memiliki data yang dapat dipisahkan secara linier, dari sklearn.dataset.sample_generator untuk klasifikasi menggunakan SVM -
from sklearn.datasets.samples_generator import make_blobs
X, y = make_blobs(n_samples=100, centers=2,
random_state=0, cluster_std=0.50)
plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='summer');
Berikut output setelah menghasilkan sample dataset yang memiliki 100 sample dan 2 cluster -
Kami tahu bahwa SVM mendukung klasifikasi diskriminatif. itu membagi kelas satu sama lain dengan hanya menemukan garis dalam kasus dua dimensi atau manifold dalam kasus beberapa dimensi. Ini diimplementasikan pada dataset di atas sebagai berikut -
xfit = np.linspace(-1, 3.5)
plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='summer')
plt.plot([0.6], [2.1], 'x', color='black', markeredgewidth=4, markersize=12)
for m, b in [(1, 0.65), (0.5, 1.6), (-0.2, 2.9)]:
plt.plot(xfit, m * xfit + b, '-k')
plt.xlim(-1, 3.5);
Outputnya adalah sebagai berikut -
Kita dapat melihat dari output di atas bahwa ada tiga pemisah berbeda yang membedakan sampel di atas dengan sempurna.
Seperti yang telah didiskusikan, tujuan utama dari SVM adalah untuk membagi dataset ke dalam kelas-kelas untuk menemukan sebuah hyperplane marginal maksimum (MMH) sehingga daripada menggambar garis nol antar kelas kita dapat menggambar di sekitar setiap garis dengan margin beberapa lebar sampai ke titik terdekat. Itu dapat dilakukan sebagai berikut -
xfit = np.linspace(-1, 3.5)
plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='summer')
for m, b, d in [(1, 0.65, 0.33), (0.5, 1.6, 0.55), (-0.2, 2.9, 0.2)]:
yfit = m * xfit + b
plt.plot(xfit, yfit, '-k')
plt.fill_between(xfit, yfit - d, yfit + d, edgecolor='none',
color='#AAAAAA', alpha=0.4)
plt.xlim(-1, 3.5);
Dari gambar di atas dalam output, kita dapat dengan mudah mengamati "margin" dalam pengklasifikasi diskriminatif. SVM akan memilih garis yang memaksimalkan margin.
Selanjutnya, kita akan menggunakan pengklasifikasi vektor dukungan Scikit-Learn untuk melatih model SVM pada data ini. Di sini, kami menggunakan kernel linier agar sesuai dengan SVM sebagai berikut -
from sklearn.svm import SVC # "Support vector classifier"
model = SVC(kernel='linear', C=1E10)
model.fit(X, y)
Outputnya adalah sebagai berikut -
SVC(C=10000000000.0, cache_size=200, class_weight=None, coef0=0.0,
decision_function_shape='ovr', degree=3, gamma='auto_deprecated',
kernel='linear', max_iter=-1, probability=False, random_state=None,
shrinking=True, tol=0.001, verbose=False)
Sekarang, untuk pemahaman yang lebih baik, berikut ini akan memplot fungsi keputusan untuk SVC 2D -
def decision_function(model, ax=None, plot_support=True):
if ax is None:
ax = plt.gca()
xlim = ax.get_xlim()
ylim = ax.get_ylim()
Untuk mengevaluasi model, kita perlu membuat grid sebagai berikut -
x = np.linspace(xlim[0], xlim[1], 30)
y = np.linspace(ylim[0], ylim[1], 30)
Y, X = np.meshgrid(y, x)
xy = np.vstack([X.ravel(), Y.ravel()]).T
P = model.decision_function(xy).reshape(X.shape)
Selanjutnya, kita perlu memplot batasan dan margin keputusan sebagai berikut -
ax.contour(X, Y, P, colors='k',
levels=[-1, 0, 1], alpha=0.5,
linestyles=['--', '-', '--'])
Sekarang, gambar vektor pendukung dengan cara yang sama sebagai berikut -
if plot_support:
ax.scatter(model.support_vectors_[:, 0],
model.support_vectors_[:, 1],
s=300, linewidth=1, facecolors='none');
ax.set_xlim(xlim)
ax.set_ylim(ylim)
Sekarang, gunakan fungsi ini agar sesuai dengan model kita sebagai berikut -
plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='summer')
decision_function(model);
Kita dapat mengamati dari keluaran di atas bahwa pengklasifikasi SVM sesuai dengan data dengan margin yaitu garis putus-putus dan vektor pendukung, elemen penting dari kesesuaian ini, menyentuh garis putus-putus. Titik vektor dukungan ini disimpan dalam atribut support_vectors_ dari pengklasifikasi sebagai berikut -
model.support_vectors_
Outputnya adalah sebagai berikut -
array([[0.5323772 , 3.31338909],
[2.11114739, 3.57660449],
[1.46870582, 1.86947425]])
Kernel SVM
Dalam praktiknya, algoritma SVM diimplementasikan dengan kernel yang mengubah ruang data masukan menjadi bentuk yang diperlukan. SVM menggunakan teknik yang disebut trik kernel di mana kernel mengambil ruang masukan berdimensi rendah dan mengubahnya menjadi ruang berdimensi lebih tinggi. Dengan kata sederhana, kernel mengubah masalah yang tidak dapat dipisahkan menjadi masalah yang dapat dipisahkan dengan menambahkan lebih banyak dimensi ke dalamnya. Itu membuat SVM lebih bertenaga, fleksibel dan akurat. Berikut ini adalah beberapa jenis kernel yang digunakan oleh SVM -
Kernel Linear
Ini dapat digunakan sebagai perkalian titik antara dua pengamatan. Rumus kernel linier adalah sebagai berikut -
k (x, x i ) = jumlah (x * x i )
Dari rumus di atas, kita dapat melihat bahwa hasil perkalian antara dua vektor mengatakan & adalah hasil perkalian setiap pasang nilai input.
Kernel Polinomial
Ini adalah bentuk yang lebih umum dari kernel linier dan membedakan ruang input melengkung atau nonlinier. Berikut adalah rumus kernel polinomial -
K (x, xi) = 1 + jumlah (x * xi) ^ d
Di sini d adalah derajat polinomial, yang perlu kita tentukan secara manual dalam algoritme pembelajaran.
Kernel Radial Basis Function (RBF)
Kernel RBF, sebagian besar digunakan dalam klasifikasi SVM, memetakan ruang input dalam ruang dimensi tak terbatas. Rumus berikut menjelaskannya secara matematis -
K (x, xi) = exp (-gamma * jumlah ((x - xi ^ 2))
Di sini, gamma berkisar dari 0 hingga 1. Kita perlu menentukannya secara manual dalam algoritma pembelajaran. Nilai default gamma yang baik adalah 0,1.
Saat kami menerapkan SVM untuk data yang dapat dipisahkan secara linier, kami dapat menerapkannya dengan Python untuk data yang tidak dapat dipisahkan secara linier. Itu bisa dilakukan dengan menggunakan kernel.
Contoh
Berikut ini adalah contoh untuk membuat pengklasifikasi SVM dengan menggunakan kernel. Kami akan menggunakan dataset iris dari scikit-learn -
Kami akan mulai dengan mengimpor paket berikut -
import pandas as pd
import numpy as np
from sklearn import svm, datasets
import matplotlib.pyplot as plt
Sekarang, kita perlu memuat data masukan -
iris = datasets.load_iris()
Dari kumpulan data ini, kami mengambil dua fitur pertama sebagai berikut -
X = iris.data[:, :2]
y = iris.target
Selanjutnya, kami akan memplot batas SVM dengan data asli sebagai berikut -
x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
h = (x_max / x_min)/100
xx, yy = np.meshgrid(np.arange(x_min, x_max, h),
np.arange(y_min, y_max, h))
X_plot = np.c_[xx.ravel(), yy.ravel()]
Sekarang, kita perlu memberikan nilai parameter regularisasi sebagai berikut -
C = 1.0
Selanjutnya objek pengklasifikasi SVM dapat dibuat sebagai berikut -
Svc_classifier = svm.SVC (kernel = 'linear', C = C). Fit (X, y)
Z = svc_classifier.predict(X_plot)
Z = Z.reshape(xx.shape)
plt.figure(figsize=(15, 5))
plt.subplot(121)
plt.contourf(xx, yy, Z, cmap=plt.cm.tab10, alpha=0.3)
plt.scatter(X[:, 0], X[:, 1], c=y, cmap=plt.cm.Set1)
plt.xlabel('Sepal length')
plt.ylabel('Sepal width')
plt.xlim(xx.min(), xx.max())
plt.title('Support Vector Classifier with linear kernel')
Keluaran
Text(0.5, 1.0, 'Support Vector Classifier with linear kernel')
Untuk membuat pengklasifikasi SVM dengan rbf kernel, kita dapat mengubah kernel menjadi rbf sebagai berikut -
Svc_classifier = svm.SVC(kernel='rbf', gamma =‘auto’,C=C).fit(X, y)
Z = svc_classifier.predict(X_plot)
Z = Z.reshape(xx.shape)
plt.figure(figsize=(15, 5))
plt.subplot(121)
plt.contourf(xx, yy, Z, cmap=plt.cm.tab10, alpha=0.3)
plt.scatter(X[:, 0], X[:, 1], c=y, cmap=plt.cm.Set1)
plt.xlabel('Sepal length')
plt.ylabel('Sepal width')
plt.xlim(xx.min(), xx.max())
plt.title('Support Vector Classifier with rbf kernel')
Keluaran
Text(0.5, 1.0, 'Support Vector Classifier with rbf kernel')
Kami menempatkan nilai gamma ke 'auto' tetapi Anda juga dapat memberikan nilainya antara 0 hingga 1.
Pro dan Kontra Pengklasifikasi SVM
Kelebihan dari pengklasifikasi SVM
Pengklasifikasi SVM menawarkan akurasi tinggi dan bekerja dengan baik dengan ruang dimensi tinggi. Pengklasifikasi SVM pada dasarnya menggunakan subset poin pelatihan sehingga hasilnya menggunakan memori yang sangat sedikit.
Kontra pengklasifikasi SVM
Mereka memiliki waktu pelatihan yang tinggi sehingga dalam praktiknya tidak cocok untuk kumpulan data besar. Kerugian lainnya adalah bahwa pengklasifikasi SVM tidak bekerja dengan baik dengan kelas yang tumpang tindih.
Pengantar Pohon Keputusan
Secara umum, analisis pohon keputusan adalah alat pemodelan prediktif yang dapat diterapkan di banyak area. Pohon keputusan dapat dibangun dengan pendekatan algoritmik yang dapat membagi kumpulan data dengan cara berbeda berdasarkan kondisi yang berbeda. Decision tress adalah algoritma paling kuat yang termasuk dalam kategori algoritma yang diawasi.
Mereka dapat digunakan untuk tugas klasifikasi dan regresi. Dua entitas utama dari pohon adalah node keputusan, di mana datanya terpecah dan keluar, di mana kami mendapat hasil. Contoh pohon biner untuk memprediksi apakah seseorang bugar atau tidak bugar memberikan berbagai informasi seperti usia, kebiasaan makan dan kebiasaan olahraga, diberikan di bawah ini -
Pada pohon keputusan di atas, pertanyaannya adalah simpul keputusan dan hasil akhir adalah daun. Kami memiliki dua jenis pohon keputusan berikut -
Classification decision trees- Dalam pohon keputusan semacam ini, variabel keputusan bersifat kategorikal. Pohon keputusan di atas adalah contoh pohon keputusan klasifikasi.
Regression decision trees - Dalam pohon keputusan semacam ini, variabel keputusan bersifat kontinu.
Menerapkan Algoritma Pohon Keputusan
Indeks Gini
Ini adalah nama fungsi biaya yang digunakan untuk mengevaluasi pemisahan biner dalam kumpulan data dan bekerja dengan variabel target kategorial "Sukses" atau "Kegagalan".
Semakin tinggi nilai indeks Gini maka semakin tinggi homogenitasnya. Nilai indeks Gini yang sempurna adalah 0 dan yang terburuk adalah 0,5 (untuk masalah 2 kelas). Indeks Gini untuk perpecahan dapat dihitung dengan bantuan langkah-langkah berikut -
Pertama, hitung indeks Gini untuk sub-node dengan menggunakan rumus p ^ 2 + q ^ 2, yang merupakan jumlah kuadrat probabilitas untuk sukses dan gagal.
Selanjutnya, hitung indeks Gini untuk pemisahan menggunakan skor Gini terbobot dari setiap node dari pemisahan tersebut.
Algoritma Classification and Regression Tree (CART) menggunakan metode Gini untuk menghasilkan binary split.
Split Creation
Pemisahan pada dasarnya termasuk atribut dalam dataset dan nilai. Kita dapat membuat pemisahan dalam dataset dengan bantuan tiga bagian berikut -
Part1 - Menghitung Skor Gini: Kita baru saja membahas bagian ini di bagian sebelumnya.
Part2- Memisahkan dataset: Ini dapat didefinisikan sebagai memisahkan dataset menjadi dua daftar baris yang memiliki indeks atribut dan nilai terpisah dari atribut itu. Setelah mendapatkan dua kelompok - kanan dan kiri, dari dataset tersebut, kita dapat menghitung nilai split dengan menggunakan skor Gini yang dihitung pada bagian pertama. Nilai pemisahan akan menentukan di grup mana atribut akan berada.
Part3- Mengevaluasi semua pemisahan: Bagian selanjutnya setelah menemukan skor Gini dan kumpulan data pemisahan adalah evaluasi semua pemisahan. Untuk tujuan ini, pertama, kita harus memeriksa setiap nilai yang terkait dengan setiap atribut sebagai kandidat yang akan dipisahkan. Kemudian kita perlu menemukan pemisahan terbaik dengan mengevaluasi biaya pemisahan tersebut. Pembagian terbaik akan digunakan sebagai node di pohon keputusan.
Membangun Pohon
Seperti yang kita ketahui bahwa pohon memiliki simpul akar dan simpul terminal. Setelah membuat simpul akar, kita dapat membangun pohon dengan mengikuti dua bagian -
Part1: Pembuatan node terminal
Saat membuat node terminal dari pohon keputusan, satu poin penting adalah memutuskan kapan harus berhenti menumbuhkan pohon atau membuat node terminal lebih lanjut. Hal tersebut dapat dilakukan dengan menggunakan dua kriteria yaitu kedalaman pohon maksimum dan catatan simpul minimum sebagai berikut -
Maximum Tree Depth- Seperti namanya, ini adalah jumlah maksimum node di pohon setelah node root. Kita harus berhenti menambahkan node terminal setelah pohon mencapai kedalaman maksimum, yaitu setelah pohon mendapatkan jumlah node terminal maksimum.
Minimum Node Records- Ini dapat didefinisikan sebagai jumlah minimum pola pelatihan yang menjadi tanggung jawab node tertentu. Kita harus berhenti menambahkan node terminal setelah pohon mencapai catatan node minimum ini atau di bawah minimum ini.
Node terminal digunakan untuk membuat prediksi akhir.
Part2: Pemisahan Rekursif
Seperti yang kita pahami tentang kapan membuat simpul terminal, sekarang kita bisa mulai membangun pohon kita. Pemisahan rekursif adalah metode untuk membangun pohon. Dalam metode ini, setelah sebuah node dibuat, kita dapat membuat node anak (node ditambahkan ke node yang ada) secara rekursif pada setiap grup data, yang dihasilkan dengan memisahkan dataset, dengan memanggil fungsi yang sama berulang kali.
Ramalan
Setelah membangun pohon keputusan, kita perlu membuat prediksi tentangnya. Pada dasarnya, prediksi melibatkan navigasi pohon keputusan dengan baris data yang disediakan secara khusus.
Kita bisa membuat prediksi dengan bantuan fungsi rekursif, seperti yang dilakukan di atas. Rutin prediksi yang sama dipanggil lagi dengan node kiri atau kanan anak.
Asumsi
Berikut ini adalah beberapa asumsi yang kami buat saat membuat pohon keputusan -
Saat menyiapkan pohon keputusan, set pelatihan adalah sebagai simpul akar.
Pengklasifikasi pohon keputusan lebih menyukai nilai fitur menjadi kategorikal. Jika Anda ingin menggunakan nilai kontinu maka nilai tersebut harus dilakukan secara diskrit sebelum pembuatan model.
Berdasarkan nilai atribut, record didistribusikan secara rekursif.
Pendekatan statistik akan digunakan untuk menempatkan atribut pada posisi node manapun yaitu sebagai node root atau node internal.
Implementasi dengan Python
Contoh
Dalam contoh berikut, kita akan mengimplementasikan pengklasifikasi Pohon Keputusan pada Pima Indian Diabetes -
Pertama, mulailah dengan mengimpor paket python yang diperlukan -
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
Selanjutnya, unduh dataset iris dari tautan webnya sebagai berikut -
col_names = ['pregnant', 'glucose', 'bp', 'skin', 'insulin', 'bmi', 'pedigree', 'age', 'label']
pima = pd.read_csv(r"C:\pima-indians-diabetes.csv", header=None, names=col_names)
pima.head()
pregnant glucose bp skin insulin bmi pedigree age label
0 6 148 72 35 0 33.6 0.627 50 1
1 1 85 66 29 0 26.6 0.351 31 0
2 8 183 64 0 0 23.3 0.672 32 1
3 1 89 66 23 94 28.1 0.167 21 0
4 0 137 40 35 168 43.1 2.288 33 1
Sekarang, pisahkan dataset menjadi fitur dan variabel target sebagai berikut -
feature_cols = ['pregnant', 'insulin', 'bmi', 'age','glucose','bp','pedigree']
X = pima[feature_cols] # Features
y = pima.label # Target variable
Selanjutnya kita akan membagi data menjadi train and test split. Kode berikut akan membagi dataset menjadi 70% data pelatihan dan 30% data pengujian -
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1)
Selanjutnya, latih model dengan bantuan kelas DecisionTreeClassifier dari sklearn sebagai berikut -
clf = DecisionTreeClassifier()
clf = clf.fit(X_train,y_train)
Akhirnya kita perlu membuat prediksi. Itu dapat dilakukan dengan bantuan skrip berikut -
y_pred = clf.predict(X_test)
Selanjutnya, kita bisa mendapatkan skor akurasi, matriks kebingungan dan laporan klasifikasi sebagai berikut -
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
result = confusion_matrix(y_test, y_pred)
print("Confusion Matrix:")
print(result)
result1 = classification_report(y_test, y_pred)
print("Classification Report:",)
print (result1)
result2 = accuracy_score(y_test,y_pred)
print("Accuracy:",result2)
Keluaran
Confusion Matrix:
[[116 30]
[ 46 39]]
Classification Report:
precision recall f1-score support
0 0.72 0.79 0.75 146
1 0.57 0.46 0.51 85
micro avg 0.67 0.67 0.67 231
macro avg 0.64 0.63 0.63 231
weighted avg 0.66 0.67 0.66 231
Accuracy: 0.670995670995671
Memvisualisasikan Pohon Keputusan
Pohon keputusan di atas dapat divisualisasikan dengan bantuan kode berikut -
from sklearn.tree import export_graphviz
from sklearn.externals.six import StringIO
from IPython.display import Image
import pydotplus
dot_data = StringIO()
export_graphviz(clf, out_file=dot_data,
filled=True, rounded=True,
special_characters=True,feature_names = feature_cols,class_names=['0','1'])
graph = pydotplus.graph_from_dot_data(dot_data.getvalue())
graph.write_png('Pima_diabetes_Tree.png')
Image(graph.create_png())
Pengantar Algoritma Naïve Bayes
Algoritma Naïve Bayes adalah teknik klasifikasi berdasarkan penerapan teorema Bayes dengan asumsi kuat bahwa semua prediktor tidak bergantung satu sama lain. Dengan kata sederhana, asumsinya adalah bahwa keberadaan fitur di kelas tidak bergantung pada keberadaan fitur lain di kelas yang sama. Misalnya, ponsel dapat dianggap pintar jika memiliki layar sentuh, fasilitas internet, kamera yang bagus, dll. Meskipun semua fitur ini bergantung satu sama lain, fitur tersebut berkontribusi secara independen terhadap kemungkinan bahwa ponsel tersebut adalah ponsel pintar.
Dalam klasifikasi Bayesian, minat utamanya adalah menemukan probabilitas posterior, yaitu probabilitas label yang diberi beberapa fitur yang diamati, (|). Dengan bantuan teorema Bayes, kita dapat mengungkapkannya dalam bentuk kuantitatif sebagai berikut -
$P(L |features)= \frac{P(L)P(features |L)}{()}$Di sini, (|) adalah probabilitas posterior kelas.
() adalah probabilitas kelas sebelumnya.
(|) adalah kemungkinan yang merupakan probabilitas kelas prediktor yang diberikan.
() adalah probabilitas prediktor sebelumnya.
Membuat model menggunakan Naïve Bayes dengan Python
Library Python, Scikit learn adalah pustaka paling berguna yang membantu kita membangun model Naïve Bayes dengan Python. Kami memiliki tiga jenis model Naïve Bayes berikut di bawah Scikit learn pustaka Python -
Gaussian Naïve Bayes
Ini adalah pengklasifikasi Naïve Bayes yang paling sederhana dengan asumsi bahwa data dari setiap label diambil dari distribusi Gaussian sederhana.
Multinomial Naïve Bayes
Pengklasifikasi Naïve Bayes berguna lainnya adalah Multinomial Naïve Bayes di mana fitur diasumsikan diambil dari distribusi Multinomial sederhana. Jenis Naïve Bayes seperti ini paling sesuai untuk fitur yang mewakili hitungan diskrit.
Bernoulli Naïve Bayes
Model penting lainnya adalah Bernoulli Naïve Bayes di mana fitur diasumsikan sebagai biner (0s dan 1s). Klasifikasi teks dengan model 'bag of words' dapat menjadi aplikasi Bernoulli Naïve Bayes.
Contoh
Bergantung pada kumpulan data kami, kami dapat memilih model Naïve Bayes yang dijelaskan di atas. Di sini, kami mengimplementasikan model Gaussian Naïve Bayes dengan Python -
Kami akan mulai dengan impor yang diperlukan sebagai berikut -
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns; sns.set()
Sekarang, dengan menggunakan fungsi make_blobs () dari Scikit learn, kita dapat menghasilkan gumpalan titik dengan distribusi Gaussian sebagai berikut -
from sklearn.datasets import make_blobs
X, y = make_blobs(300, 2, centers=2, random_state=2, cluster_std=1.5)
plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='summer');
Selanjutnya, untuk menggunakan model GaussianNB, kita perlu mengimpor dan membuat objeknya sebagai berikut -
from sklearn.naive_bayes import GaussianNB
model_GBN = GaussianNB()
model_GNB.fit(X, y);
Sekarang, kita harus melakukan prediksi. Itu dapat dilakukan setelah menghasilkan beberapa data baru sebagai berikut -
rng = np.random.RandomState(0)
Xnew = [-6, -14] + [14, 18] * rng.rand(2000, 2)
ynew = model_GNB.predict(Xnew)
Selanjutnya, kami merencanakan data baru untuk menemukan batasannya -
plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='summer')
lim = plt.axis()
plt.scatter(Xnew[:, 0], Xnew[:, 1], c=ynew, s=20, cmap='summer', alpha=0.1)
plt.axis(lim);
Sekarang, dengan bantuan baris kode berikut, kita dapat menemukan probabilitas posterior dari label pertama dan kedua -
yprob = model_GNB.predict_proba(Xnew)
yprob[-10:].round(3)
Keluaran
array([[0.998, 0.002],
[1. , 0. ],
[0.987, 0.013],
[1. , 0. ],
[1. , 0. ],
[1. , 0. ],
[1. , 0. ],
[1. , 0. ],
[0. , 1. ],
[0.986, 0.014]])
Pro kontra
Pro
Berikut ini adalah beberapa kelebihan dalam menggunakan pengklasifikasi Naïve Bayes -
Klasifikasi Naïve Bayes mudah diterapkan dan cepat.
Ini akan menyatu lebih cepat daripada model diskriminatif seperti regresi logistik.
Ini membutuhkan lebih sedikit data pelatihan.
Sifatnya sangat skalabel, atau diskalakan secara linier dengan jumlah prediktor dan titik data.
Itu dapat membuat prediksi probabilistik dan dapat menangani data kontinu serta diskrit.
Algoritma klasifikasi Naïve Bayes dapat digunakan baik untuk masalah klasifikasi biner maupun kelas jamak.
Kontra
Berikut ini adalah beberapa kekurangan dalam menggunakan pengklasifikasi Naïve Bayes -
Salah satu kekurangan terpenting dari klasifikasi Naïve Bayes adalah kemandirian fiturnya yang kuat karena dalam kehidupan nyata hampir tidak mungkin untuk memiliki sekumpulan fitur yang benar-benar independen satu sama lain.
Masalah lain dengan klasifikasi Naïve Bayes adalah 'frekuensi nol' yang berarti bahwa jika variabel kategorial memiliki kategori tetapi tidak diamati dalam kumpulan data pelatihan, maka model Naïve Bayes akan menetapkan probabilitas nol untuk itu dan tidak akan dapat membuat ramalan.
Aplikasi klasifikasi Naïve Bayes
Berikut ini adalah beberapa aplikasi umum klasifikasi Naïve Bayes -
Real-time prediction - Karena implementasinya yang mudah dan komputasi yang cepat, ia dapat digunakan untuk melakukan prediksi secara real-time.
Multi-class prediction - Algoritma klasifikasi Naïve Bayes dapat digunakan untuk memprediksi probabilitas posterior beberapa kelas variabel target.
Text classification- Karena fitur prediksi kelas jamak, algoritme klasifikasi Naïve Bayes sangat cocok untuk klasifikasi teks. Itulah mengapa ini juga digunakan untuk memecahkan masalah seperti pemfilteran spam dan analisis sentimen.
Recommendation system - Bersama dengan algoritme seperti pemfilteran kolaboratif, Naïve Bayes membuat sistem Rekomendasi yang dapat digunakan untuk menyaring informasi yang tidak terlihat dan untuk memprediksi cuaca yang diinginkan pengguna atas sumber daya yang diberikan atau tidak.
pengantar
Hutan acak adalah algoritma pembelajaran yang diawasi yang digunakan untuk klasifikasi maupun regresi. Tetapi bagaimanapun, ini terutama digunakan untuk masalah klasifikasi. Seperti yang kita ketahui bahwa hutan terdiri dari pepohonan dan semakin banyak pohon berarti semakin kokoh. Demikian pula, algoritma hutan acak membuat pohon keputusan pada sampel data dan kemudian mendapatkan prediksi dari masing-masing sampel dan akhirnya memilih solusi terbaik melalui pemungutan suara. Ini adalah metode ansambel yang lebih baik daripada pohon keputusan tunggal karena mengurangi pemasangan berlebih dengan merata-ratakan hasilnya.
Bekerja dari Algoritma Hutan Acak
Kita dapat memahami cara kerja algoritma Random Forest dengan bantuan langkah-langkah berikut -
Step1 - Pertama, mulailah dengan pemilihan sampel acak dari kumpulan data tertentu.
Step2- Selanjutnya algoritma ini akan membuat pohon keputusan untuk setiap sampel. Kemudian akan didapatkan hasil prediksi dari setiap pohon keputusan.
Step3 - Pada langkah ini, pemungutan suara akan dilakukan untuk setiap hasil yang diprediksi.
Step4 - Terakhir, pilih hasil prediksi yang paling banyak dipilih sebagai hasil prediksi akhir.
Diagram berikut akan mengilustrasikan kerjanya -
Implementasi dengan Python
Pertama, mulailah dengan mengimpor paket Python yang diperlukan -
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
Selanjutnya, unduh dataset iris dari tautan webnya sebagai berikut -
path = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"
Selanjutnya, kita perlu memberikan nama kolom ke dataset sebagai berikut -
headernames = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'Class']
Sekarang, kita perlu membaca dataset ke pandas dataframe sebagai berikut -
dataset = pd.read_csv(path, names=headernames)
dataset.head()
panjang sepal |
lebar sepal |
kelopak-panjang |
kelopak-lebar |
Kelas |
|
---|---|---|---|---|---|
0 |
5.1 |
3.5 |
1.4 |
0.2 |
Iris-setosa |
1 |
4.9 |
3.0 |
1.4 |
0.2 |
Iris-setosa |
2 |
4.7 |
3.2 |
1.3 |
0.2 |
Iris-setosa |
3 |
4.6 |
3.1 |
1.5 |
0.2 |
Iris-setosa |
4 |
5.0 |
3.6 |
1.4 |
0.2 |
Iris-setosa |
Pemrosesan awal data akan dilakukan dengan bantuan baris skrip berikut -
X = dataset.iloc[:, :-1].values
y = dataset.iloc[:, 4].values
Selanjutnya kita akan membagi data menjadi train and test split. Kode berikut akan membagi dataset menjadi 70% data pelatihan dan 30% data pengujian -
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30)
Selanjutnya, latih model dengan bantuan class RandomForestClassifier dari sklearn sebagai berikut -
from sklearn.ensemble import RandomForestClassifier
classifier = RandomForestClassifier(n_estimators=50)
classifier.fit(X_train, y_train)
Akhirnya, kita perlu membuat prediksi. Itu dapat dilakukan dengan bantuan skrip berikut -
y_pred = classifier.predict(X_test)
Selanjutnya, cetak hasilnya sebagai berikut -
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
result = confusion_matrix(y_test, y_pred)
print("Confusion Matrix:")
print(result)
result1 = classification_report(y_test, y_pred)
print("Classification Report:",)
print (result1)
result2 = accuracy_score(y_test,y_pred)
print("Accuracy:",result2)
Keluaran
Confusion Matrix:
[[14 0 0]
[ 0 18 1]
[ 0 0 12]]
Classification Report:
precision recall f1-score support
Iris-setosa 1.00 1.00 1.00 14
Iris-versicolor 1.00 0.95 0.97 19
Iris-virginica 0.92 1.00 0.96 12
micro avg 0.98 0.98 0.98 45
macro avg 0.97 0.98 0.98 45
weighted avg 0.98 0.98 0.98 45
Accuracy: 0.9777777777777777
Pro dan Kontra Random Forest
Pro
Berikut ini adalah keuntungan dari algoritma Random Forest -
Ini mengatasi masalah overfitting dengan membuat rata-rata atau menggabungkan hasil dari pohon keputusan yang berbeda.
Hutan acak bekerja dengan baik untuk sejumlah besar item data daripada pohon keputusan tunggal.
Hutan acak memiliki varian yang lebih kecil dari pohon keputusan tunggal.
Hutan acak sangat fleksibel dan memiliki akurasi yang sangat tinggi.
Penskalaan data tidak diperlukan dalam algoritme hutan acak. Ini mempertahankan akurasi yang baik bahkan setelah memberikan data tanpa penskalaan.
Penskalaan data tidak diperlukan dalam algoritme hutan acak. Ini mempertahankan akurasi yang baik bahkan setelah memberikan data tanpa penskalaan.
Kontra
Berikut ini adalah kerugian dari algoritma Random Forest -
Kompleksitas adalah kelemahan utama dari algoritma random forest.
Pembangunan hutan acak jauh lebih sulit dan memakan waktu daripada pohon keputusan.
Lebih banyak sumber daya komputasi diperlukan untuk mengimplementasikan algoritma Random Forest.
Ini kurang intuitif jika kita memiliki banyak koleksi pohon keputusan.
Proses prediksi menggunakan random forest sangat memakan waktu dibandingkan dengan algoritma lainnya.
Pengantar Regresi
Regresi adalah alat statistik dan pembelajaran mesin yang penting dan banyak digunakan. Tujuan utama dari tugas berbasis regresi adalah untuk memprediksi label keluaran atau tanggapan yang merupakan nilai numerik berkelanjutan, untuk data masukan yang diberikan. Keluarannya akan didasarkan pada apa yang telah dipelajari model dalam fase pelatihan. Pada dasarnya, model regresi menggunakan fitur data input (variabel independen) dan nilai output numerik kontinu yang sesuai (variabel dependen atau hasil) untuk mempelajari hubungan khusus antara input dan output yang sesuai.
Jenis Model Regresi
Model regresi terdiri dari dua jenis berikut -
Simple regression model - Ini adalah model regresi paling dasar di mana prediksi dibentuk dari fitur data tunggal dan univariat.
Multiple regression model - Sesuai dengan namanya, dalam model regresi ini prediksi dibentuk dari beberapa fitur data.
Membangun Regressor dengan Python
Model regresi dengan Python dapat dibangun seperti kita membangun pengklasifikasi. Scikit-learn, pustaka Python untuk pembelajaran mesin juga dapat digunakan untuk membangun regressor dengan Python.
Dalam contoh berikut, kita akan membangun model regresi dasar yang akan menyesuaikan garis dengan data, yaitu regresi linier. Langkah-langkah yang diperlukan untuk membangun regressor dengan Python adalah sebagai berikut -
Langkah 1: Mengimpor paket python yang diperlukan
Untuk membangun regressor menggunakan scikit-learn, kita perlu mengimpornya bersama dengan paket lain yang diperlukan. Kita dapat mengimpor dengan menggunakan skrip berikut -
import numpy as np
from sklearn import linear_model
import sklearn.metrics as sm
import matplotlib.pyplot as plt
Langkah2: Mengimpor kumpulan data
Setelah mengimpor paket yang diperlukan, kita membutuhkan kumpulan data untuk membangun model prediksi regresi. Kami dapat mengimpornya dari dataset sklearn atau dapat menggunakan yang lain sesuai kebutuhan kami. Kami akan menggunakan data input kami yang disimpan. Kami dapat mengimpornya dengan bantuan skrip berikut -
input = r'C:\linear.txt'
Selanjutnya, kita perlu memuat data ini. Kami menggunakan fungsi np.loadtxt untuk memuatnya.
input_data = np.loadtxt(input, delimiter=',')
X, y = input_data[:, :-1], input_data[:, -1]
Langkah3: Mengatur data ke dalam set pelatihan & pengujian
Karena kami perlu menguji model kami pada data yang tidak terlihat, kami akan membagi dataset kami menjadi dua bagian: satu set pelatihan dan satu set pengujian. Perintah berikut akan melakukannya -
training_samples = int(0.6 * len(X))
testing_samples = len(X) - num_training
X_train, y_train = X[:training_samples], y[:training_samples]
X_test, y_test = X[training_samples:], y[training_samples:]
Step4- Evaluasi & prediksi model
Setelah membagi data menjadi pelatihan dan pengujian kita perlu membangun model. Kami akan menggunakan fungsi LineaRegression () dari Scikit-learn untuk tujuan ini. Perintah berikut akan membuat objek regressor linier.
reg_linear= linear_model.LinearRegression()
Selanjutnya, latih model ini dengan sampel pelatihan sebagai berikut -
reg_linear.fit(X_train, y_train)
Sekarang, akhirnya kita perlu melakukan prediksi dengan data pengujian.
y_test_pred = reg_linear.predict(X_test)
Step5- Plot & visualisasi
Setelah prediksi, kita dapat memplot dan memvisualisasikannya dengan bantuan skrip berikut -
plt.scatter(X_test, y_test, color='red')
plt.plot(X_test, y_test_pred, color='black', linewidth=2)
plt.xticks(())
plt.yticks(())
plt.show()
Keluaran
Pada output di atas, kita dapat melihat garis regresi antar titik data.
Step6- Performance computation - Kami juga dapat menghitung kinerja model regresi kami dengan bantuan berbagai metrik kinerja sebagai berikut -
print("Regressor model performance:")
print("Mean absolute error(MAE) =", round(sm.mean_absolute_error(y_test, y_test_pred), 2))
print("Mean squared error(MSE) =", round(sm.mean_squared_error(y_test, y_test_pred), 2))
print("Median absolute error =", round(sm.median_absolute_error(y_test, y_test_pred), 2))
print("Explain variance score =", round(sm.explained_variance_score(y_test, y_test_pred), 2))
print("R2 score =", round(sm.r2_score(y_test, y_test_pred), 2))
Keluaran
Regressor model performance:
Mean absolute error(MAE) = 1.78
Mean squared error(MSE) = 3.89
Median absolute error = 2.01
Explain variance score = -0.09
R2 score = -0.09
Jenis Algoritma Regresi ML
Algoritma regresi ML yang paling berguna dan populer adalah algoritma regresi linier yang selanjutnya dibagi menjadi dua jenis yaitu -
Algoritma Regresi Linier Sederhana
Algoritma Regresi Linier Berganda.
Kami akan membahasnya dan menerapkannya dengan Python di bab selanjutnya.
Aplikasi
Aplikasi algoritma regresi ML adalah sebagai berikut -
Forecasting or Predictive analysis- Salah satu kegunaan penting dari regresi adalah peramalan atau analisis prediktif. Misalnya, kita dapat meramalkan PDB, harga minyak, atau dengan kata sederhana data kuantitatif yang berubah seiring berjalannya waktu.
Optimization- Kami dapat mengoptimalkan proses bisnis dengan bantuan regresi. Misalnya, seorang manajer toko dapat membuat model statistik untuk memahami waktu intip kedatangan pelanggan.
Error correction- Dalam bisnis, pengambilan keputusan yang tepat sama pentingnya dengan mengoptimalkan proses bisnis. Regresi dapat membantu kita mengambil keputusan yang tepat sekaligus mengoreksi keputusan yang sudah diterapkan.
Economics- Ini adalah alat yang paling banyak digunakan di bidang ekonomi. Kita dapat menggunakan regresi untuk memprediksi penawaran, permintaan, konsumsi, investasi persediaan, dll.
Finance- Perusahaan keuangan selalu tertarik untuk meminimalkan portofolio risiko dan ingin mengetahui faktor-faktor yang mempengaruhi pelanggan. Semua ini dapat diprediksi dengan bantuan model regresi.
Pengantar Regresi Linier
Regresi linier dapat didefinisikan sebagai model statistik yang menganalisis hubungan linier antara variabel dependen dengan kumpulan variabel independen tertentu. Hubungan linier antar variabel berarti ketika nilai satu atau lebih variabel independen akan berubah (naik atau turun), nilai variabel dependen juga akan berubah sesuai (naik atau turun).
Secara matematis hubungan tersebut dapat direpresentasikan dengan bantuan persamaan berikut -
Y = mX + b
Di sini, Y adalah variabel dependen yang kami coba prediksi
X is the dependent variable we are using to make predictions.
m is the slop of the regression line which represents the effect X has on Y
b is a constant, known as the Y-intercept. If X = 0,Y would be equal to b.
Furthermore, the linear relationship can be positive or negative in nature as explained below −
Positive Linear Relationship
A linear relationship will be called positive if both independent and dependent variable increases. It can be understood with the help of following graph −
Negative Linear relationship
A linear relationship will be called positive if independent increases and dependent variable decreases. It can be understood with the help of following graph −
Types of Linear Regression
Linear regression is of the following two types −
Simple Linear Regression
Multiple Linear Regression
Simple Linear Regression (SLR)
It is the most basic version of linear regression which predicts a response using a single feature. The assumption in SLR is that the two variables are linearly related.
Python implementation
We can implement SLR in Python in two ways, one is to provide your own dataset and other is to use dataset from scikit-learn python library.
Example1 − In the following Python implementation example, we are using our own dataset.
First, we will start with importing necessary packages as follows −
%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt
Next, define a function which will calculate the important values for SLR −
def coef_estimation(x, y):
The following script line will give number of observations n −
n = np.size(x)
The mean of x and y vector can be calculated as follows −
m_x, m_y = np.mean(x), np.mean(y)
We can find cross-deviation and deviation about x as follows −
SS_xy = np.sum(y*x) - n*m_y*m_x
SS_xx = np.sum(x*x) - n*m_x*m_x
Next, regression coefficients i.e. b can be calculated as follows −
b_1 = SS_xy / SS_xx
b_0 = m_y - b_1*m_x
return(b_0, b_1)
Next, we need to define a function which will plot the regression line as well as will predict the response vector −
def plot_regression_line(x, y, b):
The following script line will plot the actual points as scatter plot −
plt.scatter(x, y, color = "m", marker = "o", s = 30)
The following script line will predict response vector −
y_pred = b[0] + b[1]*x
The following script lines will plot the regression line and will put the labels on them −
plt.plot(x, y_pred, color = "g")
plt.xlabel('x')
plt.ylabel('y')
plt.show()
At last, we need to define main() function for providing dataset and calling the function we defined above −
def main():
x = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
y = np.array([100, 300, 350, 500, 750, 800, 850, 900, 1050, 1250])
b = coef_estimation(x, y)
print("Estimated coefficients:\nb_0 = {} \nb_1 = {}".format(b[0], b[1]))
plot_regression_line(x, y, b)
if __name__ == "__main__":
main()
Output
Estimated coefficients:
b_0 = 154.5454545454545
b_1 = 117.87878787878788
Example2 − In the following Python implementation example, we are using diabetes dataset from scikit-learn.
First, we will start with importing necessary packages as follows −
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
from sklearn import datasets, linear_model
from sklearn.metrics import mean_squared_error, r2_score
Next, we will load the diabetes dataset and create its object −
diabetes = datasets.load_diabetes()
As we are implementing SLR, we will be using only one feature as follows −
X = diabetes.data[:, np.newaxis, 2]
Next, we need to split the data into training and testing sets as follows −
X_train = X[:-30]
X_test = X[-30:]
Next, we need to split the target into training and testing sets as follows −
y_train = diabetes.target[:-30]
y_test = diabetes.target[-30:]
Now, to train the model we need to create linear regression object as follows −
regr = linear_model.LinearRegression()
Next, train the model using the training sets as follows −
regr.fit(X_train, y_train)
Next, make predictions using the testing set as follows −
y_pred = regr.predict(X_test)
Next, we will be printing some coefficient like MSE, Variance score etc. as follows −
print('Coefficients: \n', regr.coef_)
print("Mean squared error: %.2f"
% mean_squared_error(y_test, y_pred))
print('Variance score: %.2f' % r2_score(y_test, y_pred))
Now, plot the outputs as follows −
plt.scatter(X_test, y_test, color='blue')
plt.plot(X_test, y_pred, color='red', linewidth=3)
plt.xticks(())
plt.yticks(())
plt.show()
Output
Coefficients:
[941.43097333]
Mean squared error: 3035.06
Variance score: 0.41
Multiple Linear Regression (MLR)
It is the extension of simple linear regression that predicts a response using two or more features. Mathematically we can explain it as follows −
Consider a dataset having n observations, p features i.e. independent variables and y as one response i.e. dependent variable the regression line for p features can be calculated as follows −
$h(x_{i})=b_{0}+b_{1}x_{i1}+b_{2}x_{i2}+...+b_{p}x_{ip}$Here, h(xi) is the predicted response value and b0,b1,b2…,bp are the regression coefficients.
Multiple Linear Regression models always includes the errors in the data known as residual error which changes the calculation as follows −
$h(x_{i})=b_{0}+b_{1}x_{i1}+b_{2}x_{i2}+...+b_{p}x_{ip}+e_{i}$We can also write the above equation as follows −
$y_{i}=h(x_{i})+e_{i}$ $e_{i}= y_{i} - h(x_{i})$Python Implementation
in this example, we will be using Boston housing dataset from scikit learn −
First, we will start with importing necessary packages as follows −
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
from sklearn import datasets, linear_model, metrics
Next, load the dataset as follows −
boston = datasets.load_boston(return_X_y=False)
The following script lines will define feature matrix, X and response vector, Y −
X = boston.data
y = boston.target
Next, split the dataset into training and testing sets as follows −
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.7, random_state=1)
Now, create linear regression object and train the model as follows −
reg = linear_model.LinearRegression()
reg.fit(X_train, y_train)
print('Coefficients: \n', reg.coef_)
print('Variance score: {}'.format(reg.score(X_test, y_test)))
plt.style.use('fivethirtyeight')
plt.scatter(reg.predict(X_train), reg.predict(X_train) - y_train,
color = "green", s = 10, label = 'Train data')
plt.scatter(reg.predict(X_test), reg.predict(X_test) - y_test,
color = "blue", s = 10, label = 'Test data')
plt.hlines(y = 0, xmin = 0, xmax = 50, linewidth = 2)
plt.legend(loc = 'upper right')
plt.title("Residual errors")
plt.show()
Output
Coefficients:
[-1.16358797e-01 6.44549228e-02 1.65416147e-01 1.45101654e+00
-1.77862563e+01 2.80392779e+00 4.61905315e-02 -1.13518865e+00
3.31725870e-01 -1.01196059e-02 -9.94812678e-01 9.18522056e-03
-7.92395217e-01]
Variance score: 0.709454060230326
Assumptions
The following are some assumptions about dataset that is made by Linear Regression model −
Multi-collinearity − Linear regression model assumes that there is very little or no multi-collinearity in the data. Basically, multi-collinearity occurs when the independent variables or features have dependency in them.
Auto-correlation − Another assumption Linear regression model assumes is that there is very little or no auto-correlation in the data. Basically, auto-correlation occurs when there is dependency between residual errors.
Relationship between variables − Linear regression model assumes that the relationship between response and feature variables must be linear.
Introduction to Clustering
Clustering methods are one of the most useful unsupervised ML methods. These methods are used to find similarity as well as the relationship patterns among data samples and then cluster those samples into groups having similarity based on features.
Clustering is important because it determines the intrinsic grouping among the present unlabeled data. They basically make some assumptions about data points to constitute their similarity. Each assumption will construct different but equally valid clusters.
For example, below is the diagram which shows clustering system grouped together the similar kind of data in different clusters −
Cluster Formation Methods
It is not necessary that clusters will be formed in spherical form. Followings are some other cluster formation methods −
Density-based
In these methods, the clusters are formed as the dense region. The advantage of these methods is that they have good accuracy as well as good ability to merge two clusters. Ex. Density-Based Spatial Clustering of Applications with Noise (DBSCAN), Ordering Points to identify Clustering structure (OPTICS) etc.
Hierarchical-based
In these methods, the clusters are formed as a tree type structure based on the hierarchy. They have two categories namely, Agglomerative (Bottom up approach) and Divisive (Top down approach). Ex. Clustering using Representatives (CURE), Balanced iterative Reducing Clustering using Hierarchies (BIRCH) etc.
Partitioning
In these methods, the clusters are formed by portioning the objects into k clusters. Number of clusters will be equal to the number of partitions. Ex. K-means, Clustering Large Applications based upon randomized Search (CLARANS).
Grid
In these methods, the clusters are formed as a grid like structure. The advantage of these methods is that all the clustering operation done on these grids are fast and independent of the number of data objects. Ex. Statistical Information Grid (STING), Clustering in Quest (CLIQUE).
Measuring Clustering Performance
One of the most important consideration regarding ML model is assessing its performance or you can say model’s quality. In case of supervised learning algorithms, assessing the quality of our model is easy because we already have labels for every example.
On the other hand, in case of unsupervised learning algorithms we are not that much blessed because we deal with unlabeled data. But still we have some metrics that give the practitioner an insight about the happening of change in clusters depending on algorithm.
Before we deep dive into such metrics, we must understand that these metrics only evaluates the comparative performance of models against each other rather than measuring the validity of the model’s prediction. Followings are some of the metrics that we can deploy on clustering algorithms to measure the quality of model −
Silhouette Analysis
Silhouette analysis used to check the quality of clustering model by measuring the distance between the clusters. It basically provides us a way to assess the parameters like number of clusters with the help of Silhouette score. This score measures how close each point in one cluster is to points in the neighboring clusters.
Analysis of Silhouette Score
The range of Silhouette score is [-1, 1]. Its analysis is as follows −
+1 Score − Near +1 Silhouette score indicates that the sample is far away from its neighboring cluster.
0 Score − 0 Silhouette score indicates that the sample is on or very close to the decision boundary separating two neighboring clusters.
-1 Score &minusl -1 Silhouette score indicates that the samples have been assigned to the wrong clusters.
The calculation of Silhouette score can be done by using the following formula −
=(−)/ (,)
Here, = mean distance to the points in the nearest cluster
And, = mean intra-cluster distance to all the points.
Davis-Bouldin Index
DB index is another good metric to perform the analysis of clustering algorithms. With the help of DB index, we can understand the following points about clustering model −
Weather the clusters are well-spaced from each other or not?
How much dense the clusters are?
We can calculate DB index with the help of following formula −
$DB=\frac{1}{n}\displaystyle\sum\limits_{i=1}^n max_{j\neq{i}}\left(\frac{\sigma_{i}+\sigma_{j}}{d(c_{i},c_{j})}\right)$Here, = number of clusters
σi = average distance of all points in cluster from the cluster centroid .
Less the DB index, better the clustering model is.
Dunn Index
It works same as DB index but there are following points in which both differs −
The Dunn index considers only the worst case i.e. the clusters that are close together while DB index considers dispersion and separation of all the clusters in clustering model.
Dunn index increases as the performance increases while DB index gets better when clusters are well-spaced and dense.
We can calculate Dunn index with the help of following formula −
$D=\frac{min_{1\leq i <{j}\leq{n}}P(i,j)}{mix_{1\leq i < k \leq n}q(k)}$Here, ,, = each indices for clusters
= inter-cluster distance
q = intra-cluster distance
Types of ML Clustering Algorithms
The following are the most important and useful ML clustering algorithms −
K-means Clustering
This clustering algorithm computes the centroids and iterates until we it finds optimal centroid. It assumes that the number of clusters are already known. It is also called flat clustering algorithm. The number of clusters identified from data by algorithm is represented by ‘K’ in K-means.
Mean-Shift Algorithm
It is another powerful clustering algorithm used in unsupervised learning. Unlike K-means clustering, it does not make any assumptions hence it is a non-parametric algorithm.
Hierarchical Clustering
It is another unsupervised learning algorithm that is used to group together the unlabeled data points having similar characteristics.
We will be discussing all these algorithms in detail in the upcoming chapters.
Applications of Clustering
We can find clustering useful in the following areas −
Data summarization and compression − Clustering is widely used in the areas where we require data summarization, compression and reduction as well. The examples are image processing and vector quantization.
Collaborative systems and customer segmentation − Since clustering can be used to find similar products or same kind of users, it can be used in the area of collaborative systems and customer segmentation.
Serve as a key intermediate step for other data mining tasks − Cluster analysis can generate a compact summary of data for classification, testing, hypothesis generation; hence, it serves as a key intermediate step for other data mining tasks also.
Trend detection in dynamic data − Clustering can also be used for trend detection in dynamic data by making various clusters of similar trends.
Social network analysis − Clustering can be used in social network analysis. The examples are generating sequences in images, videos or audios.
Biological data analysis − Clustering can also be used to make clusters of images, videos hence it can successfully be used in biological data analysis.
Introduction to K-Means Algorithm
K-means clustering algorithm computes the centroids and iterates until we it finds optimal centroid. It assumes that the number of clusters are already known. It is also called flat clustering algorithm. The number of clusters identified from data by algorithm is represented by ‘K’ in K-means.
In this algorithm, the data points are assigned to a cluster in such a manner that the sum of the squared distance between the data points and centroid would be minimum. It is to be understood that less variation within the clusters will lead to more similar data points within same cluster.
Working of K-Means Algorithm
We can understand the working of K-Means clustering algorithm with the help of following steps −
Step1 − First, we need to specify the number of clusters, K, need to be generated by this algorithm.
Step2 − Next, randomly select K data points and assign each data point to a cluster. In simple words, classify the data based on the number of data points.
Step3 − Now it will compute the cluster centroids.
Step4 − Next, keep iterating the following until we find optimal centroid which is the assignment of data points to the clusters that are not changing any more −
4.1 − First, the sum of squared distance between data points and centroids would be computed.
4.2 − Now, we have to assign each data point to the cluster that is closer than other cluster (centroid).
4.3 − At last compute the centroids for the clusters by taking the average of all data points of that cluster.
K-means follows Expectation-Maximization approach to solve the problem. The Expectation-step is used for assigning the data points to the closest cluster and the Maximization-step is used for computing the centroid of each cluster.
While working with K-means algorithm we need to take care of the following things −
While working with clustering algorithms including K-Means, it is recommended to standardize the data because such algorithms use distance-based measurement to determine the similarity between data points.
Due to the iterative nature of K-Means and random initialization of centroids, K-Means may stick in a local optimum and may not converge to global optimum. That is why it is recommended to use different initializations of centroids.
Implementation in Python
The following two examples of implementing K-Means clustering algorithm will help us in its better understanding −
Example1
It is a simple example to understand how k-means works. In this example, we are going to first generate 2D dataset containing 4 different blobs and after that will apply k-means algorithm to see the result.
First, we will start by importing the necessary packages −
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns; sns.set()
import numpy as np
from sklearn.cluster import KMeans
The following code will generate the 2D, containing four blobs −
from sklearn.datasets.samples_generator import make_blobs
X, y_true = make_blobs(n_samples=400, centers=4, cluster_std=0.60, random_state=0)
Next, the following code will help us to visualize the dataset −
plt.scatter(X[:, 0], X[:, 1], s=20);
plt.show()
Next, make an object of KMeans along with providing number of clusters, train the model and do the prediction as follows −
kmeans = KMeans(n_clusters=4)
kmeans.fit(X)
y_kmeans = kmeans.predict(X)
Now, with the help of following code we can plot and visualize the cluster’s centers picked by k-means Python estimator −
plt.scatter(X[:, 0], X[:, 1], c=y_kmeans, s=20, cmap='summer')
centers = kmeans.cluster_centers_
plt.scatter(centers[:, 0], centers[:, 1], c='blue', s=100, alpha=0.9);
plt.show()
Example 2
Let us move to another example in which we are going to apply K-means clustering on simple digits dataset. K-means will try to identify similar digits without using the original label information.
First, we will start by importing the necessary packages −
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns; sns.set()
import numpy as np
from sklearn.cluster import KMeans
Next, load the digit dataset from sklearn and make an object of it. We can also find number of rows and columns in this dataset as follows −
from sklearn.datasets import load_digits
digits = load_digits()
digits.data.shape
Output
(1797, 64)
The above output shows that this dataset is having 1797 samples with 64 features.
We can perform the clustering as we did in Example 1 above −
kmeans = KMeans(n_clusters=10, random_state=0)
clusters = kmeans.fit_predict(digits.data)
kmeans.cluster_centers_.shape
Output
(10, 64)
The above output shows that K-means created 10 clusters with 64 features.
fig, ax = plt.subplots(2, 5, figsize=(8, 3))
centers = kmeans.cluster_centers_.reshape(10, 8, 8)
for axi, center in zip(ax.flat, centers):
axi.set(xticks=[], yticks=[])
axi.imshow(center, interpolation='nearest', cmap=plt.cm.binary)
Output
As output, we will get following image showing clusters centers learned by k-means.
The following lines of code will match the learned cluster labels with the true labels found in them −
from scipy.stats import mode
labels = np.zeros_like(clusters)
for i in range(10):
mask = (clusters == i)
labels[mask] = mode(digits.target[mask])[0]
Next, we can check the accuracy as follows −
from sklearn.metrics import accuracy_score
accuracy_score(digits.target, labels)
Output
0.7935447968836951
The above output shows that the accuracy is around 80%.
Advantages and Disadvantages
Advantages
The following are some advantages of K-Means clustering algorithms −
It is very easy to understand and implement.
If we have large number of variables then, K-means would be faster than Hierarchical clustering.
On re-computation of centroids, an instance can change the cluster.
Tighter clusters are formed with K-means as compared to Hierarchical clustering.
Disadvantages
The following are some disadvantages of K-Means clustering algorithms −
It is a bit difficult to predict the number of clusters i.e. the value of k.
Output is strongly impacted by initial inputs like number of clusters (value of k).
Order of data will have strong impact on the final output.
It is very sensitive to rescaling. If we will rescale our data by means of normalization or standardization, then the output will completely change.final output.
It is not good in doing clustering job if the clusters have a complicated geometric shape.
Applications of K-Means Clustering Algorithm
The main goals of cluster analysis are −
To get a meaningful intuition from the data we are working with.
Cluster-then-predict where different models will be built for different subgroups.
To fulfill the above-mentioned goals, K-means clustering is performing well enough. It can be used in following applications −
Market segmentation
Document Clustering
Image segmentation
Image compression
Customer segmentation
Analyzing the trend on dynamic data
Introduction to Mean-Shift Algorithm
As discussed earlier, it is another powerful clustering algorithm used in unsupervised learning. Unlike K-means clustering, it does not make any assumptions; hence it is a non-parametric algorithm.
Mean-shift algorithm basically assigns the datapoints to the clusters iteratively by shifting points towards the highest density of datapoints i.e. cluster centroid.
The difference between K-Means algorithm and Mean-Shift is that later one does not need to specify the number of clusters in advance because the number of clusters will be determined by the algorithm w.r.t data.
Working of Mean-Shift Algorithm
We can understand the working of Mean-Shift clustering algorithm with the help of following steps −
Step1 − First, start with the data points assigned to a cluster of their own.
Step2 − Next, this algorithm will compute the centroids.
Step3 − In this step, location of new centroids will be updated.
Step4 − Now, the process will be iterated and moved to the higher density region.
Step5 − At last, it will be stopped once the centroids reach at position from where it cannot move further.
Implementation in Python
It is a simple example to understand how Mean-Shift algorithm works. In this example, we are going to first generate 2D dataset containing 4 different blobs and after that will apply Mean-Shift algorithm to see the result.
%matplotlib inline
import numpy as np
from sklearn.cluster import MeanShift
import matplotlib.pyplot as plt
from matplotlib import style
style.use("ggplot")
from sklearn.datasets.samples_generator import make_blobs
centers = [[3,3,3],[4,5,5],[3,10,10]]
X, _ = make_blobs(n_samples = 700, centers = centers, cluster_std = 0.5)
plt.scatter(X[:,0],X[:,1])
plt.show()
ms = MeanShift()
ms.fit(X)
labels = ms.labels_
cluster_centers = ms.cluster_centers_
print(cluster_centers)
n_clusters_ = len(np.unique(labels))
print("Estimated clusters:", n_clusters_)
colors = 10*['r.','g.','b.','c.','k.','y.','m.']
for i in range(len(X)):
plt.plot(X[i][0], X[i][1], colors[labels[i]], markersize = 3)
plt.scatter(cluster_centers[:,0],cluster_centers[:,1],
marker=".",color='k', s=20, linewidths = 5, zorder=10)
plt.show()
Output
[[ 2.98462798 9.9733794 10.02629344]
[ 3.94758484 4.99122771 4.99349433]
[ 3.00788996 3.03851268 2.99183033]]
Estimated clusters: 3
Advantages and Disadvantages
Advantages
The following are some advantages of Mean-Shift clustering algorithm −
It does not need to make any model assumption as like in K-means or Gaussian mixture.
It can also model the complex clusters which have nonconvex shape.
It only needs one parameter named bandwidth which automatically determines the number of clusters.
There is no issue of local minima as like in K-means.
No problem generated from outliers.
Disadvantages
The following are some disadvantages of Mean-Shift clustering algorithm −
Mean-shift algorithm does not work well in case of high dimension, where number of clusters changes abruptly.
We do not have any direct control on the number of clusters but in some applications, we need a specific number of clusters.
It cannot differentiate between meaningful and meaningless modes.
Introduction to Hierarchical Clustering
Hierarchical clustering is another unsupervised learning algorithm that is used to group together the unlabeled data points having similar characteristics. Hierarchical clustering algorithms falls into following two categories −
Agglomerative hierarchical algorithms − In agglomerative hierarchical algorithms, each data point is treated as a single cluster and then successively merge or agglomerate (bottom-up approach) the pairs of clusters. The hierarchy of the clusters is represented as a dendrogram or tree structure.
Divisive hierarchical algorithms − On the other hand, in divisive hierarchical algorithms, all the data points are treated as one big cluster and the process of clustering involves dividing (Top-down approach) the one big cluster into various small clusters.
Steps to Perform Agglomerative Hierarchical Clustering
We are going to explain the most used and important Hierarchical clustering i.e. agglomerative. The steps to perform the same is as follows −
Step1- Perlakukan setiap titik data sebagai cluster tunggal. Oleh karena itu, kita akan memiliki, misalnya kluster K di awal. Jumlah titik data juga akan menjadi K di awal.
Step2- Sekarang, pada langkah ini kita perlu membentuk cluster besar dengan menggabungkan dua titik data lemari. Ini akan menghasilkan total cluster K-1.
Step3- Sekarang, untuk membentuk lebih banyak cluster, kita perlu menggabungkan dua cluster lemari. Ini akan menghasilkan total cluster K-2.
Step4 - Sekarang, untuk membentuk satu cluster besar ulangi tiga langkah di atas sampai K menjadi 0 yaitu tidak ada lagi titik data yang tersisa untuk digabungkan.
Step5 - Akhirnya, setelah membuat satu cluster besar, dendrogram akan digunakan untuk membagi menjadi beberapa cluster tergantung pada masalahnya.
Peran Dendrogram dalam Agglomerative Hierarchical Clustering
Seperti yang telah kita bahas pada langkah terakhir, peran dendrogram dimulai setelah cluster besar terbentuk. Dendrogram akan digunakan untuk membagi cluster menjadi beberapa cluster titik data terkait tergantung pada masalah kita. Itu dapat dipahami dengan bantuan contoh berikut -
Contoh 1
Untuk memahami, mari kita mulai dengan mengimpor perpustakaan yang diperlukan sebagai berikut -
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
Selanjutnya, kita akan memplot titik data yang telah kita ambil untuk contoh ini -
X = np.array([[7,8],[12,20],[17,19],[26,15],[32,37],[87,75],[73,85], [62,80],[73,60],[87,96],])
labels = range(1, 11)
plt.figure(figsize=(10, 7))
plt.subplots_adjust(bottom=0.1)
plt.scatter(X[:,0],X[:,1], label='True Position')
for label, x, y in zip(labels, X[:, 0], X[:, 1]):
plt.annotate(label,xy=(x, y), xytext=(-3, 3),textcoords='offset points', ha='right', va='bottom')
plt.show()
Dari diagram di atas, sangat mudah untuk melihat bahwa kita memiliki dua cluster di titik data tetapi di data dunia nyata, bisa ada ribuan cluster. Selanjutnya, kita akan merencanakan dendrogram titik data kita dengan menggunakan perpustakaan Scipy -
from scipy.cluster.hierarchy import dendrogram, linkage
from matplotlib import pyplot as plt
linked = linkage(X, 'single')
labelList = range(1, 11)
plt.figure(figsize=(10, 7))
dendrogram(linked, orientation='top',labels=labelList, distance_sort='descending',show_leaf_counts=True)
plt.show()
Sekarang, setelah cluster besar terbentuk, jarak vertikal terpanjang dipilih. Garis vertikal kemudian ditarik melaluinya seperti yang ditunjukkan pada diagram berikut. Saat garis horizontal melintasi garis biru di dua titik, jumlah cluster akan menjadi dua.
Selanjutnya, kita perlu mengimpor kelas untuk pengelompokan dan memanggil metode fit_predict untuk memprediksi kluster. Kami mengimpor class AgglomerativeClustering dari library sklearn.cluster -
from sklearn.cluster import AgglomerativeClustering
cluster = AgglomerativeClustering(n_clusters=2, affinity='euclidean', linkage='ward')
cluster.fit_predict(X)
Selanjutnya, plot cluster dengan bantuan kode berikut -
plt.scatter(X[:,0],X[:,1], c=cluster.labels_, cmap='rainbow')
Diagram di atas menunjukkan dua cluster dari titik data kami.
Contoh2
Karena kita memahami konsep dendrogram dari contoh sederhana yang dibahas di atas, mari kita beralih ke contoh lain di mana kita membuat cluster titik data di Pima Indian Diabetes Dataset dengan menggunakan pengelompokan hierarkis -
import matplotlib.pyplot as plt
import pandas as pd
%matplotlib inline
import numpy as np
from pandas import read_csv
path = r"C:\pima-indians-diabetes.csv"
headernames = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(path, names=headernames)
array = data.values
X = array[:,0:8]
Y = array[:,8]
data.shape
(768, 9)
data.head()
slno. | preg | Plas | Pres | kulit | uji | massa | pedi | usia | kelas |
---|---|---|---|---|---|---|---|---|---|
0 | 6 | 148 | 72 | 35 | 0 | 33.6 | 0,627 | 50 | 1 |
1 | 1 | 85 | 66 | 29 | 0 | 26.6 | 0.351 | 31 | 0 |
2 | 8 | 183 | 64 | 0 | 0 | 23.3 | 0,672 | 32 | 1 |
3 | 1 | 89 | 66 | 23 | 94 | 28.1 | 0,167 | 21 | 0 |
4 | 0 | 137 | 40 | 35 | 168 | 43.1 | 2.288 | 33 | 1 |
patient_data = data.iloc[:, 3:5].values
import scipy.cluster.hierarchy as shc
plt.figure(figsize=(10, 7))
plt.title("Patient Dendograms")
dend = shc.dendrogram(shc.linkage(data, method='ward'))
from sklearn.cluster import AgglomerativeClustering
cluster = AgglomerativeClustering(n_clusters=4, affinity='euclidean', linkage='ward')
cluster.fit_predict(patient_data)
plt.figure(figsize=(10, 7))
plt.scatter(patient_data[:,0], patient_data[:,1], c=cluster.labels_, cmap='rainbow')
pengantar
Algoritma K-terdekat tetangga (KNN) adalah jenis algoritma ML terbimbing yang dapat digunakan untuk masalah klasifikasi dan prediksi regresi. Namun, ini terutama digunakan untuk masalah prediksi klasifikasi di industri. Dua properti berikut akan mendefinisikan sumur KNN -
Lazy learning algorithm - KNN adalah algoritma pembelajaran malas karena tidak memiliki fase pelatihan khusus dan menggunakan semua data untuk pelatihan saat klasifikasi.
Non-parametric learning algorithm - KNN juga merupakan algoritma pembelajaran non-parametrik karena tidak mengasumsikan apapun tentang data yang mendasarinya.
Pengerjaan Algoritma KNN
Algoritma K-terdekat tetangga (KNN) menggunakan 'kesamaan fitur' untuk memprediksi nilai titik data baru yang selanjutnya berarti bahwa titik data baru akan diberi nilai berdasarkan seberapa dekat itu cocok dengan poin dalam set pelatihan. Kami dapat memahami kerjanya dengan bantuan langkah-langkah berikut -
Step1- Untuk mengimplementasikan algoritma apapun, kita membutuhkan dataset. Jadi selama langkah pertama KNN, kita harus memuat data pelatihan serta data pengujian.
Step2- Selanjutnya, kita perlu memilih nilai K yaitu titik data terdekat. K bisa berupa bilangan bulat apa pun.
Step3 - Untuk setiap poin dalam data pengujian lakukan hal berikut -
3.1- Hitung jarak antara data uji dan setiap baris data latih dengan bantuan salah satu metode yaitu: jarak Euclidean, Manhattan atau Hamming. Metode yang paling umum digunakan untuk menghitung jarak adalah Euclidean.
3.2 - Sekarang, berdasarkan nilai jarak, urutkan dalam urutan menaik.
3.3 - Selanjutnya, ia akan memilih baris K teratas dari larik yang diurutkan.
3.4 - Sekarang, ini akan menetapkan kelas ke titik tes berdasarkan kelas yang paling sering dari baris ini.
Step4 - Selesai
Contoh
Berikut adalah contoh untuk memahami konsep K dan cara kerja algoritma KNN -
Misalkan kita memiliki dataset yang dapat diplot sebagai berikut -
Sekarang, kita perlu mengklasifikasikan titik data baru dengan titik hitam (pada titik 60,60) menjadi kelas biru atau merah. Kami mengasumsikan K = 3 yaitu akan menemukan tiga titik data terdekat. Itu ditunjukkan pada diagram berikutnya -
Kita dapat melihat pada diagram di atas tiga tetangga terdekat dari titik data dengan titik hitam. Di antara ketiganya, dua di antaranya terletak di kelas Merah maka titik hitam juga akan ditempatkan di kelas merah.
Implementasi dengan Python
Seperti yang kita ketahui, algoritma K-terdekat tetangga (KNN) dapat digunakan baik untuk klasifikasi maupun regresi. Berikut ini adalah resep Python untuk menggunakan KNN sebagai classifier sekaligus regressor -
KNN sebagai Pengklasifikasi
Pertama, mulailah dengan mengimpor paket python yang diperlukan -
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
Selanjutnya, unduh dataset iris dari tautan webnya sebagai berikut -
path = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"
Selanjutnya, kita perlu memberikan nama kolom ke dataset sebagai berikut -
headernames = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'Class']
Sekarang, kita perlu membaca dataset ke pandas dataframe sebagai berikut -
dataset = pd.read_csv(path, names=headernames)
dataset.head()
slno. | panjang sepal | lebar sepal | kelopak-panjang | kelopak-lebar | Kelas |
---|---|---|---|---|---|
0 | 5.1 | 3.5 | 1.4 | 0.2 | Iris-setosa |
1 | 4.9 | 3.0 | 1.4 | 0.2 | Iris-setosa |
2 | 4.7 | 3.2 | 1.3 | 0.2 | Iris-setosa |
3 | 4.6 | 3.1 | 1.5 | 0.2 | Iris-setosa |
4 | 5.0 | 3.6 | 1.4 | 0.2 | Iris-setosa |
Pemrosesan awal data akan dilakukan dengan bantuan baris skrip berikut -
X = dataset.iloc[:, :-1].values
y = dataset.iloc[:, 4].values
Selanjutnya kita akan membagi data menjadi train and test split. Kode berikut akan membagi dataset menjadi 60% data pelatihan dan 40% data pengujian -
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.40)
Selanjutnya, penskalaan data akan dilakukan sebagai berikut -
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit(X_train)
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)
Selanjutnya, latih model dengan bantuan kelas KNeighboursClassifier dari sklearn sebagai berikut -
from sklearn.neighbors import KNeighborsClassifier
classifier = KNeighborsClassifier(n_neighbors=8)
classifier.fit(X_train, y_train)
Akhirnya kita perlu membuat prediksi. Itu dapat dilakukan dengan bantuan skrip berikut -
y_pred = classifier.predict(X_test)
Selanjutnya, cetak hasilnya sebagai berikut -
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
result = confusion_matrix(y_test, y_pred)
print("Confusion Matrix:")
print(result)
result1 = classification_report(y_test, y_pred)
print("Classification Report:",)
print (result1)
result2 = accuracy_score(y_test,y_pred)
print("Accuracy:",result2)
Keluaran
Confusion Matrix:
[[21 0 0]
[ 0 16 0]
[ 0 7 16]]
Classification Report:
precision recall f1-score support
Iris-setosa 1.00 1.00 1.00 21
Iris-versicolor 0.70 1.00 0.82 16
Iris-virginica 1.00 0.70 0.82 23
micro avg 0.88 0.88 0.88 60
macro avg 0.90 0.90 0.88 60
weighted avg 0.92 0.88 0.88 60
Accuracy: 0.8833333333333333
KNN sebagai Regressor
Pertama, mulailah dengan mengimpor paket Python yang diperlukan -
import numpy as np
import pandas as pd
Selanjutnya, unduh dataset iris dari tautan webnya sebagai berikut -
path = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"
Selanjutnya, kita perlu memberikan nama kolom ke dataset sebagai berikut -
headernames = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'Class']
Sekarang, kita perlu membaca dataset ke pandas dataframe sebagai berikut -
data = pd.read_csv(url, names=headernames)
array = data.values
X = array[:,:2]
Y = array[:,2]
data.shape
output:(150, 5)
Selanjutnya, impor KNeighboursRegressor dari sklearn agar sesuai dengan model -
from sklearn.neighbors import KNeighborsRegressor
knnr = KNeighborsRegressor(n_neighbors=10)
knnr.fit(X, y)
Akhirnya, kita dapat menemukan MSE sebagai berikut -
print ("The MSE is:",format(np.power(y-knnr.predict(X),2).mean()))
Keluaran
The MSE is: 0.12226666666666669
Pro dan Kontra KNN
Pro
Ini adalah algoritma yang sangat sederhana untuk dipahami dan ditafsirkan.
Ini sangat berguna untuk data nonlinier karena tidak ada asumsi tentang data dalam algoritma ini.
Ini adalah algoritme serbaguna karena kami dapat menggunakannya untuk klasifikasi serta regresi.
Ini memiliki akurasi yang relatif tinggi tetapi ada model pembelajaran terawasi yang jauh lebih baik daripada KNN.
Kontra
Ini adalah algoritma komputasi yang agak mahal karena menyimpan semua data pelatihan.
Penyimpanan memori tinggi diperlukan dibandingkan dengan algoritme pembelajaran yang diawasi lainnya.
Prediksi lambat dalam kasus N. besar
Ini sangat sensitif terhadap skala data serta fitur yang tidak relevan.
Aplikasi KNN
Berikut adalah beberapa area di mana KNN dapat berhasil diterapkan -
Sistem perbankan
KNN dapat digunakan dalam sistem perbankan untuk memprediksi apakah seseorang layak untuk mendapatkan persetujuan pinjaman? Apakah individu tersebut memiliki karakteristik yang mirip dengan yang mangkir?
Menghitung Peringkat Kredit
Algoritma KNN dapat digunakan untuk menemukan peringkat kredit seseorang dengan membandingkan dengan orang yang memiliki sifat serupa.
Politik
Dengan bantuan algoritme KNN, kami dapat mengklasifikasikan calon pemilih ke dalam berbagai kelas seperti "Akan Memilih", "Tidak Akan Memilih", "Akan Memilih untuk 'Kongres' Partai," Akan Memilih untuk Partai 'BJP'.
Area lain di mana algoritma KNN dapat digunakan adalah Speech Recognition, Handwriting Detection, Image Recognition dan Video Recognition.
Ada berbagai metrik yang dapat kita gunakan untuk mengevaluasi kinerja algoritma ML, klasifikasi, serta algoritma regresi. Kita harus memilih metrik dengan cermat untuk mengevaluasi kinerja ML karena -
Bagaimana performa algoritme ML diukur dan dibandingkan akan bergantung sepenuhnya pada metrik yang Anda pilih.
Bagaimana Anda menimbang pentingnya berbagai karakteristik dalam hasil akan sepenuhnya dipengaruhi oleh metrik yang Anda pilih.
Metrik Kinerja untuk Masalah Klasifikasi
Kita telah membahas klasifikasi dan algoritmanya pada bab-bab sebelumnya. Di sini, kita akan membahas berbagai metrik kinerja yang dapat digunakan untuk mengevaluasi prediksi untuk masalah klasifikasi.
Confusion Matrix
Ini adalah cara termudah untuk mengukur kinerja masalah klasifikasi di mana keluarannya bisa dari dua atau lebih jenis kelas. Matriks konfusi tidak lain adalah tabel dengan dua dimensi yaitu. “Aktual” dan “Prediksi” dan selanjutnya, kedua dimensi tersebut memiliki “True Positives (TP)”, “True Negatives (TN)”, “False Positives (FP)”, “False Negatives (FN)” seperti yang ditunjukkan di bawah ini -
Penjelasan istilah-istilah yang terkait dengan matriks kebingungan adalah sebagai berikut -
True Positives (TP) - Ini adalah kasus ketika kelas aktual & kelas prediksi titik data adalah 1.
True Negatives (TN) - Ini adalah kasus ketika kelas aktual & kelas prediksi titik data adalah 0.
False Positives (FP) - Ini adalah kasus ketika kelas titik data aktual adalah 0 & kelas titik data yang diprediksi adalah 1.
False Negatives (FN) - Ini adalah kasus ketika kelas titik data aktual adalah 1 & kelas titik data yang diprediksi adalah 0.
Kita bisa menggunakan fungsi confusion_matrix dari sklearn.metrics untuk menghitung Confusion Matrix dari model klasifikasi kita.
Akurasi Klasifikasi
Ini adalah metrik kinerja paling umum untuk algoritme klasifikasi. Ini dapat didefinisikan sebagai jumlah prediksi yang benar yang dibuat sebagai rasio dari semua prediksi yang dibuat. Kita dapat dengan mudah menghitungnya dengan matriks kebingungan dengan bantuan rumus berikut -
$Accuracy =\frac{TP+TN}{+++}$Kita dapat menggunakan fungsi akurasi_score dari sklearn.metrics untuk menghitung akurasi model klasifikasi kita.
Laporan Klasifikasi
Laporan ini terdiri dari skor Precisions, Recall, F1, dan Support. Mereka dijelaskan sebagai berikut -
Presisi
Presisi, yang digunakan dalam pengambilan dokumen, dapat didefinisikan sebagai jumlah dokumen benar yang dikembalikan oleh model ML kita. Kita dapat dengan mudah menghitungnya dengan matriks kebingungan dengan bantuan rumus berikut -
$Precision=\frac{TP}{TP+FP}$Ingat atau Sensitivitas
Perolehan dapat didefinisikan sebagai jumlah positif yang dikembalikan oleh model ML kami. Kita dapat dengan mudah menghitungnya dengan matriks kebingungan dengan bantuan rumus berikut -
$Recall =\frac{TP}{TP+FN}$Kekhususan
Kekhususan, berbeda dengan perolehan, dapat didefinisikan sebagai jumlah negatif yang dikembalikan oleh model ML kita. Kita dapat dengan mudah menghitungnya dengan matriks kebingungan dengan bantuan rumus berikut -
$Specificity =\frac{TN}{TN+FP}$Dukung
Dukungan dapat diartikan sebagai jumlah sampel dari respon sebenarnya yang terletak di setiap kelas dari nilai target.
Skor F1
Skor ini akan memberi kita rata-rata presisi dan perolehan yang harmonis. Secara matematis, skor F1 adalah rata-rata tertimbang dari presisi dan perolehan. Nilai F1 terbaik adalah 1 dan terburuk adalah 0. Kita dapat menghitung skor F1 dengan bantuan rumus berikut -
= ∗ (∗) / (+)
Skor F1 memiliki kontribusi relatif yang sama antara presisi dan recall.
Kita bisa menggunakan fungsi klasifikasi_report dari sklearn.metrics untuk mendapatkan laporan klasifikasi dari model klasifikasi kita.
ABK (Area di Bawah kurva KOP)
AUC (Area Under Curve) -ROC (Receiver Operating Characteristic) adalah metrik kinerja, berdasarkan nilai ambang batas yang bervariasi, untuk masalah klasifikasi. Seperti namanya, ROC adalah kurva probabilitas dan AUC mengukur keterpisahan. Dengan kata sederhana, metrik AUC-ROC akan memberi tahu kita tentang kemampuan model dalam membedakan kelas. Semakin tinggi AUC, semakin baik modelnya.
Secara matematis dapat dibuat dengan memplot TPR (True Positive Rate) yaitu Sensitivitas atau recall vs FPR (False Positive Rate) yaitu 1-Specificity, pada berbagai nilai ambang batas. Berikut adalah grafik yang menunjukkan ROC, ABK yang memiliki TPR pada sumbu y dan FPR pada sumbu x -
Kita dapat menggunakan fungsi roc_auc_score dari sklearn.metrics untuk menghitung AUC-ROC.
LOGLOSS (Kerugian Logaritmik)
Ini juga disebut kerugian regresi logistik atau kerugian lintas entropi. Ini pada dasarnya didefinisikan pada perkiraan probabilitas dan mengukur kinerja model klasifikasi di mana inputnya adalah nilai probabilitas antara 0 dan 1. Ini dapat dipahami lebih jelas dengan membedakannya dengan akurasi. Seperti yang kita ketahui bahwa akurasi adalah hitungan prediksi (nilai prediksi = nilai aktual) dalam model kita sedangkan Log Loss adalah jumlah ketidakpastian prediksi kita berdasarkan seberapa besar variasinya dari label sebenarnya. Dengan bantuan nilai Log Loss, kami dapat melihat performa model kami dengan lebih akurat. Kita dapat menggunakan fungsi log_loss dari sklearn.metrics untuk menghitung Kerugian Log.
Contoh
Berikut ini adalah resep sederhana dengan Python yang akan memberi kita wawasan tentang bagaimana kita dapat menggunakan metrik kinerja yang dijelaskan di atas pada model klasifikasi biner -
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score
from sklearn.metrics import classification_report
from sklearn.metrics import roc_auc_score
from sklearn.metrics import log_loss
X_actual = [1, 1, 0, 1, 0, 0, 1, 0, 0, 0]
Y_predic = [1, 0, 1, 1, 1, 0, 1, 1, 0, 0]
results = confusion_matrix(X_actual, Y_predic)
print ('Confusion Matrix :')
print(results)
print ('Accuracy Score is',accuracy_score(X_actual, Y_predic))
print ('Classification Report : ')
print (classification_report(X_actual, Y_predic))
print('AUC-ROC:',roc_auc_score(X_actual, Y_predic))
print('LOGLOSS Value is',log_loss(X_actual, Y_predic))
Keluaran
Confusion Matrix :
[[3 3]
[1 3]]
Accuracy Score is 0.6
Classification Report :
precision recall f1-score support
0 0.75 0.50 0.60 6
1 0.50 0.75 0.60 4
micro avg 0.60 0.60 0.60 10
macro avg 0.62 0.62 0.60 10
weighted avg 0.65 0.60 0.60 10
AUC-ROC: 0.625
LOGLOSS Value is 13.815750437193334
Metrik Kinerja untuk Masalah Regresi
Kami telah membahas regresi dan algoritmanya di bab-bab sebelumnya. Di sini, kita akan membahas berbagai metrik kinerja yang dapat digunakan untuk mengevaluasi prediksi untuk masalah regresi.
Mean Absolute Error (MAE)
Ini adalah metrik kesalahan paling sederhana yang digunakan dalam masalah regresi. Ini pada dasarnya adalah jumlah rata-rata perbedaan absolut antara nilai prediksi dan nilai aktual. Dengan kata sederhana, dengan MAE, kita bisa mendapatkan gambaran tentang seberapa salah prediksi itu. MAE tidak menunjukkan arah model, yaitu tidak ada indikasi tentang kinerja yang buruk atau kinerja yang berlebihan dari model. Berikut rumus menghitung MAE -
$MAE = \frac{1}{n}\sum|Y -\hat{Y}|$Di sini, = Nilai Output Aktual
Dan $\hat{Y}$= Nilai Output yang Diprediksi.
Kita bisa menggunakan fungsi mean_absolute_error dari sklearn.metrics untuk menghitung MAE.
Mean Square Error (MSE)
MSE seperti MAE, tetapi satu-satunya perbedaan adalah bahwa MSE mengkuadratkan perbedaan nilai output aktual dan yang diprediksi sebelum menjumlahkan semuanya daripada menggunakan nilai absolut. Perbedaannya dapat dilihat pada persamaan berikut -
$MSE = \frac{1}{n}\sum(Y -\hat{Y})$Di sini, = Nilai Output Aktual
Dan $\hat{Y}$ = Nilai Output yang Diprediksi.
Kita dapat menggunakan fungsi mean_squared_error dari sklearn.metrics untuk menghitung MSE.
R Kuadrat (R 2 )
R Squared metric umumnya digunakan untuk tujuan penjelasan dan memberikan indikasi tentang kebaikan atau kesesuaian sekumpulan nilai keluaran yang diprediksi dengan nilai keluaran yang sebenarnya. Rumus berikut akan membantu kita memahaminya -
$R^{2} = 1 -\frac{\frac{1}{n}\sum_{i{=1}}^n(Y_{i}-\hat{Y_{i}})^2}{\frac{1}{n}\sum_{i{=1}}^n(Y_{i}-\bar{Y_i)^2}}$Dalam persamaan di atas, pembilangnya adalah MSE dan penyebutnya adalah varian nilai.
Kita dapat menggunakan fungsi r2_score dari sklearn.metrics untuk menghitung nilai R kuadrat.
Contoh
Berikut ini adalah resep sederhana dengan Python yang akan memberi kita wawasan tentang bagaimana kita dapat menggunakan metrik kinerja yang dijelaskan di atas pada model regresi -
from sklearn.metrics import r2_score
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import mean_squared_error
X_actual = [5, -1, 2, 10]
Y_predic = [3.5, -0.9, 2, 9.9]
print ('R Squared =',r2_score(X_actual, Y_predic))
print ('MAE =',mean_absolute_error(X_actual, Y_predic))
print ('MSE =',mean_squared_error(X_actual, Y_predic))
Keluaran
R Squared = 0.9656060606060606
MAE = 0.42499999999999993
MSE = 0.5674999999999999
pengantar
Untuk mengeksekusi dan menghasilkan hasil dengan sukses, model pembelajaran mesin harus mengotomatiskan beberapa alur kerja standar. Proses mengotomatiskan alur kerja standar ini dapat dilakukan dengan bantuan Scikit-learn Pipelines. Dari perspektif data scientist, pipeline adalah konsep yang digeneralisasikan, tetapi sangat penting. Ini pada dasarnya memungkinkan aliran data dari format mentahnya ke beberapa informasi yang berguna. Cara kerja pipa dapat dipahami dengan bantuan diagram berikut -
Blok saluran pipa ML adalah sebagai berikut -
Data ingestion- Seperti namanya, ini adalah proses mengimpor data untuk digunakan dalam proyek ML. Data dapat diekstraksi secara real time atau batch dari satu atau beberapa sistem. Ini adalah salah satu langkah yang paling menantang karena kualitas data dapat memengaruhi keseluruhan model ML.
Data Preparation- Setelah mengimpor data, kita perlu menyiapkan data untuk digunakan untuk model ML kita. Preprocessing data adalah salah satu teknik terpenting dalam persiapan data.
ML Model Training- Langkah selanjutnya adalah melatih model ML kita. Kami memiliki berbagai algoritme ML seperti diawasi, tidak diawasi, penguatan untuk mengekstrak fitur dari data, dan membuat prediksi.
Model Evaluation- Selanjutnya, kita perlu mengevaluasi model ML. Dalam kasus pipeline AutoML, model ML dapat dievaluasi dengan bantuan berbagai metode statistik dan aturan bisnis.
ML Model retraining- Dalam kasus pipeline AutoML, model pertama tidak perlu yang terbaik. Model pertama dianggap sebagai model dasar dan kami dapat melatihnya berulang kali untuk meningkatkan akurasi model.
Deployment- Akhirnya, kita perlu menerapkan model tersebut. Langkah ini melibatkan penerapan dan migrasi model ke operasi bisnis untuk digunakan.
Tantangan yang Menyertai Jaringan Pipa ML
Untuk membuat pipeline ML, data scientist menghadapi banyak tantangan. Tantangan ini termasuk dalam tiga kategori berikut -
Kualitas Data
Keberhasilan model ML apa pun sangat bergantung pada kualitas data. Jika data yang kami berikan ke model ML tidak akurat, andal, dan kuat, maka kami akan berakhir dengan keluaran yang salah atau menyesatkan.
Keandalan Data
Tantangan lain yang terkait dengan pipeline ML adalah keandalan data yang kami berikan untuk model ML. Seperti yang kita ketahui, ada berbagai sumber dari mana data scientist dapat memperoleh data, tetapi untuk mendapatkan hasil terbaik harus dipastikan bahwa sumber data tersebut dapat diandalkan dan dipercaya.
Aksesibilitas Data
Untuk mendapatkan hasil terbaik dari pipeline ML, datanya sendiri harus dapat diakses yang memerlukan konsolidasi, pembersihan, dan kurasi data. Sebagai hasil dari properti aksesibilitas data, metadata akan diperbarui dengan tag baru.
Pemodelan ML Pipeline dan Persiapan Data
Kebocoran data, yang terjadi dari set data pelatihan hingga set data pengujian, merupakan masalah penting yang harus dihadapi oleh data scientist saat menyiapkan data untuk model ML. Umumnya, pada saat persiapan data, data scientist menggunakan teknik seperti standarisasi atau normalisasi pada seluruh dataset sebelum melakukan pembelajaran. Tetapi teknik ini tidak dapat membantu kita dari kebocoran data karena dataset pelatihan akan dipengaruhi oleh skala data dalam dataset pengujian.
Dengan menggunakan pipeline ML, kami dapat mencegah kebocoran data ini karena pipeline memastikan bahwa persiapan data seperti standardisasi dibatasi pada setiap lipatan prosedur validasi silang kami.
Contoh
Berikut ini adalah contoh di Python yang menunjukkan persiapan data dan alur kerja evaluasi model. Untuk tujuan ini, kami menggunakan dataset Pima Indian Diabetes dari Sklearn. Pertama, kami akan membuat pipeline yang menstandarkan data. Kemudian akan dibuat model analisis Diskriminatif Linear dan terakhir pipeline akan dievaluasi menggunakan validasi silang 10 kali lipat.
Pertama, impor paket yang diperlukan sebagai berikut -
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
Sekarang, kita perlu memuat dataset diabetes Pima seperti yang dilakukan pada contoh sebelumnya -
path = r"C:\pima-indians-diabetes.csv"
headernames = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(path, names=headernames)
array = data.values
Selanjutnya, kita akan membuat pipeline dengan bantuan kode berikut -
estimators = []
estimators.append(('standardize', StandardScaler()))
estimators.append(('lda', LinearDiscriminantAnalysis()))
model = Pipeline(estimators)
Akhirnya, kita akan mengevaluasi pipeline ini dan mengeluarkan akurasinya sebagai berikut -
kfold = KFold(n_splits=20, random_state=7)
results = cross_val_score(model, X, Y, cv=kfold)
print(results.mean())
Keluaran
0.7790148448043184
Keluaran di atas merupakan rangkuman akurasi setup pada dataset.
Pemodelan ML Pipeline dan Ekstraksi Fitur
Kebocoran data juga dapat terjadi pada tahap ekstraksi fitur model ML. Itulah mengapa prosedur ekstraksi fitur juga harus dibatasi untuk menghentikan kebocoran data dalam set data pelatihan kami. Seperti dalam kasus persiapan data, dengan menggunakan pipeline ML, kami juga dapat mencegah kebocoran data ini. FeatureUnion, alat yang disediakan oleh pipeline ML dapat digunakan untuk tujuan ini.
Contoh
Berikut ini adalah contoh di Python yang mendemonstrasikan ekstraksi fitur dan alur kerja evaluasi model. Untuk tujuan ini, kami menggunakan dataset Pima Indian Diabetes dari Sklearn.
Pertama, 3 fitur akan diekstraksi dengan PCA (Principal Component Analysis). Kemudian, 6 fitur akan diekstraksi dengan Analisis Statistik. Setelah ekstraksi fitur, hasil dari beberapa seleksi fitur dan prosedur ekstraksi akan digabungkan dengan menggunakan
Fitur FeatureUnion. Akhirnya, model Regresi Logistik akan dibuat, dan pipeline akan dievaluasi menggunakan validasi silang 10 kali lipat.
Pertama, impor paket yang diperlukan sebagai berikut -
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.pipeline import Pipeline
from sklearn.pipeline import FeatureUnion
from sklearn.linear_model import LogisticRegression
from sklearn.decomposition import PCA
from sklearn.feature_selection import SelectKBest
Sekarang, kita perlu memuat dataset diabetes Pima seperti yang dilakukan pada contoh sebelumnya -
path = r"C:\pima-indians-diabetes.csv"
headernames = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(path, names=headernames)
array = data.values
Selanjutnya, penyatuan fitur akan dibuat sebagai berikut -
features = []
features.append(('pca', PCA(n_components=3)))
features.append(('select_best', SelectKBest(k=6)))
feature_union = FeatureUnion(features)
Selanjutnya, pipeline akan dibuat dengan bantuan baris skrip berikut -
estimators = []
estimators.append(('feature_union', feature_union))
estimators.append(('logistic', LogisticRegression()))
model = Pipeline(estimators)
Akhirnya, kita akan mengevaluasi pipeline ini dan mengeluarkan akurasinya sebagai berikut -
kfold = KFold(n_splits=20, random_state=7)
results = cross_val_score(model, X, Y, cv=kfold)
print(results.mean())
Keluaran
0.7789811066126855
Keluaran di atas merupakan rangkuman akurasi setup pada dataset.
Peningkatan Kinerja dengan Ensemble
Ensemble dapat meningkatkan hasil machine learning dengan menggabungkan beberapa model. Pada dasarnya, model ensemble terdiri dari beberapa model pembelajaran terawasi yang dilatih secara individual dan hasilnya digabungkan dalam berbagai cara untuk mencapai kinerja prediksi yang lebih baik dibandingkan dengan model tunggal. Metode ensemble dapat dibagi menjadi dua kelompok berikut -
Metode ensembel berurutan
Sesuai dengan namanya, dalam metode ensemble semacam ini, pembelajar dasar dihasilkan secara berurutan. Motivasi dari metode tersebut adalah untuk memanfaatkan ketergantungan di antara pelajar dasar.
Metode ansambel paralel
Sesuai dengan namanya, dalam metode ensemble semacam ini, pembelajar dasar dihasilkan secara paralel. Motivasi dari metode tersebut adalah untuk memanfaatkan kemandirian di antara peserta didik dasar.
Metode Pembelajaran Ensemble
Berikut ini adalah metode pembelajaran ensemble paling populer yaitu metode untuk menggabungkan prediksi dari model yang berbeda -
Mengantongi
Istilah mengantongi juga dikenal sebagai agregasi bootstrap. Dalam metode bagging, model ensemble mencoba untuk meningkatkan akurasi prediksi dan mengurangi varians model dengan menggabungkan prediksi model individual yang dilatihkan melalui sampel pelatihan yang dibuat secara acak. Prediksi akhir dari model ensemble akan diberikan dengan menghitung rata-rata semua prediksi dari masing-masing estimator. Salah satu contoh terbaik metode bagging adalah hutan acak.
Meningkatkan
Dalam metode boosting, prinsip utama membangun model ensemble adalah membangunnya secara bertahap dengan melatih setiap penduga model dasar secara berurutan. Seperti namanya, ini pada dasarnya menggabungkan beberapa pelajar dasar minggu, dilatih secara berurutan melalui beberapa iterasi data pelatihan, untuk membangun ansambel yang kuat. Selama pelatihan pelajar dasar minggu, bobot yang lebih tinggi diberikan kepada pelajar yang kesalahan klasifikasi sebelumnya. Contoh metode boosting adalah AdaBoost.
Pemungutan suara
Dalam model pembelajaran ensembel ini, beberapa model dari jenis yang berbeda dibangun dan beberapa statistik sederhana, seperti menghitung mean atau median, dll., Digunakan untuk menggabungkan prediksi. Prediksi ini akan menjadi masukan tambahan untuk pelatihan membuat prediksi akhir.
Algoritma Ensemble Bagging
Berikut ini adalah tiga algoritma ansambel mengantongi -
Pohon Keputusan yang Dikantongi
Seperti yang kita ketahui bahwa metode ansambel bagging bekerja dengan baik dengan algoritma yang memiliki varians tinggi dan, dalam hal ini, yang terbaik adalah algoritma pohon keputusan. Dalam resep Python berikut, kita akan membangun model ansambel pohon keputusan dengan menggunakan fungsi BaggingClassifier dari sklearn dengan DecisionTreeClasifier (algoritma klasifikasi & pohon regresi) pada dataset diabetes Pima Indians.
Pertama, impor paket yang diperlukan sebagai berikut -
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier
Sekarang, kita perlu memuat dataset diabetes Pima seperti yang kita lakukan pada contoh sebelumnya -
path = r"C:\pima-indians-diabetes.csv"
headernames = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(path, names=headernames)
array = data.values
X = array[:,0:8]
Y = array[:,8]
Selanjutnya, berikan input untuk validasi silang 10 kali lipat sebagai berikut -
seed = 7
kfold = KFold(n_splits=10, random_state=seed)
cart = DecisionTreeClassifier()
Kami perlu menyediakan jumlah pohon yang akan kami bangun. Di sini kami membangun 150 pohon -
num_trees = 150
Selanjutnya, buat model dengan bantuan skrip berikut -
model = BaggingClassifier(base_estimator=cart, n_estimators=num_trees, random_state=seed)
Hitung dan cetak hasilnya sebagai berikut -
results = cross_val_score(model, X, Y, cv=kfold)
print(results.mean())
Keluaran
0.7733766233766234
Output di atas menunjukkan bahwa kami mendapatkan sekitar 77% akurasi model pengklasifikasi pohon keputusan yang dikantongi kami.
Random Forest
Ini adalah perpanjangan dari pohon keputusan yang dikantongi. Untuk pengklasifikasi individu, sampel set data pelatihan diambil dengan penggantian, tetapi pohon dibuat sedemikian rupa sehingga mengurangi korelasi di antara mereka. Selain itu, subset fitur acak dianggap memilih setiap titik pemisah daripada memilih dengan rakus titik pisah terbaik dalam konstruksi setiap pohon.
Dalam resep Python berikut, kita akan membuat model ansambel hutan acak dengan menggunakan class RandomForestClassifier dari sklearn pada dataset diabetes Pima Indians.
Pertama, impor paket yang diperlukan sebagai berikut -
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier
Sekarang, kita perlu memuat dataset diabetes Pima seperti yang dilakukan pada contoh sebelumnya -
path = r"C:\pima-indians-diabetes.csv"
headernames = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(path, names=headernames)
array = data.values
X = array[:,0:8]
Y = array[:,8]
Selanjutnya, berikan input untuk validasi silang 10 kali lipat sebagai berikut -
seed = 7
kfold = KFold(n_splits=10, random_state=seed)
Kami perlu menyediakan jumlah pohon yang akan kami bangun. Di sini kami membangun 150 pohon dengan titik-titik terpisah yang dipilih dari 5 fitur -
num_trees = 150
max_features = 5
Selanjutnya, buat model dengan bantuan skrip berikut -
model = RandomForestClassifier(n_estimators=num_trees, max_features=max_features)
Hitung dan cetak hasilnya sebagai berikut -
results = cross_val_score(model, X, Y, cv=kfold)
print(results.mean())
Keluaran
0.7629357484620642
Output di atas menunjukkan bahwa kami mendapatkan sekitar 76% akurasi model pengklasifikasi hutan acak yang dikantongi kami.
Pohon Ekstra
Ini adalah perpanjangan lain dari metode ansambel pohon keputusan yang dikantongi. Dalam metode ini, pohon acak dibangun dari sampel set data pelatihan.
Dalam resep Python berikut, kita akan membuat model ansambel pohon ekstra dengan menggunakan kelas sklearn ExtraTreesClassifier pada dataset diabetes Pima Indians.
Pertama, impor paket yang diperlukan sebagai berikut -
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import ExtraTreesClassifier
Sekarang, kita perlu memuat dataset diabetes Pima seperti yang dilakukan pada contoh sebelumnya -
path = r"C:\pima-indians-diabetes.csv"
headernames = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(path, names=headernames)
array = data.values
X = array[:,0:8]
Y = array[:,8]
Selanjutnya, berikan input untuk validasi silang 10 kali lipat sebagai berikut -
seed = 7
kfold = KFold(n_splits=10, random_state=seed)
Kami perlu menyediakan jumlah pohon yang akan kami bangun. Di sini kami membangun 150 pohon dengan titik-titik terpisah yang dipilih dari 5 fitur -
num_trees = 150
max_features = 5
Selanjutnya, buat model dengan bantuan skrip berikut -
model = ExtraTreesClassifier(n_estimators=num_trees, max_features=max_features)
Hitung dan cetak hasilnya sebagai berikut -
results = cross_val_score(model, X, Y, cv=kfold)
print(results.mean())
Keluaran
0.7551435406698566
Output di atas menunjukkan bahwa kami mendapatkan sekitar 75,5% akurasi model pengklasifikasi pohon ekstra yang dikantongi kami.
Meningkatkan Algoritma Ensemble
Berikut ini adalah dua algoritma ensemble penguat yang paling umum -
AdaBoost
Ini adalah salah satu algoritma ensemble penguat yang paling sukses. Kunci utama dari algoritme ini adalah caranya memberikan bobot pada instance dalam kumpulan data. Karena itu, algoritme perlu kurang memperhatikan instance saat membangun model selanjutnya.
Dalam resep Python berikut, kita akan membangun model ensemble Ada Boost untuk klasifikasi dengan menggunakan class AdaBoostClassifier dari sklearn pada dataset diabetes Pima Indians.
Pertama, impor paket yang diperlukan sebagai berikut -
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import AdaBoostClassifier
Sekarang, kita perlu memuat dataset diabetes Pima seperti yang dilakukan pada contoh sebelumnya -
path = r"C:\pima-indians-diabetes.csv"
headernames = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(path, names=headernames)
array = data.values
X = array[:,0:8]
Y = array[:,8]
Selanjutnya, berikan input untuk validasi silang 10 kali lipat sebagai berikut -
seed = 5
kfold = KFold(n_splits=10, random_state=seed)
Kami perlu menyediakan jumlah pohon yang akan kami bangun. Di sini kami membangun 150 pohon dengan titik-titik terpisah yang dipilih dari 5 fitur -
num_trees = 50
Selanjutnya, buat model dengan bantuan skrip berikut -
model = AdaBoostClassifier(n_estimators=num_trees, random_state=seed)
Hitung dan cetak hasilnya sebagai berikut -
results = cross_val_score(model, X, Y, cv=kfold)
print(results.mean())
Keluaran
0.7539473684210527
Output di atas menunjukkan bahwa kita mendapatkan sekitar 75% akurasi model ensemble pengklasifikasi AdaBoost kita.
Peningkatan Gradien Stochastic
Ini juga disebut Mesin Penguat Gradien. Dalam resep Python berikut, kita akan membangun model pemasangan Stochastic Gradient Boostingensemble untuk klasifikasi dengan menggunakan kelas GradientBoostingClassifier dari sklearn pada dataset diabetes Pima Indians.
Pertama, impor paket yang diperlukan sebagai berikut -
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import GradientBoostingClassifier
Sekarang, kita perlu memuat dataset diabetes Pima seperti yang dilakukan pada contoh sebelumnya -
path = r"C:\pima-indians-diabetes.csv"
headernames = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(path, names=headernames)
array = data.values
X = array[:,0:8]
Y = array[:,8]
Selanjutnya, berikan input untuk validasi silang 10 kali lipat sebagai berikut -
seed = 5
kfold = KFold(n_splits=10, random_state=seed)
Kami perlu menyediakan jumlah pohon yang akan kami bangun. Di sini kami membangun 150 pohon dengan titik-titik terpisah yang dipilih dari 5 fitur -
num_trees = 50
Selanjutnya, buat model dengan bantuan skrip berikut -
model = GradientBoostingClassifier(n_estimators=num_trees, random_state=seed)
Hitung dan cetak hasilnya sebagai berikut -
results = cross_val_score(model, X, Y, cv=kfold)
print(results.mean())
Keluaran
0.7746582365003418
Output di atas menunjukkan bahwa kami mendapatkan sekitar 77,5% akurasi model ensemble pengklasifikasi Gradient Boosting kami.
Voting Ensemble Algorithms
Seperti yang telah dibahas, pemungutan suara terlebih dahulu membuat dua atau lebih model mandiri dari set data pelatihan, kemudian pengklasifikasi pemungutan suara akan menggabungkan model tersebut bersama dengan mengambil rata-rata prediksi sub-model setiap kali data baru dibutuhkan.
Dalam resep Python berikut, kita akan membuat model ansambel Voting untuk klasifikasi dengan menggunakan class VotingClassifier dari sklearn pada dataset diabetes Pima Indians. Kami menggabungkan prediksi regresi logistik, pengklasifikasi Pohon Keputusan, dan SVM bersama-sama untuk masalah klasifikasi sebagai berikut -
Pertama, impor paket yang diperlukan sebagai berikut -
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
from sklearn.ensemble import VotingClassifier
Sekarang, kita perlu memuat dataset diabetes Pima seperti yang dilakukan pada contoh sebelumnya -
path = r"C:\pima-indians-diabetes.csv"
headernames = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(path, names=headernames)
array = data.values
X = array[:,0:8]
Y = array[:,8]
Selanjutnya, berikan input untuk validasi silang 10 kali lipat sebagai berikut -
kfold = KFold(n_splits=10, random_state=7)
Selanjutnya, kita perlu membuat sub-model sebagai berikut -
estimators = []
model1 = LogisticRegression()
estimators.append(('logistic', model1))
model2 = DecisionTreeClassifier()
estimators.append(('cart', model2))
model3 = SVC()
estimators.append(('svm', model3))
Sekarang, buat model ansambel pemungutan suara dengan menggabungkan prediksi dari sub model yang dibuat di atas.
ensemble = VotingClassifier(estimators)
results = cross_val_score(ensemble, X, Y, cv=kfold)
print(results.mean())
Keluaran
0.7382262474367738
Output di atas menunjukkan bahwa kami mendapatkan akurasi sekitar 74% dari model ansambel pengklasifikasi pemungutan suara kami.
Peningkatan Performa dengan Algoritma Tuning
Seperti yang kita ketahui bahwa model ML diparameterisasi sedemikian rupa sehingga perilakunya dapat disesuaikan untuk masalah tertentu. Algoritma tuning berarti mencari kombinasi terbaik dari parameter-parameter tersebut agar performansi model ML dapat ditingkatkan. Proses ini terkadang disebut pengoptimalan hyperparameter dan parameter algoritme itu sendiri disebut hyperparameter dan koefisien yang ditemukan oleh algoritme ML disebut parameter.
Di sini, kita akan membahas tentang beberapa metode untuk penyetelan parameter algoritma yang disediakan oleh Python Scikit-learn.
Pencarian Parameter Grid
Ini adalah pendekatan penyetelan parameter. Poin kunci dari kerja metode ini adalah ia membangun dan mengevaluasi model secara metodis untuk setiap kemungkinan kombinasi parameter algoritme yang ditentukan dalam kisi. Karenanya, kita dapat mengatakan bahwa algoritma ini memiliki sifat pencarian.
Contoh
Dalam resep Python berikut, kita akan melakukan pencarian grid dengan menggunakan kelas Sklearn GridSearchCV untuk mengevaluasi berbagai nilai alfa untuk algoritma Regresi Ridge pada dataset diabetes Pima Indians.
Pertama, impor paket yang diperlukan sebagai berikut -
import numpy
from pandas import read_csv
from sklearn.linear_model import Ridge
from sklearn.model_selection import GridSearchCV
Sekarang, kita perlu memuat dataset diabetes Pima seperti yang dilakukan pada contoh sebelumnya -
path = r"C:\pima-indians-diabetes.csv"
headernames = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(path, names=headernames)
array = data.values
X = array[:,0:8]
Y = array[:,8]
Selanjutnya, evaluasi berbagai nilai alfa sebagai berikut -
alphas = numpy.array([1,0.1,0.01,0.001,0.0001,0])
param_grid = dict(alpha=alphas)
Sekarang, kita perlu menerapkan pencarian grid pada model kita -
model = Ridge()
grid = GridSearchCV(estimator=model, param_grid=param_grid)
grid.fit(X, Y)
Cetak hasilnya dengan baris skrip berikut -
print(grid.best_score_)
print(grid.best_estimator_.alpha)
Keluaran
0.2796175593129722
1.0
Keluaran di atas memberi kita skor optimal dan seperangkat parameter di grid yang mencapai skor itu. Nilai alpha dalam kasus ini adalah 1,0.
Pengaturan Parameter Pencarian Acak
Ini adalah pendekatan penyetelan parameter. Titik kunci kerja metode ini adalah mengambil sampel parameter algoritme dari distribusi acak untuk sejumlah iterasi tetap.
Contoh
Dalam resep Python berikut, kita akan melakukan pencarian acak dengan menggunakan class RandomizedSearchCV dari sklearn untuk mengevaluasi nilai alpha yang berbeda antara 0 dan 1 untuk algoritma Regresi Ridge pada dataset diabetes Pima Indians.
Pertama, impor paket yang diperlukan sebagai berikut -
import numpy
from pandas import read_csv
from scipy.stats import uniform
from sklearn.linear_model import Ridge
from sklearn.model_selection import RandomizedSearchCV
Sekarang, kita perlu memuat dataset diabetes Pima seperti yang dilakukan pada contoh sebelumnya -
path = r"C:\pima-indians-diabetes.csv"
headernames = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(path, names=headernames)
array = data.values
X = array[:,0:8]
Y = array[:,8]
Selanjutnya, evaluasi berbagai nilai alpha pada algoritma regresi Ridge sebagai berikut -
param_grid = {'alpha': uniform()}
model = Ridge()
random_search = RandomizedSearchCV(estimator=model, param_distributions=param_grid, n_iter=50,
random_state=7)
random_search.fit(X, Y)
Cetak hasilnya dengan baris skrip berikut -
print(random_search.best_score_)
print(random_search.best_estimator_.alpha)
Keluaran
0.27961712703051084
0.9779895119966027
0.9779895119966027
Output di atas memberi kita skor optimal yang mirip dengan pencarian grid.