Pembelajaran Mesin dengan Python - Ekosistem

Pengantar Python

Python adalah bahasa pemrograman berorientasi objek populer yang memiliki kemampuan bahasa pemrograman tingkat tinggi. Kemampuan sintaks dan portabilitas yang mudah dipelajari membuatnya populer akhir-akhir ini. Fakta-fakta berikut memberi kita pengenalan tentang Python -

  • Python dikembangkan oleh Guido van Rossum di Stichting Mathematisch Centrum di Belanda.

  • Itu ditulis sebagai penerus bahasa pemrograman bernama 'ABC'.

  • Versi pertama dirilis pada tahun 1991.

  • Nama Python dipilih oleh Guido van Rossum dari sebuah acara TV bernama Sirkus Terbang Monty Python.

  • Ini adalah bahasa pemrograman open source yang artinya kita dapat dengan bebas mendownloadnya dan menggunakannya untuk mengembangkan program. Ini dapat diunduh dari www.python.org .

  • Bahasa pemrograman Python memiliki fitur Java dan C keduanya. Ia memiliki kode 'C' yang elegan dan di sisi lain, ia memiliki kelas dan objek seperti Java untuk pemrograman berorientasi objek.

  • Ini adalah bahasa yang ditafsirkan, yang berarti kode sumber program Python akan diubah terlebih dahulu menjadi bytecode dan kemudian dieksekusi oleh mesin virtual Python.

Kekuatan dan Kelemahan Python

Setiap bahasa pemrograman memiliki beberapa kelebihan dan juga kelemahan, begitu pula Python.

Kekuatan

Menurut studi dan survei, Python adalah bahasa terpenting kelima serta bahasa paling populer untuk pembelajaran mesin dan ilmu data. Itu karena kekuatan berikut yang dimiliki Python -

Easy to learn and understand- Sintaks Python lebih sederhana; karenanya relatif mudah, bahkan bagi pemula juga, untuk belajar dan memahami bahasa.

Multi-purpose language - Python adalah bahasa pemrograman multiguna karena mendukung pemrograman terstruktur, pemrograman berorientasi objek, serta pemrograman fungsional.

Huge number of modules- Python memiliki banyak sekali modul untuk mencakup setiap aspek pemrograman. Modul-modul ini mudah tersedia untuk digunakan sehingga menjadikan Python bahasa yang dapat dikembangkan.

Support of open source community- Sebagai bahasa pemrograman open source, Python didukung oleh komunitas pengembang yang sangat besar. Karena itu, bug dengan mudah diperbaiki oleh komunitas Python. Karakteristik ini membuat Python sangat kuat dan adaptif.

Scalability - Python adalah bahasa pemrograman yang dapat diskalakan karena menyediakan struktur yang lebih baik untuk mendukung program besar daripada skrip shell.

Kelemahan

Meskipun Python adalah bahasa pemrograman yang populer dan kuat, ia memiliki kelemahannya sendiri yaitu kecepatan eksekusi yang lambat.

Kecepatan eksekusi Python lambat dibandingkan dengan bahasa yang dikompilasi karena Python adalah bahasa yang ditafsirkan. Ini bisa menjadi area utama peningkatan untuk komunitas Python.

Menginstal Python

Untuk bekerja dengan Python, kita harus menginstalnya terlebih dahulu. Anda dapat melakukan instalasi Python dengan salah satu dari dua cara berikut -

  • Menginstal Python satu per satu

  • Menggunakan distribusi Python yang dikemas sebelumnya - Anaconda

Mari kita bahas masing-masing secara rinci.

Menginstal Python Secara Individual

Jika Anda ingin menginstal Python di komputer Anda, maka Anda hanya perlu mendownload kode biner yang berlaku untuk platform Anda. Distribusi Python tersedia untuk platform Windows, Linux dan Mac.

Berikut ini adalah ikhtisar cepat menginstal Python pada platform yang disebutkan di atas -

On Unix and Linux platform

Dengan bantuan langkah-langkah berikut, kita dapat menginstal Python di platform Unix dan Linux -

  • Pertama, buka www.python.org/downloads/ .

  • Selanjutnya, klik tautan untuk mengunduh kode sumber zip yang tersedia untuk Unix / Linux.

  • Sekarang, Unduh dan ekstrak file.

  • Selanjutnya, kita dapat mengedit file Modules / Setup jika kita ingin menyesuaikan beberapa opsi.

    • Selanjutnya, tulis perintahnya run ./configure script

    • make

    • buat instal

On Windows platform

Dengan bantuan langkah-langkah berikut, kita dapat menginstal Python di platform Windows -

  • Pertama, buka www.python.org/downloads/ .

  • Selanjutnya, klik tautan untuk file python-XYZ.msi penginstal Windows. Di sini XYZ adalah versi yang ingin kami instal.

  • Sekarang, kita harus menjalankan file yang diunduh. Ini akan membawa kita ke wizard penginstalan Python, yang mudah digunakan. Sekarang, terima pengaturan default dan tunggu sampai penginstalan selesai.

On Macintosh platform

Untuk Mac OS X, Homebrew, penginstal paket yang hebat dan mudah digunakan disarankan untuk menginstal Python 3. Jika Anda tidak memiliki Homebrew, Anda dapat menginstalnya dengan bantuan perintah berikut -

$ ruby -e "$(curl -fsSL
https://raw.githubusercontent.com/Homebrew/install/master/install)"

Itu dapat diperbarui dengan perintah di bawah ini -

$ brew update

Sekarang, untuk menginstal Python3 di sistem Anda, kita perlu menjalankan perintah berikut -

$ brew install python3

Menggunakan Distribusi Python Pra-paket: Anaconda

Anaconda adalah kompilasi paket Python yang memiliki semua pustaka yang banyak digunakan dalam ilmu Data. Kita dapat mengikuti langkah-langkah berikut untuk mengatur lingkungan Python menggunakan Anaconda -

  • Step 1- Pertama, kita perlu mengunduh paket instalasi yang diperlukan dari distribusi Anaconda. Tautan yang sama adalah www.anaconda.com/distribution/ . Anda dapat memilih dari Windows, Mac dan Linux OS sesuai kebutuhan Anda.

  • Step 2- Selanjutnya, pilih versi Python yang ingin Anda instal di mesin Anda. Versi Python terbaru adalah 3.7. Di sana Anda akan mendapatkan opsi untuk penginstal Grafis 64-bit dan 32-bit keduanya.

  • Step 3- Setelah memilih versi OS dan Python, penginstal Anaconda akan diunduh di komputer Anda. Sekarang, klik dua kali file tersebut dan penginstal akan menginstal paket Anaconda.

  • Step 4 - Untuk memeriksa apakah sudah diinstal atau tidak, buka prompt perintah dan ketik Python sebagai berikut -

Anda juga dapat memeriksa ini dalam video ceramah terperinci di www.tutorialspoint.com/python_essentials_online_training/getting_started_with_anaconda.asp .

Mengapa Python untuk Ilmu Data?

Python adalah bahasa terpenting kelima serta bahasa paling populer untuk pembelajaran Mesin dan ilmu data. Berikut ini adalah fitur-fitur Python yang menjadikannya pilihan bahasa yang disukai untuk ilmu data -

Paket yang ekstensif

Python memiliki kumpulan paket yang luas dan kuat yang siap digunakan di berbagai domain. Ini juga memiliki paket sepertinumpy, scipy, pandas, scikit-learn dll. yang diperlukan untuk pembelajaran mesin dan ilmu data.

Pembuatan prototipe yang mudah

Fitur penting lainnya dari Python yang menjadikannya pilihan bahasa untuk ilmu data adalah pembuatan prototipe yang mudah dan cepat. Fitur ini berguna untuk mengembangkan algoritma baru.

Fitur kolaborasi

Bidang ilmu data pada dasarnya membutuhkan kolaborasi yang baik dan Python menyediakan banyak alat berguna yang menjadikannya sangat berguna.

Satu bahasa untuk banyak domain

Proyek ilmu data yang khas mencakup berbagai domain seperti ekstraksi data, manipulasi data, analisis data, ekstraksi fitur, pemodelan, evaluasi, penerapan, dan pembaruan solusi. Karena Python adalah bahasa multiguna, ini memungkinkan ilmuwan data untuk menangani semua domain ini dari platform yang sama.

Komponen Ekosistem Python ML

Di bagian ini, mari kita bahas beberapa pustaka Ilmu Data inti yang membentuk komponen ekosistem pembelajaran Mesin Python. Komponen yang berguna ini menjadikan Python bahasa yang penting untuk Ilmu Data. Meskipun ada banyak komponen seperti itu, mari kita bahas beberapa komponen penting ekosistem Python di sini -

Notebook Jupyter

Notebook Jupyter pada dasarnya menyediakan lingkungan komputasi interaktif untuk mengembangkan aplikasi Ilmu Data berbasis Python. Mereka sebelumnya dikenal sebagai notebook ipython. Berikut ini adalah beberapa fitur notebook Jupyter yang menjadikannya salah satu komponen terbaik dari ekosistem Python ML -

  • Notebook Jupyter dapat mengilustrasikan proses analisis langkah demi langkah dengan mengatur hal-hal seperti kode, gambar, teks, keluaran, dll. Secara langkah demi langkah.

  • Ini membantu seorang data scientist untuk mendokumentasikan proses berpikir sambil mengembangkan proses analisis.

  • Anda juga dapat menangkap hasilnya sebagai bagian dari notebook.

  • Dengan bantuan notebook jupyter, kami juga dapat berbagi pekerjaan kami dengan rekan.

Instalasi dan Eksekusi

Jika Anda menggunakan distribusi Anaconda, maka Anda tidak perlu menginstal notebook jupyter secara terpisah karena sudah terpasang dengannya. Anda hanya perlu pergi ke Anaconda Prompt dan ketik perintah berikut -

C:\>jupyter notebook

Setelah menekan enter, ini akan memulai server notebook di localhost: 8888 komputer Anda. Itu ditunjukkan pada tangkapan layar berikut -

Sekarang, setelah mengklik tab Baru, Anda akan mendapatkan daftar opsi. Pilih Python 3 dan itu akan membawa Anda ke buku catatan baru untuk mulai mengerjakannya. Anda akan melihatnya sekilas di screenshot berikut -

Di sisi lain, jika Anda menggunakan distribusi Python standar maka notebook jupyter dapat diinstal menggunakan penginstal paket python populer, pip.

pip install jupyter

Jenis Sel di Notebook Jupyter

Berikut ini adalah tiga jenis sel di notebook jupyter -

Code cells- Seperti namanya, kita bisa menggunakan sel ini untuk menulis kode. Setelah kode / konten ditulis, ia akan mengirimkannya ke kernel yang terkait dengan notebook.

Markdown cells- Kita dapat menggunakan sel-sel ini untuk mencatat proses komputasi. Mereka dapat berisi hal-hal seperti teks, gambar, persamaan Lateks, tag HTML, dll.

Raw cells- Teks yang tertulis di dalamnya ditampilkan apa adanya. Sel-sel ini pada dasarnya digunakan untuk menambahkan teks yang tidak ingin kita ubah oleh mekanisme konversi otomatis notebook jupyter.

Untuk studi lebih rinci tentang notebook jupyter, Anda dapat mengunjungi link www.tutorialspoint.com/jupyter/index.htm .

NumPy

Ini adalah komponen berguna lainnya yang menjadikan Python sebagai salah satu bahasa favorit untuk Data Science. Ini pada dasarnya adalah singkatan dari Numerical Python dan terdiri dari objek array multidimensi. Dengan menggunakan NumPy, kita dapat melakukan operasi penting berikut -

  • Operasi matematika dan logika pada array.

  • Transformasi Fourier

  • Operasi yang terkait dengan aljabar linier.

Kita juga bisa melihat NumPy sebagai pengganti MatLab karena NumPy banyak digunakan bersama dengan Scipy (Scientific Python) dan Mat-plotlib (pustaka plotting).

Installation and Execution

Jika Anda menggunakan distribusi Anaconda, maka tidak perlu memasang NumPy secara terpisah karena sudah terpasang dengannya. Anda hanya perlu mengimpor paket ke skrip Python Anda dengan bantuan berikut -

import numpy as np

Di sisi lain, jika Anda menggunakan distribusi Python standar, NumPy dapat diinstal menggunakan penginstal paket python populer, pip.

pip install NumPy

Untuk mempelajari NumPy lebih detail, Anda dapat mengunjungi link www.tutorialspoint.com/numpy/index.htm .

Panda

Ini adalah pustaka Python berguna lainnya yang menjadikan Python salah satu bahasa favorit untuk Ilmu Data. Panda pada dasarnya digunakan untuk manipulasi, perselisihan, dan analisis data. Ini dikembangkan oleh Wes McKinney pada tahun 2008. Dengan bantuan Pandas, dalam pemrosesan data kita dapat menyelesaikan lima langkah berikut -

  • Load
  • Prepare
  • Manipulate
  • Model
  • Analyze

Representasi data di Pandas

Seluruh representasi data di Pandas dilakukan dengan bantuan tiga struktur data berikut -

Series- Ini pada dasarnya adalah ndarray satu dimensi dengan label sumbu yang berarti seperti array sederhana dengan data homogen. Misalnya deret berikut adalah kumpulan bilangan bulat 1,5,10,15,24,25 ...

1 5 10 15 24 25 28 36 40 89

Data frame- Ini adalah struktur data yang paling berguna dan digunakan untuk hampir semua jenis representasi dan manipulasi data di panda. Ini pada dasarnya adalah struktur data dua dimensi yang dapat berisi data heterogen. Umumnya data tabular direpresentasikan dengan menggunakan data frame. Misalnya, tabel berikut menunjukkan data siswa yang memiliki nama dan nomor gulungan, usia dan jenis kelamin -

Nama Nomor gulungan Usia Jenis kelamin
Aarav 1 15 Pria
Harshit 2 14 Pria
Kanika 3 16 Perempuan
Mayank 4 15 Pria

Panel- Ini adalah struktur data 3 dimensi yang berisi data heterogen. Sangat sulit untuk merepresentasikan panel dalam representasi grafis, tetapi dapat diilustrasikan sebagai wadah DataFrame.

Tabel berikut memberi kita dimensi dan deskripsi tentang struktur data yang disebutkan di atas yang digunakan di Pandas -

Struktur data Dimensi Deskripsi
Seri 1-D Ukuran tidak dapat diubah, data homogen 1-D
DataFrames 2-D Size Mutable, data heterogen dalam bentuk tabel
Panel 3-D Larik yang dapat diubah ukuran, penampung DataFrame.

Kita dapat memahami struktur data ini karena struktur data berdimensi lebih tinggi adalah wadah dari struktur data berdimensi lebih rendah.

Instalasi dan Eksekusi

Jika Anda menggunakan distribusi Anaconda, maka tidak perlu menginstal Pandas secara terpisah karena sudah diinstal dengannya. Anda hanya perlu mengimpor paket ke skrip Python Anda dengan bantuan berikut -

import pandas as pd

Di sisi lain, jika Anda menggunakan distribusi Python standar, Pandas dapat diinstal menggunakan penginstal paket python populer, pip.

pip install Pandas

Setelah menginstal Pandas, Anda dapat mengimpornya ke skrip Python Anda seperti yang dilakukan di atas.

Contoh

Berikut contoh pembuatan rangkaian dari ndarray dengan menggunakan Pandas -

In [1]: import pandas as pd

In [2]: import numpy as np

In [3]: data = np.array(['g','a','u','r','a','v'])

In [4]: s = pd.Series(data)

In [5]: print (s)

0 g
1 a
2 u
3 r
4 a
5 v

dtype: object

Untuk studi lebih lanjut tentang Panda, Anda dapat mengunjungi tautan www.tutorialspoint.com/python_pandas/index.htm .

Scikit-learn

Pustaka python berguna dan terpenting lainnya untuk Ilmu Data dan pembelajaran mesin di Python adalah Scikit-learn. Berikut ini adalah beberapa fitur Scikit-learn yang membuatnya sangat berguna -

  • Itu dibangun di atas NumPy, SciPy, dan Matplotlib.

  • Ini adalah open source dan dapat digunakan kembali di bawah lisensi BSD.

  • Ini dapat diakses oleh semua orang dan dapat digunakan kembali dalam berbagai konteks.

  • Berbagai algoritme pembelajaran mesin yang mencakup area utama ML seperti klasifikasi, pengelompokan, regresi, pengurangan dimensi, pemilihan model, dll. Dapat diimplementasikan dengan bantuannya.

Instalasi dan Eksekusi

Jika Anda menggunakan distribusi Anaconda, maka tidak perlu menginstal Scikit-learn secara terpisah karena sudah diinstal dengannya. Anda hanya perlu menggunakan paket tersebut ke dalam skrip Python Anda. Misalnya, dengan baris skrip berikut kami mengimpor kumpulan data pasien kanker payudara dariScikit-learn -

from sklearn.datasets import load_breast_cancer

Di sisi lain, jika Anda menggunakan distribusi Python standar dan memiliki NumPy dan SciPy, maka Scikit-learn dapat diinstal menggunakan penginstal paket python populer, pip.

pip install -U scikit-learn

Setelah menginstal Scikit-learn, Anda dapat menggunakannya ke dalam skrip Python Anda seperti yang telah Anda lakukan di atas.