การเรียนรู้ของเครื่องด้วย Python - ระบบนิเวศ
ความรู้เบื้องต้นเกี่ยวกับ Python
Python เป็นภาษาโปรแกรมเชิงวัตถุยอดนิยมที่มีความสามารถของภาษาโปรแกรมระดับสูง ง่ายต่อการเรียนรู้ไวยากรณ์และความสามารถในการพกพาทำให้เป็นที่นิยมในทุกวันนี้ ข้อเท็จจริงดังต่อไปนี้ทำให้เรารู้จัก Python -
Python ได้รับการพัฒนาโดย Guido van Rossum ที่ Stichting Mathematisch Centrum ในเนเธอร์แลนด์
มันถูกเขียนขึ้นในฐานะผู้สืบทอดของภาษาโปรแกรมชื่อ 'ABC'
เป็นเวอร์ชันแรกที่เปิดตัวในปีพ. ศ.
Guido van Rossum เลือกชื่อ Python จากรายการทีวีชื่อ Monty Python's Flying Circus
เป็นภาษาโปรแกรมโอเพนซอร์สซึ่งหมายความว่าเราสามารถดาวน์โหลดและใช้เพื่อพัฒนาโปรแกรมได้อย่างอิสระ ก็สามารถดาวน์โหลดได้จากwww.python.org
ภาษาโปรแกรม Python มีคุณสมบัติของ Java และ C ทั้งคู่ มีรหัส 'C' ที่สวยงามและในทางกลับกันมีคลาสและวัตถุเช่น Java สำหรับการเขียนโปรแกรมเชิงวัตถุ
เป็นภาษาที่ตีความหมายซึ่งหมายความว่าซอร์สโค้ดของโปรแกรม Python จะถูกแปลงเป็น bytecode ก่อนแล้วจึงเรียกใช้งานโดยเครื่องเสมือน Python
จุดแข็งและจุดอ่อนของ Python
ภาษาโปรแกรมทุกภาษามีจุดแข็งและจุดอ่อนเช่นกัน Python ก็เช่นกัน
จุดแข็ง
จากการศึกษาและการสำรวจพบว่า Python เป็นภาษาที่สำคัญอันดับ 5 และเป็นภาษายอดนิยมสำหรับการเรียนรู้ของเครื่องและวิทยาศาสตร์ข้อมูล เป็นเพราะจุดแข็งต่อไปนี้ที่ Python มี -
Easy to learn and understand- ไวยากรณ์ของ Python นั้นง่ายกว่า ด้วยเหตุนี้จึงค่อนข้างง่ายแม้กระทั่งสำหรับผู้เริ่มต้นเรียนรู้และเข้าใจภาษา
Multi-purpose language - Python เป็นภาษาโปรแกรมเอนกประสงค์เนื่องจากรองรับการเขียนโปรแกรมเชิงโครงสร้างโปรแกรมเชิงวัตถุและการเขียนโปรแกรมเชิงฟังก์ชัน
Huge number of modules- Python มีโมดูลจำนวนมากสำหรับการเขียนโปรแกรมทุกด้าน โมดูลเหล่านี้สามารถใช้งานได้อย่างง่ายดายดังนั้นจึงทำให้ Python เป็นภาษาที่ขยายได้
Support of open source community- เนื่องจากเป็นภาษาโปรแกรมโอเพ่นซอร์ส Python จึงได้รับการสนับสนุนจากชุมชนนักพัฒนาซอฟต์แวร์ขนาดใหญ่มาก ด้วยเหตุนี้ข้อบกพร่องจึงได้รับการแก้ไขอย่างง่ายดายโดยชุมชน Python ลักษณะนี้ทำให้ Python มีความแข็งแกร่งและปรับตัวได้ดี
Scalability - Python เป็นภาษาโปรแกรมที่ปรับขนาดได้เนื่องจากมีโครงสร้างที่ได้รับการปรับปรุงเพื่อรองรับโปรแกรมขนาดใหญ่มากกว่าเชลล์สคริปต์
ความอ่อนแอ
แม้ว่า Python จะเป็นภาษาโปรแกรมยอดนิยมและมีประสิทธิภาพ แต่ก็มีจุดอ่อนของความเร็วในการดำเนินการที่ช้า
ความเร็วในการดำเนินการของ Python นั้นช้าเมื่อเทียบกับภาษาที่คอมไพล์เนื่องจาก Python เป็นภาษาที่มีการตีความ นี่อาจเป็นส่วนสำคัญในการปรับปรุงสำหรับชุมชน Python
การติดตั้ง Python
สำหรับการทำงานใน Python เราต้องทำการติดตั้งก่อน คุณสามารถทำการติดตั้ง Python ได้สองวิธีต่อไปนี้ -
การติดตั้ง Python ทีละรายการ
ใช้การแจกจ่าย Python ที่บรรจุไว้ล่วงหน้า - Anaconda
ให้เราคุยรายละเอียดเหล่านี้
การติดตั้ง Python ทีละรายการ
หากคุณต้องการติดตั้ง Python บนคอมพิวเตอร์ของคุณคุณจะต้องดาวน์โหลดเฉพาะรหัสไบนารีที่เกี่ยวข้องกับแพลตฟอร์มของคุณ การแจกจ่าย Python พร้อมใช้งานสำหรับแพลตฟอร์ม Windows, Linux และ Mac
ต่อไปนี้เป็นภาพรวมโดยย่อของการติดตั้ง Python บนแพลตฟอร์มดังกล่าวข้างต้น -
On Unix and Linux platform
ด้วยความช่วยเหลือของขั้นตอนต่อไปนี้เราสามารถติดตั้ง Python บนแพลตฟอร์ม Unix และ Linux -
แรกไปที่www.python.org/downloads/
จากนั้นคลิกที่ลิงค์เพื่อดาวน์โหลดซอร์สโค้ดซิปสำหรับ Unix / Linux
ตอนนี้ดาวน์โหลดและแตกไฟล์
ต่อไปเราสามารถแก้ไขไฟล์ Modules / Setup ได้หากต้องการปรับแต่งตัวเลือกบางอย่าง
จากนั้นเขียนคำสั่ง run ./configure script
make
ทำการติดตั้ง
On Windows platform
ด้วยความช่วยเหลือของขั้นตอนต่อไปนี้เราสามารถติดตั้ง Python บนแพลตฟอร์ม Windows -
แรกไปที่www.python.org/downloads/
จากนั้นคลิกที่ลิงค์สำหรับไฟล์ตัวติดตั้ง Windows python-XYZ.msi XYZ เป็นเวอร์ชันที่เราต้องการติดตั้ง
ตอนนี้เราต้องเรียกใช้ไฟล์ที่ดาวน์โหลด มันจะพาเราไปยังตัวช่วยสร้างการติดตั้ง Python ซึ่งใช้งานง่าย ตอนนี้ยอมรับการตั้งค่าเริ่มต้นและรอจนกว่าการติดตั้งจะเสร็จสิ้น
On Macintosh platform
สำหรับ Mac OS X, Homebrew แนะนำให้ติดตั้งแพ็คเกจที่ยอดเยี่ยมและใช้งานง่ายในการติดตั้ง Python 3 ในกรณีที่คุณไม่มี Homebrew คุณสามารถติดตั้งได้โดยใช้คำสั่งต่อไปนี้ -
$ ruby -e "$(curl -fsSL
https://raw.githubusercontent.com/Homebrew/install/master/install)"
สามารถอัปเดตได้ด้วยคำสั่งด้านล่าง -
$ brew update
ตอนนี้ในการติดตั้ง Python3 บนระบบของคุณเราจำเป็นต้องรันคำสั่งต่อไปนี้ -
$ brew install python3
การใช้การแจกจ่าย Python ที่บรรจุไว้ล่วงหน้า: Anaconda
Anaconda เป็นชุดรวบรวม Python ซึ่งมีไลบรารีทั้งหมดที่ใช้กันอย่างแพร่หลายใน Data science เราสามารถทำตามขั้นตอนต่อไปนี้เพื่อตั้งค่าสภาพแวดล้อม Python โดยใช้ Anaconda -
Step 1- ก่อนอื่นเราต้องดาวน์โหลดแพ็คเกจการติดตั้งที่จำเป็นจากการจัดจำหน่ายของ Anaconda การเชื่อมโยงสำหรับเดียวกันคือwww.anaconda.com/distribution/ คุณสามารถเลือกจาก Windows, Mac และ Linux OS ตามความต้องการของคุณ
Step 2- จากนั้นเลือกเวอร์ชัน Python ที่คุณต้องการติดตั้งบนเครื่องของคุณ Python เวอร์ชันล่าสุดคือ 3.7 คุณจะได้รับตัวเลือกสำหรับตัวติดตั้งกราฟิก 64 บิตและ 32 บิตทั้งคู่
Step 3- หลังจากเลือกเวอร์ชัน OS และ Python แล้วระบบจะดาวน์โหลดตัวติดตั้ง Anaconda บนคอมพิวเตอร์ของคุณ ตอนนี้ดับเบิลคลิกที่ไฟล์และโปรแกรมติดตั้งจะติดตั้งแพ็คเกจ Anaconda
Step 4 - สำหรับการตรวจสอบว่าติดตั้งหรือไม่ให้เปิด command prompt แล้วพิมพ์ Python ดังนี้ -
นอกจากนี้คุณยังสามารถตรวจสอบเรื่องนี้ในการบรรยายรายละเอียดวิดีโอที่www.tutorialspoint.com/python_essentials_online_training/getting_started_with_anaconda.asp
ทำไมต้อง Python สำหรับ Data Science
Python เป็นภาษาที่สำคัญอันดับ 5 และเป็นภาษายอดนิยมสำหรับการเรียนรู้ของเครื่องและวิทยาศาสตร์ข้อมูล ต่อไปนี้เป็นคุณสมบัติของ Python ที่ทำให้เป็นตัวเลือกภาษาที่ต้องการสำหรับวิทยาศาสตร์ข้อมูล -
ชุดแพ็คเกจมากมาย
Python มีชุดแพ็คเกจที่กว้างขวางและทรงพลังซึ่งพร้อมใช้งานในโดเมนต่างๆ นอกจากนี้ยังมีแพ็คเกจเช่นnumpy, scipy, pandas, scikit-learn ฯลฯ ซึ่งจำเป็นสำหรับการเรียนรู้ของเครื่องและวิทยาศาสตร์ข้อมูล
สร้างต้นแบบได้ง่าย
คุณสมบัติที่สำคัญอีกประการหนึ่งของ Python ที่ทำให้เป็นตัวเลือกของภาษาสำหรับวิทยาศาสตร์ข้อมูลคือการสร้างต้นแบบที่ง่ายและรวดเร็ว คุณลักษณะนี้มีประโยชน์สำหรับการพัฒนาอัลกอริทึมใหม่
คุณสมบัติการทำงานร่วมกัน
โดยทั่วไปแล้วสาขาวิทยาศาสตร์ข้อมูลต้องการการทำงานร่วมกันที่ดีและ Python มีเครื่องมือที่มีประโยชน์มากมายที่ทำให้สิ่งนี้ยอดเยี่ยมมาก
ภาษาเดียวสำหรับหลายโดเมน
โครงการวิทยาศาสตร์ข้อมูลทั่วไปประกอบด้วยโดเมนต่างๆเช่นการแยกข้อมูลการจัดการข้อมูลการวิเคราะห์ข้อมูลการแยกคุณลักษณะการสร้างแบบจำลองการประเมินการปรับใช้และการอัปเดตโซลูชัน เนื่องจาก Python เป็นภาษาอเนกประสงค์จึงช่วยให้นักวิทยาศาสตร์ข้อมูลสามารถจัดการกับโดเมนเหล่านี้ทั้งหมดจากแพลตฟอร์มทั่วไป
ส่วนประกอบของ Python ML Ecosystem
ในส่วนนี้ให้เราพูดถึงไลบรารี Data Science หลักบางส่วนที่สร้างส่วนประกอบของระบบนิเวศการเรียนรู้ของ Python Machine ส่วนประกอบที่มีประโยชน์เหล่านี้ทำให้ Python เป็นภาษาที่สำคัญสำหรับ Data Science แม้ว่าจะมีส่วนประกอบดังกล่าวมากมายให้เราพูดถึงส่วนประกอบที่สำคัญบางอย่างของระบบนิเวศ Python ที่นี่ -
Jupyter Notebook
โดยพื้นฐานแล้วโน้ตบุ๊ก Jupyter มีสภาพแวดล้อมการคำนวณแบบโต้ตอบสำหรับการพัฒนาแอปพลิเคชัน Data Science ที่ใช้ Python เดิมเรียกว่าโน้ตบุ๊ก ipython ต่อไปนี้เป็นคุณสมบัติบางอย่างของสมุดบันทึก Jupyter ที่ทำให้เป็นหนึ่งในองค์ประกอบที่ดีที่สุดของระบบนิเวศ Python ML -
สมุดบันทึก Jupyter สามารถแสดงให้เห็นถึงกระบวนการวิเคราะห์ทีละขั้นตอนโดยการจัดเรียงสิ่งต่างๆเช่นรหัสรูปภาพข้อความเอาต์พุตและอื่น ๆ อย่างเป็นขั้นเป็นตอน
ช่วยให้นักวิทยาศาสตร์ข้อมูลสามารถจัดทำเอกสารกระบวนการคิดในขณะที่พัฒนากระบวนการวิเคราะห์
คุณยังสามารถจับผลลัพธ์เป็นส่วนหนึ่งของสมุดบันทึก
ด้วยความช่วยเหลือของสมุดบันทึก jupyter เราสามารถแบ่งปันงานของเรากับเพื่อนได้เช่นกัน
การติดตั้งและการดำเนินการ
หากคุณใช้การแจกจ่าย Anaconda คุณไม่จำเป็นต้องติดตั้งสมุดบันทึก jupyter แยกต่างหากเนื่องจากมีการติดตั้งไว้แล้ว คุณต้องไปที่ Anaconda Prompt แล้วพิมพ์คำสั่งต่อไปนี้ -
C:\>jupyter notebook
หลังจากกด Enter มันจะเริ่มต้นเซิร์ฟเวอร์โน้ตบุ๊กที่ localhost: 8888 ของคอมพิวเตอร์ของคุณ จะปรากฏในภาพหน้าจอต่อไปนี้ -
หลังจากคลิกแท็บใหม่คุณจะได้รับรายการตัวเลือก เลือก Python 3 และจะนำคุณไปยังสมุดบันทึกใหม่เพื่อเริ่มทำงานในนั้น คุณจะเห็นมันในภาพหน้าจอต่อไปนี้ -
ในทางกลับกันหากคุณใช้การแจกจ่าย Python มาตรฐานสามารถติดตั้งสมุดบันทึก jupyter โดยใช้ตัวติดตั้งแพ็คเกจ python ยอดนิยม pip
pip install jupyter
ประเภทของเซลล์ใน Jupyter Notebook
ต่อไปนี้เป็นเซลล์สามประเภทในสมุดบันทึก jupyter -
Code cells- ตามชื่อที่แนะนำเราสามารถใช้เซลล์เหล่านี้เพื่อเขียนโค้ด หลังจากเขียนโค้ด / เนื้อหาแล้วจะส่งไปยังเคอร์เนลที่เชื่อมโยงกับโน้ตบุ๊ก
Markdown cells- เราสามารถใช้เซลล์เหล่านี้เพื่อระบุกระบวนการคำนวณ สามารถมีสิ่งต่างๆเช่นข้อความรูปภาพสมการลาเท็กซ์แท็ก HTML เป็นต้น
Raw cells- ข้อความที่เขียนในนั้นจะแสดงตามที่เป็นอยู่ โดยทั่วไปเซลล์เหล่านี้จะใช้เพื่อเพิ่มข้อความที่เราไม่ต้องการให้ถูกแปลงโดยกลไกการแปลงอัตโนมัติของสมุดบันทึก jupyter
สำหรับการศึกษารายละเอียดเพิ่มเติมของโน้ตบุ๊ค jupyter คุณสามารถไปที่การเชื่อมโยงwww.tutorialspoint.com/jupyter/index.htm
NumPy
เป็นส่วนประกอบที่มีประโยชน์อีกอย่างหนึ่งที่ทำให้ Python เป็นหนึ่งในภาษายอดนิยมสำหรับ Data Science โดยพื้นฐานแล้วมันย่อมาจาก Numerical Python และประกอบด้วยวัตถุอาร์เรย์หลายมิติ ด้วยการใช้ NumPy เราสามารถดำเนินการที่สำคัญดังต่อไปนี้ -
การดำเนินการทางคณิตศาสตร์และตรรกะบนอาร์เรย์
การเปลี่ยนแปลงฟูเรียร์
การดำเนินการที่เกี่ยวข้องกับพีชคณิตเชิงเส้น
นอกจากนี้เรายังสามารถเห็น NumPy แทน MatLab ได้เนื่องจาก NumPy ส่วนใหญ่จะใช้ร่วมกับ Scipy (Scientific Python) และ Mat-plotlib (plotting library)
Installation and Execution
หากคุณใช้การแจกจ่าย Anaconda คุณไม่จำเป็นต้องติดตั้ง NumPy แยกต่างหากเนื่องจากมีการติดตั้งไว้แล้ว คุณต้องนำเข้าแพ็คเกจไปยังสคริปต์ Python ของคุณด้วยความช่วยเหลือดังต่อไปนี้ -
import numpy as np
ในทางกลับกันหากคุณใช้การกระจาย Python มาตรฐานสามารถติดตั้ง NumPy ได้โดยใช้ตัวติดตั้งแพคเกจ python ยอดนิยม pip
pip install NumPy
สำหรับการศึกษารายละเอียดเพิ่มเติมของ NumPy, คุณสามารถไปที่การเชื่อมโยงwww.tutorialspoint.com/numpy/index.htm
หมีแพนด้า
เป็นอีกหนึ่งไลบรารี Python ที่มีประโยชน์ซึ่งทำให้ Python เป็นหนึ่งในภาษายอดนิยมสำหรับ Data Science โดยทั่วไปแล้วหมีแพนด้าใช้สำหรับการจัดการข้อมูลการโต้เถียงและการวิเคราะห์ ได้รับการพัฒนาโดย Wes McKinney ในปี 2008 ด้วยความช่วยเหลือของ Pandas ในการประมวลผลข้อมูลเราสามารถทำตามห้าขั้นตอนต่อไปนี้ให้สำเร็จ -
- Load
- Prepare
- Manipulate
- Model
- Analyze
การแสดงข้อมูลใน Pandas
การนำเสนอข้อมูลทั้งหมดใน Pandas ทำได้ด้วยความช่วยเหลือของโครงสร้างข้อมูลสามประการต่อไปนี้ -
Series- โดยทั่วไปเป็น ndarray หนึ่งมิติที่มีป้ายกำกับแกนซึ่งหมายความว่ามันเหมือนกับอาร์เรย์ธรรมดาที่มีข้อมูลที่เป็นเนื้อเดียวกัน ตัวอย่างเช่นชุดต่อไปนี้คือชุดของจำนวนเต็ม 1,5,10,15,24,25 ...
1 | 5 | 10 | 15 | 24 | 25 | 28 | 36 | 40 | 89 |
Data frame- เป็นโครงสร้างข้อมูลที่มีประโยชน์ที่สุดและใช้สำหรับการแสดงและจัดการข้อมูลเกือบทุกประเภทในแพนด้า โดยพื้นฐานแล้วเป็นโครงสร้างข้อมูลสองมิติซึ่งสามารถมีข้อมูลที่แตกต่างกันได้ โดยทั่วไปข้อมูลแบบตารางจะแสดงโดยใช้กรอบข้อมูล ตัวอย่างเช่นตารางต่อไปนี้แสดงข้อมูลของนักเรียนที่มีชื่อและหมายเลขม้วนอายุและเพศ -
ชื่อ | หมายเลขม้วน | อายุ | เพศ |
---|---|---|---|
Aarav | 1 | 15 | ชาย |
รุนแรง | 2 | 14 | ชาย |
กณิการ์ | 3 | 16 | หญิง |
Mayank | 4 | 15 | ชาย |
Panel- เป็นโครงสร้างข้อมูล 3 มิติที่มีข้อมูลที่แตกต่างกัน เป็นเรื่องยากมากที่จะแสดงพาเนลในการแสดงกราฟิก แต่สามารถแสดงเป็นคอนเทนเนอร์ของ DataFrame ได้
ตารางต่อไปนี้ให้มิติและคำอธิบายเกี่ยวกับโครงสร้างข้อมูลที่กล่าวถึงข้างต้นที่ใช้ใน Pandas -
โครงสร้างข้อมูล | มิติ | คำอธิบาย |
---|---|---|
ชุด | 1-D | ขนาดไม่เปลี่ยนรูปข้อมูลที่เป็นเนื้อเดียวกัน 1 มิติ |
DataFrames | 2 มิติ | ขนาดข้อมูลที่เปลี่ยนแปลงไม่เหมือนกันในรูปแบบตาราง |
แผงหน้าปัด | 3 มิติ | อาร์เรย์ที่เปลี่ยนขนาดได้คอนเทนเนอร์ของ DataFrame |
เราสามารถเข้าใจโครงสร้างข้อมูลเหล่านี้ได้เนื่องจากโครงสร้างข้อมูลมิติที่สูงกว่าเป็นที่เก็บโครงสร้างข้อมูลมิติที่ต่ำกว่า
การติดตั้งและการดำเนินการ
หากคุณใช้การแจกจ่าย Anaconda ไม่จำเป็นต้องติดตั้ง Pandas แยกต่างหากเนื่องจากมีการติดตั้งไว้แล้ว คุณต้องนำเข้าแพ็คเกจไปยังสคริปต์ Python ของคุณด้วยความช่วยเหลือดังต่อไปนี้ -
import pandas as pd
ในทางกลับกันหากคุณใช้การแจกจ่าย Python มาตรฐาน Pandas สามารถติดตั้งได้โดยใช้ตัวติดตั้งแพ็คเกจ python ยอดนิยม pip
pip install Pandas
หลังจากติดตั้ง Pandas แล้วคุณสามารถนำเข้าสู่สคริปต์ Python ได้ตามที่ทำไว้ข้างต้น
ตัวอย่าง
ต่อไปนี้เป็นตัวอย่างของการสร้างซีรีส์จาก ndarray โดยใช้ Pandas -
In [1]: import pandas as pd
In [2]: import numpy as np
In [3]: data = np.array(['g','a','u','r','a','v'])
In [4]: s = pd.Series(data)
In [5]: print (s)
0 g
1 a
2 u
3 r
4 a
5 v
dtype: object
สำหรับการศึกษารายละเอียดเพิ่มเติมของนุ่นคุณสามารถไปที่การเชื่อมโยงwww.tutorialspoint.com/python_pandas/index.htm
วิทย์ - เรียน
ไลบรารี python ที่มีประโยชน์และสำคัญที่สุดอีกแห่งสำหรับ Data Science และ Machine Learning ใน Python คือ Scikit-learn ต่อไปนี้เป็นคุณสมบัติบางอย่างของ Scikit-learn ที่มีประโยชน์มาก -
มันถูกสร้างขึ้นบน NumPy, SciPy และ Matplotlib
เป็นโอเพ่นซอร์สและสามารถนำกลับมาใช้ใหม่ได้ภายใต้ใบอนุญาต BSD
ทุกคนสามารถเข้าถึงได้และสามารถนำกลับมาใช้ในบริบทต่างๆได้
อัลกอริทึมการเรียนรู้ของเครื่องที่หลากหลายซึ่งครอบคลุมพื้นที่หลัก ๆ ของ ML เช่นการจัดหมวดหมู่การจัดกลุ่มการถดถอยการลดขนาดการเลือกแบบจำลอง ฯลฯ สามารถใช้งานได้
การติดตั้งและการดำเนินการ
หากคุณใช้การแจกจ่าย Anaconda คุณไม่จำเป็นต้องติดตั้ง Scikit-learn แยกต่างหากเนื่องจากมีการติดตั้งไว้แล้ว คุณต้องใช้แพคเกจในสคริปต์ Python ของคุณ ตัวอย่างเช่นด้วยบรรทัดต่อไปนี้เรากำลังนำเข้าชุดข้อมูลของผู้ป่วยมะเร็งเต้านมจากScikit-learn -
from sklearn.datasets import load_breast_cancer
ในทางกลับกันหากคุณใช้การแจกจ่าย Python มาตรฐานและมี NumPy และ SciPy คุณสามารถติดตั้ง Scikit-learn ได้โดยใช้โปรแกรมติดตั้ง python ที่เป็นที่นิยม pip
pip install -U scikit-learn
หลังจากติดตั้ง Scikit-learn คุณสามารถใช้กับสคริปต์ Python ได้ตามที่คุณได้ทำไว้ข้างต้น