การเรียนรู้ของเครื่องด้วย Python - ระบบนิเวศ

ความรู้เบื้องต้นเกี่ยวกับ Python

Python เป็นภาษาโปรแกรมเชิงวัตถุยอดนิยมที่มีความสามารถของภาษาโปรแกรมระดับสูง ง่ายต่อการเรียนรู้ไวยากรณ์และความสามารถในการพกพาทำให้เป็นที่นิยมในทุกวันนี้ ข้อเท็จจริงดังต่อไปนี้ทำให้เรารู้จัก Python -

  • Python ได้รับการพัฒนาโดย Guido van Rossum ที่ Stichting Mathematisch Centrum ในเนเธอร์แลนด์

  • มันถูกเขียนขึ้นในฐานะผู้สืบทอดของภาษาโปรแกรมชื่อ 'ABC'

  • เป็นเวอร์ชันแรกที่เปิดตัวในปีพ. ศ.

  • Guido van Rossum เลือกชื่อ Python จากรายการทีวีชื่อ Monty Python's Flying Circus

  • เป็นภาษาโปรแกรมโอเพนซอร์สซึ่งหมายความว่าเราสามารถดาวน์โหลดและใช้เพื่อพัฒนาโปรแกรมได้อย่างอิสระ ก็สามารถดาวน์โหลดได้จากwww.python.org

  • ภาษาโปรแกรม Python มีคุณสมบัติของ Java และ C ทั้งคู่ มีรหัส 'C' ที่สวยงามและในทางกลับกันมีคลาสและวัตถุเช่น Java สำหรับการเขียนโปรแกรมเชิงวัตถุ

  • เป็นภาษาที่ตีความหมายซึ่งหมายความว่าซอร์สโค้ดของโปรแกรม Python จะถูกแปลงเป็น bytecode ก่อนแล้วจึงเรียกใช้งานโดยเครื่องเสมือน Python

จุดแข็งและจุดอ่อนของ Python

ภาษาโปรแกรมทุกภาษามีจุดแข็งและจุดอ่อนเช่นกัน Python ก็เช่นกัน

จุดแข็ง

จากการศึกษาและการสำรวจพบว่า Python เป็นภาษาที่สำคัญอันดับ 5 และเป็นภาษายอดนิยมสำหรับการเรียนรู้ของเครื่องและวิทยาศาสตร์ข้อมูล เป็นเพราะจุดแข็งต่อไปนี้ที่ Python มี -

Easy to learn and understand- ไวยากรณ์ของ Python นั้นง่ายกว่า ด้วยเหตุนี้จึงค่อนข้างง่ายแม้กระทั่งสำหรับผู้เริ่มต้นเรียนรู้และเข้าใจภาษา

Multi-purpose language - Python เป็นภาษาโปรแกรมเอนกประสงค์เนื่องจากรองรับการเขียนโปรแกรมเชิงโครงสร้างโปรแกรมเชิงวัตถุและการเขียนโปรแกรมเชิงฟังก์ชัน

Huge number of modules- Python มีโมดูลจำนวนมากสำหรับการเขียนโปรแกรมทุกด้าน โมดูลเหล่านี้สามารถใช้งานได้อย่างง่ายดายดังนั้นจึงทำให้ Python เป็นภาษาที่ขยายได้

Support of open source community- เนื่องจากเป็นภาษาโปรแกรมโอเพ่นซอร์ส Python จึงได้รับการสนับสนุนจากชุมชนนักพัฒนาซอฟต์แวร์ขนาดใหญ่มาก ด้วยเหตุนี้ข้อบกพร่องจึงได้รับการแก้ไขอย่างง่ายดายโดยชุมชน Python ลักษณะนี้ทำให้ Python มีความแข็งแกร่งและปรับตัวได้ดี

Scalability - Python เป็นภาษาโปรแกรมที่ปรับขนาดได้เนื่องจากมีโครงสร้างที่ได้รับการปรับปรุงเพื่อรองรับโปรแกรมขนาดใหญ่มากกว่าเชลล์สคริปต์

ความอ่อนแอ

แม้ว่า Python จะเป็นภาษาโปรแกรมยอดนิยมและมีประสิทธิภาพ แต่ก็มีจุดอ่อนของความเร็วในการดำเนินการที่ช้า

ความเร็วในการดำเนินการของ Python นั้นช้าเมื่อเทียบกับภาษาที่คอมไพล์เนื่องจาก Python เป็นภาษาที่มีการตีความ นี่อาจเป็นส่วนสำคัญในการปรับปรุงสำหรับชุมชน Python

การติดตั้ง Python

สำหรับการทำงานใน Python เราต้องทำการติดตั้งก่อน คุณสามารถทำการติดตั้ง Python ได้สองวิธีต่อไปนี้ -

  • การติดตั้ง Python ทีละรายการ

  • ใช้การแจกจ่าย Python ที่บรรจุไว้ล่วงหน้า - Anaconda

ให้เราคุยรายละเอียดเหล่านี้

การติดตั้ง Python ทีละรายการ

หากคุณต้องการติดตั้ง Python บนคอมพิวเตอร์ของคุณคุณจะต้องดาวน์โหลดเฉพาะรหัสไบนารีที่เกี่ยวข้องกับแพลตฟอร์มของคุณ การแจกจ่าย Python พร้อมใช้งานสำหรับแพลตฟอร์ม Windows, Linux และ Mac

ต่อไปนี้เป็นภาพรวมโดยย่อของการติดตั้ง Python บนแพลตฟอร์มดังกล่าวข้างต้น -

On Unix and Linux platform

ด้วยความช่วยเหลือของขั้นตอนต่อไปนี้เราสามารถติดตั้ง Python บนแพลตฟอร์ม Unix และ Linux -

  • แรกไปที่www.python.org/downloads/

  • จากนั้นคลิกที่ลิงค์เพื่อดาวน์โหลดซอร์สโค้ดซิปสำหรับ Unix / Linux

  • ตอนนี้ดาวน์โหลดและแตกไฟล์

  • ต่อไปเราสามารถแก้ไขไฟล์ Modules / Setup ได้หากต้องการปรับแต่งตัวเลือกบางอย่าง

    • จากนั้นเขียนคำสั่ง run ./configure script

    • make

    • ทำการติดตั้ง

On Windows platform

ด้วยความช่วยเหลือของขั้นตอนต่อไปนี้เราสามารถติดตั้ง Python บนแพลตฟอร์ม Windows -

  • แรกไปที่www.python.org/downloads/

  • จากนั้นคลิกที่ลิงค์สำหรับไฟล์ตัวติดตั้ง Windows python-XYZ.msi XYZ เป็นเวอร์ชันที่เราต้องการติดตั้ง

  • ตอนนี้เราต้องเรียกใช้ไฟล์ที่ดาวน์โหลด มันจะพาเราไปยังตัวช่วยสร้างการติดตั้ง Python ซึ่งใช้งานง่าย ตอนนี้ยอมรับการตั้งค่าเริ่มต้นและรอจนกว่าการติดตั้งจะเสร็จสิ้น

On Macintosh platform

สำหรับ Mac OS X, Homebrew แนะนำให้ติดตั้งแพ็คเกจที่ยอดเยี่ยมและใช้งานง่ายในการติดตั้ง Python 3 ในกรณีที่คุณไม่มี Homebrew คุณสามารถติดตั้งได้โดยใช้คำสั่งต่อไปนี้ -

$ ruby -e "$(curl -fsSL
https://raw.githubusercontent.com/Homebrew/install/master/install)"

สามารถอัปเดตได้ด้วยคำสั่งด้านล่าง -

$ brew update

ตอนนี้ในการติดตั้ง Python3 บนระบบของคุณเราจำเป็นต้องรันคำสั่งต่อไปนี้ -

$ brew install python3

การใช้การแจกจ่าย Python ที่บรรจุไว้ล่วงหน้า: Anaconda

Anaconda เป็นชุดรวบรวม Python ซึ่งมีไลบรารีทั้งหมดที่ใช้กันอย่างแพร่หลายใน Data science เราสามารถทำตามขั้นตอนต่อไปนี้เพื่อตั้งค่าสภาพแวดล้อม Python โดยใช้ Anaconda -

  • Step 1- ก่อนอื่นเราต้องดาวน์โหลดแพ็คเกจการติดตั้งที่จำเป็นจากการจัดจำหน่ายของ Anaconda การเชื่อมโยงสำหรับเดียวกันคือwww.anaconda.com/distribution/ คุณสามารถเลือกจาก Windows, Mac และ Linux OS ตามความต้องการของคุณ

  • Step 2- จากนั้นเลือกเวอร์ชัน Python ที่คุณต้องการติดตั้งบนเครื่องของคุณ Python เวอร์ชันล่าสุดคือ 3.7 คุณจะได้รับตัวเลือกสำหรับตัวติดตั้งกราฟิก 64 บิตและ 32 บิตทั้งคู่

  • Step 3- หลังจากเลือกเวอร์ชัน OS และ Python แล้วระบบจะดาวน์โหลดตัวติดตั้ง Anaconda บนคอมพิวเตอร์ของคุณ ตอนนี้ดับเบิลคลิกที่ไฟล์และโปรแกรมติดตั้งจะติดตั้งแพ็คเกจ Anaconda

  • Step 4 - สำหรับการตรวจสอบว่าติดตั้งหรือไม่ให้เปิด command prompt แล้วพิมพ์ Python ดังนี้ -

นอกจากนี้คุณยังสามารถตรวจสอบเรื่องนี้ในการบรรยายรายละเอียดวิดีโอที่www.tutorialspoint.com/python_essentials_online_training/getting_started_with_anaconda.asp

ทำไมต้อง Python สำหรับ Data Science

Python เป็นภาษาที่สำคัญอันดับ 5 และเป็นภาษายอดนิยมสำหรับการเรียนรู้ของเครื่องและวิทยาศาสตร์ข้อมูล ต่อไปนี้เป็นคุณสมบัติของ Python ที่ทำให้เป็นตัวเลือกภาษาที่ต้องการสำหรับวิทยาศาสตร์ข้อมูล -

ชุดแพ็คเกจมากมาย

Python มีชุดแพ็คเกจที่กว้างขวางและทรงพลังซึ่งพร้อมใช้งานในโดเมนต่างๆ นอกจากนี้ยังมีแพ็คเกจเช่นnumpy, scipy, pandas, scikit-learn ฯลฯ ซึ่งจำเป็นสำหรับการเรียนรู้ของเครื่องและวิทยาศาสตร์ข้อมูล

สร้างต้นแบบได้ง่าย

คุณสมบัติที่สำคัญอีกประการหนึ่งของ Python ที่ทำให้เป็นตัวเลือกของภาษาสำหรับวิทยาศาสตร์ข้อมูลคือการสร้างต้นแบบที่ง่ายและรวดเร็ว คุณลักษณะนี้มีประโยชน์สำหรับการพัฒนาอัลกอริทึมใหม่

คุณสมบัติการทำงานร่วมกัน

โดยทั่วไปแล้วสาขาวิทยาศาสตร์ข้อมูลต้องการการทำงานร่วมกันที่ดีและ Python มีเครื่องมือที่มีประโยชน์มากมายที่ทำให้สิ่งนี้ยอดเยี่ยมมาก

ภาษาเดียวสำหรับหลายโดเมน

โครงการวิทยาศาสตร์ข้อมูลทั่วไปประกอบด้วยโดเมนต่างๆเช่นการแยกข้อมูลการจัดการข้อมูลการวิเคราะห์ข้อมูลการแยกคุณลักษณะการสร้างแบบจำลองการประเมินการปรับใช้และการอัปเดตโซลูชัน เนื่องจาก Python เป็นภาษาอเนกประสงค์จึงช่วยให้นักวิทยาศาสตร์ข้อมูลสามารถจัดการกับโดเมนเหล่านี้ทั้งหมดจากแพลตฟอร์มทั่วไป

ส่วนประกอบของ Python ML Ecosystem

ในส่วนนี้ให้เราพูดถึงไลบรารี Data Science หลักบางส่วนที่สร้างส่วนประกอบของระบบนิเวศการเรียนรู้ของ Python Machine ส่วนประกอบที่มีประโยชน์เหล่านี้ทำให้ Python เป็นภาษาที่สำคัญสำหรับ Data Science แม้ว่าจะมีส่วนประกอบดังกล่าวมากมายให้เราพูดถึงส่วนประกอบที่สำคัญบางอย่างของระบบนิเวศ Python ที่นี่ -

Jupyter Notebook

โดยพื้นฐานแล้วโน้ตบุ๊ก Jupyter มีสภาพแวดล้อมการคำนวณแบบโต้ตอบสำหรับการพัฒนาแอปพลิเคชัน Data Science ที่ใช้ Python เดิมเรียกว่าโน้ตบุ๊ก ipython ต่อไปนี้เป็นคุณสมบัติบางอย่างของสมุดบันทึก Jupyter ที่ทำให้เป็นหนึ่งในองค์ประกอบที่ดีที่สุดของระบบนิเวศ Python ML -

  • สมุดบันทึก Jupyter สามารถแสดงให้เห็นถึงกระบวนการวิเคราะห์ทีละขั้นตอนโดยการจัดเรียงสิ่งต่างๆเช่นรหัสรูปภาพข้อความเอาต์พุตและอื่น ๆ อย่างเป็นขั้นเป็นตอน

  • ช่วยให้นักวิทยาศาสตร์ข้อมูลสามารถจัดทำเอกสารกระบวนการคิดในขณะที่พัฒนากระบวนการวิเคราะห์

  • คุณยังสามารถจับผลลัพธ์เป็นส่วนหนึ่งของสมุดบันทึก

  • ด้วยความช่วยเหลือของสมุดบันทึก jupyter เราสามารถแบ่งปันงานของเรากับเพื่อนได้เช่นกัน

การติดตั้งและการดำเนินการ

หากคุณใช้การแจกจ่าย Anaconda คุณไม่จำเป็นต้องติดตั้งสมุดบันทึก jupyter แยกต่างหากเนื่องจากมีการติดตั้งไว้แล้ว คุณต้องไปที่ Anaconda Prompt แล้วพิมพ์คำสั่งต่อไปนี้ -

C:\>jupyter notebook

หลังจากกด Enter มันจะเริ่มต้นเซิร์ฟเวอร์โน้ตบุ๊กที่ localhost: 8888 ของคอมพิวเตอร์ของคุณ จะปรากฏในภาพหน้าจอต่อไปนี้ -

หลังจากคลิกแท็บใหม่คุณจะได้รับรายการตัวเลือก เลือก Python 3 และจะนำคุณไปยังสมุดบันทึกใหม่เพื่อเริ่มทำงานในนั้น คุณจะเห็นมันในภาพหน้าจอต่อไปนี้ -

ในทางกลับกันหากคุณใช้การแจกจ่าย Python มาตรฐานสามารถติดตั้งสมุดบันทึก jupyter โดยใช้ตัวติดตั้งแพ็คเกจ python ยอดนิยม pip

pip install jupyter

ประเภทของเซลล์ใน Jupyter Notebook

ต่อไปนี้เป็นเซลล์สามประเภทในสมุดบันทึก jupyter -

Code cells- ตามชื่อที่แนะนำเราสามารถใช้เซลล์เหล่านี้เพื่อเขียนโค้ด หลังจากเขียนโค้ด / เนื้อหาแล้วจะส่งไปยังเคอร์เนลที่เชื่อมโยงกับโน้ตบุ๊ก

Markdown cells- เราสามารถใช้เซลล์เหล่านี้เพื่อระบุกระบวนการคำนวณ สามารถมีสิ่งต่างๆเช่นข้อความรูปภาพสมการลาเท็กซ์แท็ก HTML เป็นต้น

Raw cells- ข้อความที่เขียนในนั้นจะแสดงตามที่เป็นอยู่ โดยทั่วไปเซลล์เหล่านี้จะใช้เพื่อเพิ่มข้อความที่เราไม่ต้องการให้ถูกแปลงโดยกลไกการแปลงอัตโนมัติของสมุดบันทึก jupyter

สำหรับการศึกษารายละเอียดเพิ่มเติมของโน้ตบุ๊ค jupyter คุณสามารถไปที่การเชื่อมโยงwww.tutorialspoint.com/jupyter/index.htm

NumPy

เป็นส่วนประกอบที่มีประโยชน์อีกอย่างหนึ่งที่ทำให้ Python เป็นหนึ่งในภาษายอดนิยมสำหรับ Data Science โดยพื้นฐานแล้วมันย่อมาจาก Numerical Python และประกอบด้วยวัตถุอาร์เรย์หลายมิติ ด้วยการใช้ NumPy เราสามารถดำเนินการที่สำคัญดังต่อไปนี้ -

  • การดำเนินการทางคณิตศาสตร์และตรรกะบนอาร์เรย์

  • การเปลี่ยนแปลงฟูเรียร์

  • การดำเนินการที่เกี่ยวข้องกับพีชคณิตเชิงเส้น

นอกจากนี้เรายังสามารถเห็น NumPy แทน MatLab ได้เนื่องจาก NumPy ส่วนใหญ่จะใช้ร่วมกับ Scipy (Scientific Python) และ Mat-plotlib (plotting library)

Installation and Execution

หากคุณใช้การแจกจ่าย Anaconda คุณไม่จำเป็นต้องติดตั้ง NumPy แยกต่างหากเนื่องจากมีการติดตั้งไว้แล้ว คุณต้องนำเข้าแพ็คเกจไปยังสคริปต์ Python ของคุณด้วยความช่วยเหลือดังต่อไปนี้ -

import numpy as np

ในทางกลับกันหากคุณใช้การกระจาย Python มาตรฐานสามารถติดตั้ง NumPy ได้โดยใช้ตัวติดตั้งแพคเกจ python ยอดนิยม pip

pip install NumPy

สำหรับการศึกษารายละเอียดเพิ่มเติมของ NumPy, คุณสามารถไปที่การเชื่อมโยงwww.tutorialspoint.com/numpy/index.htm

หมีแพนด้า

เป็นอีกหนึ่งไลบรารี Python ที่มีประโยชน์ซึ่งทำให้ Python เป็นหนึ่งในภาษายอดนิยมสำหรับ Data Science โดยทั่วไปแล้วหมีแพนด้าใช้สำหรับการจัดการข้อมูลการโต้เถียงและการวิเคราะห์ ได้รับการพัฒนาโดย Wes McKinney ในปี 2008 ด้วยความช่วยเหลือของ Pandas ในการประมวลผลข้อมูลเราสามารถทำตามห้าขั้นตอนต่อไปนี้ให้สำเร็จ -

  • Load
  • Prepare
  • Manipulate
  • Model
  • Analyze

การแสดงข้อมูลใน Pandas

การนำเสนอข้อมูลทั้งหมดใน Pandas ทำได้ด้วยความช่วยเหลือของโครงสร้างข้อมูลสามประการต่อไปนี้ -

Series- โดยทั่วไปเป็น ndarray หนึ่งมิติที่มีป้ายกำกับแกนซึ่งหมายความว่ามันเหมือนกับอาร์เรย์ธรรมดาที่มีข้อมูลที่เป็นเนื้อเดียวกัน ตัวอย่างเช่นชุดต่อไปนี้คือชุดของจำนวนเต็ม 1,5,10,15,24,25 ...

1 5 10 15 24 25 28 36 40 89

Data frame- เป็นโครงสร้างข้อมูลที่มีประโยชน์ที่สุดและใช้สำหรับการแสดงและจัดการข้อมูลเกือบทุกประเภทในแพนด้า โดยพื้นฐานแล้วเป็นโครงสร้างข้อมูลสองมิติซึ่งสามารถมีข้อมูลที่แตกต่างกันได้ โดยทั่วไปข้อมูลแบบตารางจะแสดงโดยใช้กรอบข้อมูล ตัวอย่างเช่นตารางต่อไปนี้แสดงข้อมูลของนักเรียนที่มีชื่อและหมายเลขม้วนอายุและเพศ -

ชื่อ หมายเลขม้วน อายุ เพศ
Aarav 1 15 ชาย
รุนแรง 2 14 ชาย
กณิการ์ 3 16 หญิง
Mayank 4 15 ชาย

Panel- เป็นโครงสร้างข้อมูล 3 มิติที่มีข้อมูลที่แตกต่างกัน เป็นเรื่องยากมากที่จะแสดงพาเนลในการแสดงกราฟิก แต่สามารถแสดงเป็นคอนเทนเนอร์ของ DataFrame ได้

ตารางต่อไปนี้ให้มิติและคำอธิบายเกี่ยวกับโครงสร้างข้อมูลที่กล่าวถึงข้างต้นที่ใช้ใน Pandas -

โครงสร้างข้อมูล มิติ คำอธิบาย
ชุด 1-D ขนาดไม่เปลี่ยนรูปข้อมูลที่เป็นเนื้อเดียวกัน 1 มิติ
DataFrames 2 มิติ ขนาดข้อมูลที่เปลี่ยนแปลงไม่เหมือนกันในรูปแบบตาราง
แผงหน้าปัด 3 มิติ อาร์เรย์ที่เปลี่ยนขนาดได้คอนเทนเนอร์ของ DataFrame

เราสามารถเข้าใจโครงสร้างข้อมูลเหล่านี้ได้เนื่องจากโครงสร้างข้อมูลมิติที่สูงกว่าเป็นที่เก็บโครงสร้างข้อมูลมิติที่ต่ำกว่า

การติดตั้งและการดำเนินการ

หากคุณใช้การแจกจ่าย Anaconda ไม่จำเป็นต้องติดตั้ง Pandas แยกต่างหากเนื่องจากมีการติดตั้งไว้แล้ว คุณต้องนำเข้าแพ็คเกจไปยังสคริปต์ Python ของคุณด้วยความช่วยเหลือดังต่อไปนี้ -

import pandas as pd

ในทางกลับกันหากคุณใช้การแจกจ่าย Python มาตรฐาน Pandas สามารถติดตั้งได้โดยใช้ตัวติดตั้งแพ็คเกจ python ยอดนิยม pip

pip install Pandas

หลังจากติดตั้ง Pandas แล้วคุณสามารถนำเข้าสู่สคริปต์ Python ได้ตามที่ทำไว้ข้างต้น

ตัวอย่าง

ต่อไปนี้เป็นตัวอย่างของการสร้างซีรีส์จาก ndarray โดยใช้ Pandas -

In [1]: import pandas as pd

In [2]: import numpy as np

In [3]: data = np.array(['g','a','u','r','a','v'])

In [4]: s = pd.Series(data)

In [5]: print (s)

0 g
1 a
2 u
3 r
4 a
5 v

dtype: object

สำหรับการศึกษารายละเอียดเพิ่มเติมของนุ่นคุณสามารถไปที่การเชื่อมโยงwww.tutorialspoint.com/python_pandas/index.htm

วิทย์ - เรียน

ไลบรารี python ที่มีประโยชน์และสำคัญที่สุดอีกแห่งสำหรับ Data Science และ Machine Learning ใน Python คือ Scikit-learn ต่อไปนี้เป็นคุณสมบัติบางอย่างของ Scikit-learn ที่มีประโยชน์มาก -

  • มันถูกสร้างขึ้นบน NumPy, SciPy และ Matplotlib

  • เป็นโอเพ่นซอร์สและสามารถนำกลับมาใช้ใหม่ได้ภายใต้ใบอนุญาต BSD

  • ทุกคนสามารถเข้าถึงได้และสามารถนำกลับมาใช้ในบริบทต่างๆได้

  • อัลกอริทึมการเรียนรู้ของเครื่องที่หลากหลายซึ่งครอบคลุมพื้นที่หลัก ๆ ของ ML เช่นการจัดหมวดหมู่การจัดกลุ่มการถดถอยการลดขนาดการเลือกแบบจำลอง ฯลฯ สามารถใช้งานได้

การติดตั้งและการดำเนินการ

หากคุณใช้การแจกจ่าย Anaconda คุณไม่จำเป็นต้องติดตั้ง Scikit-learn แยกต่างหากเนื่องจากมีการติดตั้งไว้แล้ว คุณต้องใช้แพคเกจในสคริปต์ Python ของคุณ ตัวอย่างเช่นด้วยบรรทัดต่อไปนี้เรากำลังนำเข้าชุดข้อมูลของผู้ป่วยมะเร็งเต้านมจากScikit-learn -

from sklearn.datasets import load_breast_cancer

ในทางกลับกันหากคุณใช้การแจกจ่าย Python มาตรฐานและมี NumPy และ SciPy คุณสามารถติดตั้ง Scikit-learn ได้โดยใช้โปรแกรมติดตั้ง python ที่เป็นที่นิยม pip

pip install -U scikit-learn

หลังจากติดตั้ง Scikit-learn คุณสามารถใช้กับสคริปต์ Python ได้ตามที่คุณได้ทำไว้ข้างต้น