Python - หมีแพนด้า

Pandas เป็น Python Library แบบโอเพนซอร์สที่ใช้สำหรับการจัดการข้อมูลประสิทธิภาพสูงและการวิเคราะห์ข้อมูลโดยใช้โครงสร้างข้อมูลที่มีประสิทธิภาพ Python ที่มีแพนด้าถูกใช้งานในโดเมนทางวิชาการและเชิงพาณิชย์ที่หลากหลายรวมถึงการเงินเศรษฐศาสตร์สถิติการโฆษณาการวิเคราะห์เว็บและอื่น ๆ เมื่อใช้ Pandas เราสามารถทำตามขั้นตอนทั่วไปห้าขั้นตอนในการประมวลผลและวิเคราะห์ข้อมูลโดยไม่คำนึงถึงแหล่งที่มาของข้อมูล - โหลดจัดระเบียบจัดการสร้างแบบจำลองและวิเคราะห์ข้อมูล

ด้านล่างนี้เป็นคุณสมบัติที่สำคัญบางประการของ Pandas ซึ่งใช้สำหรับงานประมวลผลข้อมูลและวิเคราะห์ข้อมูลโดยเฉพาะ

คุณสมบัติหลักของหมีแพนด้า

  • วัตถุ DataFrame ที่รวดเร็วและมีประสิทธิภาพพร้อมการจัดทำดัชนีเริ่มต้นและกำหนดเอง
  • เครื่องมือสำหรับโหลดข้อมูลลงในออบเจ็กต์ข้อมูลในหน่วยความจำจากไฟล์รูปแบบต่างๆ
  • การจัดตำแหน่งข้อมูลและการจัดการข้อมูลที่ขาดหายไปในตัว
  • การปรับรูปแบบและการเปลี่ยนชุดวันที่
  • การแบ่งส่วนการสร้างดัชนีและการย่อยชุดข้อมูลขนาดใหญ่ตามป้ายชื่อ
  • คอลัมน์จากโครงสร้างข้อมูลสามารถลบหรือแทรกได้
  • จัดกลุ่มตามข้อมูลสำหรับการรวมและการแปลง
  • การรวมและการรวมข้อมูลที่มีประสิทธิภาพสูง
  • ฟังก์ชันอนุกรมเวลา

แพนด้าเกี่ยวข้องกับโครงสร้างข้อมูลสามประการต่อไปนี้ -

  • Series
  • DataFrame

โครงสร้างข้อมูลเหล่านี้สร้างขึ้นบน Numpy array ทำให้รวดเร็วและมีประสิทธิภาพ

มิติข้อมูลและคำอธิบาย

วิธีที่ดีที่สุดในการคิดโครงสร้างข้อมูลเหล่านี้คือโครงสร้างข้อมูลมิติที่สูงกว่าเป็นที่เก็บโครงสร้างข้อมูลมิติที่ต่ำกว่า ตัวอย่างเช่น DataFrame เป็นคอนเทนเนอร์ของซีรี่ส์แผงเป็นคอนเทนเนอร์ของ DataFrame

โครงสร้างข้อมูล ขนาด คำอธิบาย
ชุด 1 1D ติดป้ายกำกับอาร์เรย์ที่เป็นเนื้อเดียวกันขนาดไม่เปลี่ยนรูป
เฟรมข้อมูล 2 โครงสร้างแบบตารางที่มีป้ายกำกับ 2 มิติโดยทั่วไปซึ่งมีขนาดไม่แน่นอนโดยมีคอลัมน์ที่พิมพ์ไม่เหมือนกัน

DataFrame ใช้กันอย่างแพร่หลายและเป็นโครงสร้างข้อมูลที่สำคัญที่สุด

ชุด

ซีรี่ส์เป็นโครงสร้างแบบอาร์เรย์หนึ่งมิติที่มีข้อมูลที่เป็นเนื้อเดียวกัน ตัวอย่างเช่นชุดต่อไปนี้เป็นชุดของจำนวนเต็ม 10, 23, 56, ...

10 23 56 17 52 61 73 90 26 72

ประเด็นสำคัญของซีรี่ส์

  • ข้อมูลที่เป็นเนื้อเดียวกัน
  • ขนาดไม่เปลี่ยนรูป
  • ค่าของข้อมูลที่เปลี่ยนแปลงได้

DataFrame

DataFrame คืออาร์เรย์สองมิติที่มีข้อมูลต่างกัน ตัวอย่างเช่น,

ชื่อ อายุ เพศ คะแนน
สตีฟ 32 ชาย 3.45
เลีย 28 หญิง 4.6
Vin 45 ชาย 3.9
เคธี่ 38 หญิง 2.78

ตารางแสดงข้อมูลของทีมขายขององค์กรพร้อมคะแนนประสิทธิภาพโดยรวม ข้อมูลจะแสดงเป็นแถวและคอลัมน์ แต่ละคอลัมน์แสดงถึงแอตทริบิวต์และแต่ละแถวแสดงถึงบุคคล

ประเภทข้อมูลของคอลัมน์

ประเภทข้อมูลของสี่คอลัมน์มีดังนี้ -

คอลัมน์ ประเภท
ชื่อ สตริง
อายุ จำนวนเต็ม
เพศ สตริง
คะแนน ลอย

ประเด็นสำคัญของกรอบข้อมูล

  • ข้อมูลที่แตกต่างกัน
  • ขนาดไม่แน่นอน
  • ข้อมูลไม่แน่นอน

เราจะเห็นตัวอย่างมากมายเกี่ยวกับการใช้ห้องสมุดแพนด้าของ python ในงาน Data science ในบทถัดไป