Python - หมีแพนด้า
Pandas เป็น Python Library แบบโอเพนซอร์สที่ใช้สำหรับการจัดการข้อมูลประสิทธิภาพสูงและการวิเคราะห์ข้อมูลโดยใช้โครงสร้างข้อมูลที่มีประสิทธิภาพ Python ที่มีแพนด้าถูกใช้งานในโดเมนทางวิชาการและเชิงพาณิชย์ที่หลากหลายรวมถึงการเงินเศรษฐศาสตร์สถิติการโฆษณาการวิเคราะห์เว็บและอื่น ๆ เมื่อใช้ Pandas เราสามารถทำตามขั้นตอนทั่วไปห้าขั้นตอนในการประมวลผลและวิเคราะห์ข้อมูลโดยไม่คำนึงถึงแหล่งที่มาของข้อมูล - โหลดจัดระเบียบจัดการสร้างแบบจำลองและวิเคราะห์ข้อมูล
ด้านล่างนี้เป็นคุณสมบัติที่สำคัญบางประการของ Pandas ซึ่งใช้สำหรับงานประมวลผลข้อมูลและวิเคราะห์ข้อมูลโดยเฉพาะ
คุณสมบัติหลักของหมีแพนด้า
- วัตถุ DataFrame ที่รวดเร็วและมีประสิทธิภาพพร้อมการจัดทำดัชนีเริ่มต้นและกำหนดเอง
- เครื่องมือสำหรับโหลดข้อมูลลงในออบเจ็กต์ข้อมูลในหน่วยความจำจากไฟล์รูปแบบต่างๆ
- การจัดตำแหน่งข้อมูลและการจัดการข้อมูลที่ขาดหายไปในตัว
- การปรับรูปแบบและการเปลี่ยนชุดวันที่
- การแบ่งส่วนการสร้างดัชนีและการย่อยชุดข้อมูลขนาดใหญ่ตามป้ายชื่อ
- คอลัมน์จากโครงสร้างข้อมูลสามารถลบหรือแทรกได้
- จัดกลุ่มตามข้อมูลสำหรับการรวมและการแปลง
- การรวมและการรวมข้อมูลที่มีประสิทธิภาพสูง
- ฟังก์ชันอนุกรมเวลา
แพนด้าเกี่ยวข้องกับโครงสร้างข้อมูลสามประการต่อไปนี้ -
- Series
- DataFrame
โครงสร้างข้อมูลเหล่านี้สร้างขึ้นบน Numpy array ทำให้รวดเร็วและมีประสิทธิภาพ
มิติข้อมูลและคำอธิบาย
วิธีที่ดีที่สุดในการคิดโครงสร้างข้อมูลเหล่านี้คือโครงสร้างข้อมูลมิติที่สูงกว่าเป็นที่เก็บโครงสร้างข้อมูลมิติที่ต่ำกว่า ตัวอย่างเช่น DataFrame เป็นคอนเทนเนอร์ของซีรี่ส์แผงเป็นคอนเทนเนอร์ของ DataFrame
โครงสร้างข้อมูล | ขนาด | คำอธิบาย |
---|---|---|
ชุด | 1 | 1D ติดป้ายกำกับอาร์เรย์ที่เป็นเนื้อเดียวกันขนาดไม่เปลี่ยนรูป |
เฟรมข้อมูล | 2 | โครงสร้างแบบตารางที่มีป้ายกำกับ 2 มิติโดยทั่วไปซึ่งมีขนาดไม่แน่นอนโดยมีคอลัมน์ที่พิมพ์ไม่เหมือนกัน |
DataFrame ใช้กันอย่างแพร่หลายและเป็นโครงสร้างข้อมูลที่สำคัญที่สุด
ชุด
ซีรี่ส์เป็นโครงสร้างแบบอาร์เรย์หนึ่งมิติที่มีข้อมูลที่เป็นเนื้อเดียวกัน ตัวอย่างเช่นชุดต่อไปนี้เป็นชุดของจำนวนเต็ม 10, 23, 56, ...
10 | 23 | 56 | 17 | 52 | 61 | 73 | 90 | 26 | 72 |
ประเด็นสำคัญของซีรี่ส์
- ข้อมูลที่เป็นเนื้อเดียวกัน
- ขนาดไม่เปลี่ยนรูป
- ค่าของข้อมูลที่เปลี่ยนแปลงได้
DataFrame
DataFrame คืออาร์เรย์สองมิติที่มีข้อมูลต่างกัน ตัวอย่างเช่น,
ชื่อ | อายุ | เพศ | คะแนน |
---|---|---|---|
สตีฟ | 32 | ชาย | 3.45 |
เลีย | 28 | หญิง | 4.6 |
Vin | 45 | ชาย | 3.9 |
เคธี่ | 38 | หญิง | 2.78 |
ตารางแสดงข้อมูลของทีมขายขององค์กรพร้อมคะแนนประสิทธิภาพโดยรวม ข้อมูลจะแสดงเป็นแถวและคอลัมน์ แต่ละคอลัมน์แสดงถึงแอตทริบิวต์และแต่ละแถวแสดงถึงบุคคล
ประเภทข้อมูลของคอลัมน์
ประเภทข้อมูลของสี่คอลัมน์มีดังนี้ -
คอลัมน์ | ประเภท |
---|---|
ชื่อ | สตริง |
อายุ | จำนวนเต็ม |
เพศ | สตริง |
คะแนน | ลอย |
ประเด็นสำคัญของกรอบข้อมูล
- ข้อมูลที่แตกต่างกัน
- ขนาดไม่แน่นอน
- ข้อมูลไม่แน่นอน
เราจะเห็นตัวอย่างมากมายเกี่ยวกับการใช้ห้องสมุดแพนด้าของ python ในงาน Data science ในบทถัดไป