ขอแนะนำ PivotUI: อย่าใช้ Pandas เพื่อ GroupBy และ Pivot ข้อมูลของคุณอีกต่อไป
แรงจูงใจ
การดำเนินการ Pivoting และ Grouping เป็นพื้นฐานของกระบวนการวิเคราะห์ข้อมูลแบบตารางโดยทั่วไป วิธี การpivot_table()
and groupby()
เป็นหนึ่งใน วิธีที่ใช้บ่อย ที่สุดใน Pandas
ใช้เป็นหลักในการทำความเข้าใจข้อมูลหมวดหมู่ Grouping ช่วยให้คุณคำนวณสถิติสำหรับแต่ละกลุ่มในข้อมูล
ในทางกลับกัน ตาราง Pivot ช่วยให้คุณสามารถข้ามตารางข้อมูลของคุณเพื่อการวิเคราะห์แบบละเอียด
ก่อนอื่น ฉันรู้สึกซาบซึ้งในความสำคัญของตารางเดือย อย่างไรก็ตาม หลายครั้งที่ฉันพบว่าการหมุน (โดยเฉพาะ) ในหมีแพนด้านั้นค่อนข้างน่ากลัว ฉันแน่ใจว่าพวกคุณหลายคนจะสะท้อนกับสิ่งนั้น
สำหรับคนที่ใช้ Excel ซึ่งมี UI ที่ทันสมัยและใช้งานง่ายเพื่อสร้างตาราง Pivot การเปลี่ยนไปใช้ Pandas นั้นไม่ราบรื่นอย่างที่คิด
ยิ่งไปกว่านั้น ในงานวิเคราะห์ข้อมูลหลายๆ อย่าง มักจะไม่หยุดอยู่แค่การ Pivot หรือการจัดกลุ่มข้อมูลเท่านั้น หลายคนมักสนใจที่จะสร้างพล็อต/กราฟเพื่อให้เข้าใจได้มากขึ้น ซึ่งเพิ่มการเขียนโค้ดมากขึ้น
จะดีไหมถ้าเรามี UI ที่เป็นมิตรกับผู้เริ่มต้นและสวยงามเพื่อดำเนินการเหล่านี้บน Pandas DataFrames เช่นเดียวกับที่เรามีใน Excel
ขอแนะนำ PivotTableJS !
PivotTableJS
ตามชื่อที่แนะนำ PivotTableJS เป็นไลบรารี Javascript สำหรับสร้าง Pivot Table (และ Grouped Tables ด้วย)
จุดขายสูงสุดของมันคือสามารถใช้กับ Jupyter Notebook ( อ่านเพิ่มเติม ) โดยไม่ต้องเขียนโค้ดใดๆ ดังนั้น คุณสามารถเขียนโค้ดของคุณ (ได้ทุกที่ที่ต้องการ) แก้ไขข้อมูลและโยนข้อมูลนั้นไปยัง PivotTableJS ได้ทันที
ยิ่งไปกว่านั้น ฟังก์ชันการลากแล้ววางและการจัดวางที่ใช้งานง่ายทำให้งานของการรวมข้อมูล สร้างตาราง Pivot และวางแผนแผนภูมิแบบโต้ตอบได้อย่างง่ายดายและรวดเร็ว
ติดตั้ง PivotTableJS
ในการติดตั้ง PivotTableJS โดยใช้pip
ให้พิมพ์คำสั่งต่อไปนี้ในเทอร์มินัล
หรือคุณสามารถconda
:
เริ่มต้นใช้งาน
โหลดชุดข้อมูล
ขั้นตอนแรกคือการโหลดชุดข้อมูลโดยใช้ Pandas
เพื่อจุดประสงค์ในการสาธิต ฉันจะใช้ชุดข้อมูลจำลองที่มีข้อมูลพนักงานปลอม ซึ่งฉันสร้างขึ้นโดยใช้Faker
เรียกใช้ PivotUI
หลังจากโหลดชุดข้อมูลเป็น Pandas DataFrame ( df
) ให้นำเข้าpivot_ui
เมธอดจากpivottablejs
ไลบรารี
หลังจากนี้ หน้าต่างต่อไปนี้จะปรากฏในแผงเอาต์พุตของ Jupyter
คอลัมน์จะแสดงในแผงด้านซ้ายสุดของอินเทอร์เฟซ ตามค่าเริ่มต้น จะแสดงจำนวนระเบียนในพื้นที่การคำนวณ ( 1,000
ที่นี่ )
คุณสามารถลากคอลัมน์ไปยังช่องว่างสองช่องเพื่อดำเนินการgroupby
และpivot
ดำเนินการ และเลือกการรวมที่เหมาะสมจากaggregations
ดรอปดาวน์
สุดท้าย นอกจากรายการแบบเลื่อนลงการรวมแล้ว คุณจะเห็นรายการแบบเลื่อนลงอีกรายการหนึ่ง (ปัจจุบันแสดงTable
) ใช้เพื่อเลือกรูปแบบเอาต์พุต:
ต่อไป มาทำความเข้าใจวิธีการดำเนินการgroupby
และ การ pivot
ใช้เครื่องมือนี้
จัดกลุ่มโดยใช้ PivotTableJS
หากต้องการจัดกลุ่มในคอลัมน์เดียว (หรือหลายคอลัมน์) ให้ลากไปยังพื้นที่ว่างด้านล่างการรวม
ตัวอย่างเช่น พิจารณาว่าเราต้องการจัดกลุ่มในEmployee_Status
คอลัมน์ สิ่งนี้แสดงให้เห็นด้านล่าง:
มันง่ายมาก
การรวมเริ่มต้นที่นี่คือขนาดของกลุ่ม ( Count
) คุณสามารถเปลี่ยนสิ่งนี้และดำเนินการในคอลัมน์ใดก็ได้ที่คุณเลือกด้วยวิธีการรวมที่ต้องการ
สมมติว่าเราต้องการหาค่าเฉลี่ยEmployee_Rating
สำหรับแต่ละค่าในEmployee_Status
คอลัมน์ สิ่งนี้แสดงให้เห็นด้านล่าง:
สิ่งต่าง ๆ ไม่ได้หยุดอยู่แค่นั้น คุณยังสามารถเปลี่ยนรูปแบบผลลัพธ์ได้อีกด้วย
พูดในการสาธิตด้านบน เราต้องการแสดงค่าเฉลี่ยที่Employee_Rating
จัดกลุ่มในEmployee_Status
คอลัมน์เป็นแผนภูมิแท่ง คุณสามารถทำได้ดังนี้:
สวยดีใช่มั้ย
ลองนึกดูว่าจะใช้เวลาเท่าใดในการทำสิ่งเดียวกันกับโค้ด วิธีนี้รวดเร็วและง่ายดาย
Pivot Table โดยใช้ PivotTableJS
เช่นเดียวกับ GroupBy Pivot Table ก็ค่อนข้างตรงไปตรงมาในการสร้างโดยใช้ PivotTableJS
มีเพียงขั้นตอนเพิ่มเติมที่จำเป็น ในตัวอย่างการจัดกลุ่ม เราลากคอลัมน์ไปที่หนึ่งในแผงว่างเท่านั้น
อย่างไรก็ตาม เนื่องจากทั้งแถวและคอลัมน์ของตาราง Pivot มาจากค่าในตาราง เราจึงควรลากแถวส่วนหัวด้วย
ตัวอย่างเช่น สมมติว่าคุณต้องการแสดงตารางสาระสำคัญของEmployee_Status
และEmployee_City
คอลัมน์ สามารถทำได้ดังนี้:
ดังที่คุณอาจสังเกตเห็น ในครั้งนี้ เรายังลากคอลัมน์ไปที่แผงด้านบน ซึ่งสร้างตาราง Pivot แทนการจัดกลุ่ม
ส่วนที่เหลือยังคงเหมือนเดิมตามที่กล่าวไว้ในส่วนด้านบน
คุณสามารถเปลี่ยนการรวมจากaggregation
เมนูแบบเลื่อนลงและเลือกคอลัมน์อื่นได้เช่นกัน
นอกจากนี้ คุณยังสามารถแสดงข้อมูลเป็นแผนภูมิเพื่อให้เข้าใจได้ดีขึ้น
บทสรุป
เรามาจบบล็อกนี้ด้วยประการฉะนี้ ฉันหวังว่าคุณจะได้เรียนรู้สิ่งใหม่ๆ
ฉันมั่นใจว่าเครื่องมือที่น่าทึ่งนี้จะช่วยให้คุณประหยัดเวลาได้มากในขณะดำเนินการวิเคราะห์ข้อมูลทั่วไป
พบเคล็ดลับนี้น่าสนใจ?
หากคุณต้องการเรียนรู้เคล็ดลับและลูกเล่นที่สวยงามเพิ่มเติมเกี่ยวกับ Data Science และ Python ฉันโพสต์เคล็ดลับที่ให้ข้อมูลเกี่ยวกับ LinkedIn ทุกวัน
คุณสามารถดูคำแนะนำทั้งหมดที่ฉันโพสต์ไว้ในMy LinkedIn Post Archive คุณสามารถติดตามฉันบนLinkedInเพื่อดูโพสต์ในอนาคตทั้งหมด
หรือคุณสามารถรับได้ทางอีเมลโดยสมัครด้านล่าง:
สมัครสมาชิก Daily Dose of Data Science ที่นี่ ฉันแบ่งปันกลเม็ดเคล็ดลับอันงดงามเกี่ยวกับ Data Science วันละหนึ่งทิป รับเคล็ดลับเหล่านี้ในกล่องจดหมายของคุณทุกวัน
มาเป็น Data Science PRO! รับชุดเครื่องมือการเรียนรู้วิทยาศาสตร์ข้อมูลฟรีพร้อมคำถาม Pandas, NumPy และ SQL มากกว่า 450 ข้อ
ขอบคุณที่อ่าน!