ขอแนะนำ PivotUI: อย่าใช้ Pandas เพื่อ GroupBy และ Pivot ข้อมูลของคุณอีกต่อไป

Nov 29 2022
ทำให้การวิเคราะห์ข้อมูลง่ายขึ้นสำหรับทุกคน
การจูงใจ การดำเนินการ Pivoting และ Grouping เป็นพื้นฐานของทุกกระบวนการวิเคราะห์ข้อมูลแบบตารางทั่วไป เมธอด pivot_table() และ groupby() เป็นหนึ่งในเมธอดที่ใช้บ่อยที่สุดใน Pandas
ภาพถ่ายโดย William Felker บน Unsplash

แรงจูงใจ

การดำเนินการ Pivoting และ Grouping เป็นพื้นฐานของกระบวนการวิเคราะห์ข้อมูลแบบตารางโดยทั่วไป วิธี การpivot_table()and groupby()เป็นหนึ่งใน วิธีที่ใช้บ่อย ที่สุดใน Pandas

ใช้เป็นหลักในการทำความเข้าใจข้อมูลหมวดหมู่ Grouping ช่วยให้คุณคำนวณสถิติสำหรับแต่ละกลุ่มในข้อมูล

การแสดงการจัดกลุ่ม (ภาพโดยผู้เขียน)

ในทางกลับกัน ตาราง Pivot ช่วยให้คุณสามารถข้ามตารางข้อมูลของคุณเพื่อการวิเคราะห์แบบละเอียด

การแสดง Pivot Table (ภาพโดยผู้แต่ง)

ก่อนอื่น ฉันรู้สึกซาบซึ้งในความสำคัญของตารางเดือย อย่างไรก็ตาม หลายครั้งที่ฉันพบว่าการหมุน (โดยเฉพาะ) ในหมีแพนด้านั้นค่อนข้างน่ากลัว ฉันแน่ใจว่าพวกคุณหลายคนจะสะท้อนกับสิ่งนั้น

สำหรับคนที่ใช้ Excel ซึ่งมี UI ที่ทันสมัยและใช้งานง่ายเพื่อสร้างตาราง Pivot การเปลี่ยนไปใช้ Pandas นั้นไม่ราบรื่นอย่างที่คิด

ยิ่งไปกว่านั้น ในงานวิเคราะห์ข้อมูลหลายๆ อย่าง มักจะไม่หยุดอยู่แค่การ Pivot หรือการจัดกลุ่มข้อมูลเท่านั้น หลายคนมักสนใจที่จะสร้างพล็อต/กราฟเพื่อให้เข้าใจได้มากขึ้น ซึ่งเพิ่มการเขียนโค้ดมากขึ้น

จะดีไหมถ้าเรามี UI ที่เป็นมิตรกับผู้เริ่มต้นและสวยงามเพื่อดำเนินการเหล่านี้บน Pandas DataFrames เช่นเดียวกับที่เรามีใน Excel

ขอแนะนำ PivotTableJS !

PivotTableJS

ตามชื่อที่แนะนำ PivotTableJS เป็นไลบรารี Javascript สำหรับสร้าง Pivot Table (และ Grouped Tables ด้วย)

จุดขายสูงสุดของมันคือสามารถใช้กับ Jupyter Notebook ( อ่านเพิ่มเติม ) โดยไม่ต้องเขียนโค้ดใดๆ ดังนั้น คุณสามารถเขียนโค้ดของคุณ (ได้ทุกที่ที่ต้องการ) แก้ไขข้อมูลและโยนข้อมูลนั้นไปยัง PivotTableJS ได้ทันที

ยิ่งไปกว่านั้น ฟังก์ชันการลากแล้ววางและการจัดวางที่ใช้งานง่ายทำให้งานของการรวมข้อมูล สร้างตาราง Pivot และวางแผนแผนภูมิแบบโต้ตอบได้อย่างง่ายดายและรวดเร็ว

ติดตั้ง PivotTableJS

ในการติดตั้ง PivotTableJS โดยใช้pipให้พิมพ์คำสั่งต่อไปนี้ในเทอร์มินัล

หรือคุณสามารถconda:

เริ่มต้นใช้งาน

โหลดชุดข้อมูล

ขั้นตอนแรกคือการโหลดชุดข้อมูลโดยใช้ Pandas

เพื่อจุดประสงค์ในการสาธิต ฉันจะใช้ชุดข้อมูลจำลองที่มีข้อมูลพนักงานปลอม ซึ่งฉันสร้างขึ้นโดยใช้Faker

เรียกใช้ PivotUI

หลังจากโหลดชุดข้อมูลเป็น Pandas DataFrame ( df) ให้นำเข้าpivot_uiเมธอดจากpivottablejsไลบรารี

หลังจากนี้ หน้าต่างต่อไปนี้จะปรากฏในแผงเอาต์พุตของ Jupyter

คอลัมน์จะแสดงในแผงด้านซ้ายสุดของอินเทอร์เฟซ ตามค่าเริ่มต้น จะแสดงจำนวนระเบียนในพื้นที่การคำนวณ ( 1,000ที่นี่ )

ผลลัพธ์ของ pivot_ui() วิธีการ (รูปภาพโดยผู้แต่ง)

คุณสามารถลากคอลัมน์ไปยังช่องว่างสองช่องเพื่อดำเนินการgroupbyและpivotดำเนินการ และเลือกการรวมที่เหมาะสมจากaggregationsดรอปดาวน์

ผลลัพธ์ของ pivot_ui() วิธีการ (รูปภาพโดยผู้แต่ง)

สุดท้าย นอกจากรายการแบบเลื่อนลงการรวมแล้ว คุณจะเห็นรายการแบบเลื่อนลงอีกรายการหนึ่ง (ปัจจุบันแสดงTable) ใช้เพื่อเลือกรูปแบบเอาต์พุต:

การเปลี่ยนรูปแบบเอาต์พุต (Gif by Author)

ต่อไป มาทำความเข้าใจวิธีการดำเนินการgroupbyและ การ pivotใช้เครื่องมือนี้

จัดกลุ่มโดยใช้ PivotTableJS

หากต้องการจัดกลุ่มในคอลัมน์เดียว (หรือหลายคอลัมน์) ให้ลากไปยังพื้นที่ว่างด้านล่างการรวม

ตัวอย่างเช่น พิจารณาว่าเราต้องการจัดกลุ่มในEmployee_Statusคอลัมน์ สิ่งนี้แสดงให้เห็นด้านล่าง:

การจัดกลุ่มใน PivotTableJS (Gif โดยผู้แต่ง)

มันง่ายมาก

การรวมเริ่มต้นที่นี่คือขนาดของกลุ่ม ( Count) คุณสามารถเปลี่ยนสิ่งนี้และดำเนินการในคอลัมน์ใดก็ได้ที่คุณเลือกด้วยวิธีการรวมที่ต้องการ

สมมติว่าเราต้องการหาค่าเฉลี่ยEmployee_Ratingสำหรับแต่ละค่าในEmployee_Statusคอลัมน์ สิ่งนี้แสดงให้เห็นด้านล่าง:

เปลี่ยนการรวมในการจัดกลุ่มใน PivotTableJS (Gif โดยผู้แต่ง)

สิ่งต่าง ๆ ไม่ได้หยุดอยู่แค่นั้น คุณยังสามารถเปลี่ยนรูปแบบผลลัพธ์ได้อีกด้วย

พูดในการสาธิตด้านบน เราต้องการแสดงค่าเฉลี่ยที่Employee_Ratingจัดกลุ่มในEmployee_Statusคอลัมน์เป็นแผนภูมิแท่ง คุณสามารถทำได้ดังนี้:

พล็อตผลลัพธ์การจัดกลุ่มใน PivotTableJS (Gif โดยผู้เขียน)

สวยดีใช่มั้ย

ลองนึกดูว่าจะใช้เวลาเท่าใดในการทำสิ่งเดียวกันกับโค้ด วิธีนี้รวดเร็วและง่ายดาย

Pivot Table โดยใช้ PivotTableJS

เช่นเดียวกับ GroupBy Pivot Table ก็ค่อนข้างตรงไปตรงมาในการสร้างโดยใช้ PivotTableJS

มีเพียงขั้นตอนเพิ่มเติมที่จำเป็น ในตัวอย่างการจัดกลุ่ม เราลากคอลัมน์ไปที่หนึ่งในแผงว่างเท่านั้น

อย่างไรก็ตาม เนื่องจากทั้งแถวและคอลัมน์ของตาราง Pivot มาจากค่าในตาราง เราจึงควรลากแถวส่วนหัวด้วย

ตัวอย่างเช่น สมมติว่าคุณต้องการแสดงตารางสาระสำคัญของEmployee_StatusและEmployee_Cityคอลัมน์ สามารถทำได้ดังนี้:

การสร้าง Pivot Table ใน PivotTableJS (Gif โดยผู้แต่ง)

ดังที่คุณอาจสังเกตเห็น ในครั้งนี้ เรายังลากคอลัมน์ไปที่แผงด้านบน ซึ่งสร้างตาราง Pivot แทนการจัดกลุ่ม

ส่วนที่เหลือยังคงเหมือนเดิมตามที่กล่าวไว้ในส่วนด้านบน

คุณสามารถเปลี่ยนการรวมจากaggregationเมนูแบบเลื่อนลงและเลือกคอลัมน์อื่นได้เช่นกัน

นอกจากนี้ คุณยังสามารถแสดงข้อมูลเป็นแผนภูมิเพื่อให้เข้าใจได้ดีขึ้น

บทสรุป

เรามาจบบล็อกนี้ด้วยประการฉะนี้ ฉันหวังว่าคุณจะได้เรียนรู้สิ่งใหม่ๆ

ฉันมั่นใจว่าเครื่องมือที่น่าทึ่งนี้จะช่วยให้คุณประหยัดเวลาได้มากในขณะดำเนินการวิเคราะห์ข้อมูลทั่วไป

พบเคล็ดลับนี้น่าสนใจ?

หากคุณต้องการเรียนรู้เคล็ดลับและลูกเล่นที่สวยงามเพิ่มเติมเกี่ยวกับ Data Science และ Python ฉันโพสต์เคล็ดลับที่ให้ข้อมูลเกี่ยวกับ LinkedIn ทุกวัน

คุณสามารถดูคำแนะนำทั้งหมดที่ฉันโพสต์ไว้ในMy LinkedIn Post Archive คุณสามารถติดตามฉันบนLinkedInเพื่อดูโพสต์ในอนาคตทั้งหมด

หรือคุณสามารถรับได้ทางอีเมลโดยสมัครด้านล่าง:

สมัครสมาชิก Daily Dose of Data Science ที่นี่ ฉันแบ่งปันกลเม็ดเคล็ดลับอันงดงามเกี่ยวกับ Data Science วันละหนึ่งทิป รับเคล็ดลับเหล่านี้ในกล่องจดหมายของคุณทุกวัน

‍ มาเป็น Data Science PRO! รับชุดเครื่องมือการเรียนรู้วิทยาศาสตร์ข้อมูลฟรีพร้อมคำถาม Pandas, NumPy และ SQL มากกว่า 450 ข้อ

ขอบคุณที่อ่าน!