Seaborn - การนำเข้าชุดข้อมูลและไลบรารี

ในบทนี้เราจะพูดถึงวิธีการนำเข้าชุดข้อมูลและไลบรารี เริ่มต้นด้วยการทำความเข้าใจวิธีการนำเข้าไลบรารี

การนำเข้าไลบรารี

เริ่มต้นด้วยการนำเข้า Pandas ซึ่งเป็นไลบรารีที่ยอดเยี่ยมสำหรับการจัดการชุดข้อมูลเชิงสัมพันธ์ (รูปแบบตาราง) Seaborn มีประโยชน์เมื่อจัดการกับ DataFrames ซึ่งเป็นโครงสร้างข้อมูลที่ใช้กันอย่างแพร่หลายในการวิเคราะห์ข้อมูล

คำสั่งต่อไปนี้จะช่วยคุณนำเข้า Pandas -

# Pandas for managing datasets
import pandas as pd

ตอนนี้ให้เรานำเข้าไลบรารี Matplotlib ซึ่งช่วยให้เราปรับแต่งแปลงของเราได้

# Matplotlib for additional customization
from matplotlib import pyplot as plt

เราจะนำเข้าไลบรารี Seaborn ด้วยคำสั่งต่อไปนี้ -

# Seaborn for plotting and styling
import seaborn as sb

การนำเข้าชุดข้อมูล

เราได้นำเข้าไลบรารีที่ต้องการ ในส่วนนี้เราจะเข้าใจวิธีการนำเข้าชุดข้อมูลที่จำเป็น

Seaborn มาพร้อมกับชุดข้อมูลที่สำคัญบางอย่างในห้องสมุด เมื่อติดตั้ง Seaborn แล้วชุดข้อมูลจะดาวน์โหลดโดยอัตโนมัติ

คุณสามารถใช้ชุดข้อมูลเหล่านี้เพื่อการเรียนรู้ของคุณ ด้วยความช่วยเหลือของฟังก์ชันต่อไปนี้คุณสามารถโหลดชุดข้อมูลที่ต้องการได้

load_dataset()

การนำเข้าข้อมูลเป็น Pandas DataFrame

ในส่วนนี้เราจะนำเข้าชุดข้อมูล ชุดข้อมูลนี้โหลดเป็น Pandas DataFrame ตามค่าเริ่มต้น หากมีฟังก์ชันใด ๆ ใน Pandas DataFrame ก็จะทำงานบน DataFrame นี้

โค้ดบรรทัดต่อไปนี้จะช่วยคุณนำเข้าชุดข้อมูล -

# Seaborn for plotting and styling
import seaborn as sb
df = sb.load_dataset('tips')
print df.head()

บรรทัดด้านบนของรหัสจะสร้างผลลัพธ์ต่อไปนี้ -

total_bill  tip   sex    smoker day  time   size
0    16.99    1.01   Female  No    Sun  Dinner  2
1    10.34    1.66   Male    No    Sun  Dinner  3
2    21.01    3.50   Male    No    Sun  Dinner  3
3    23.68    3.31   Male    No    Sun  Dinner  2
4    24.59    3.61   Female  No    Sun  Dinner  4

หากต้องการดูชุดข้อมูลทั้งหมดที่มีอยู่ในไลบรารี Seaborn คุณสามารถใช้คำสั่งต่อไปนี้กับไฟล์ get_dataset_names() ฟังก์ชันดังแสดงด้านล่าง -

import seaborn as sb
print sb.get_dataset_names()

บรรทัดโค้ดด้านบนจะส่งคืนรายการชุดข้อมูลที่มีให้เป็นเอาต์พุตต่อไปนี้

[u'anscombe', u'attention', u'brain_networks', u'car_crashes', u'dots', 
u'exercise', u'flights', u'fmri', u'gammas', u'iris', u'planets', u'tips', 
u'titanic']

DataFramesจัดเก็บข้อมูลในรูปแบบของกริดสี่เหลี่ยมซึ่งสามารถดูข้อมูลได้อย่างง่ายดาย แต่ละแถวของตารางสี่เหลี่ยมมีค่าของอินสแตนซ์และแต่ละคอลัมน์ของกริดเป็นเวกเตอร์ที่เก็บข้อมูลสำหรับตัวแปรเฉพาะ ซึ่งหมายความว่าแถวของ DataFrame ไม่จำเป็นต้องมีค่าประเภทข้อมูลเดียวกันสามารถเป็นตัวเลขอักขระตรรกะ ฯลฯ DataFrames สำหรับ Python มาพร้อมกับไลบรารี Pandas และกำหนดเป็นโครงสร้างข้อมูลที่มีป้ายกำกับสองมิติ กับคอลัมน์ประเภทต่างๆที่อาจแตกต่างกัน

สำหรับรายละเอียดเพิ่มเติมเกี่ยวกับ DataFrames โปรดไปที่บทแนะนำเกี่ยวกับแพนด้าของเรา