Seaborn - Nhập tập dữ liệu và thư viện
Trong chương này, chúng ta sẽ thảo luận về cách nhập Bộ dữ liệu và Thư viện. Chúng ta hãy bắt đầu bằng cách tìm hiểu cách nhập thư viện.
Nhập thư viện
Chúng ta hãy bắt đầu bằng cách nhập Pandas, đây là một thư viện tuyệt vời để quản lý tập dữ liệu quan hệ (định dạng bảng). Seaborn rất tiện lợi khi xử lý DataFrames, đây là cấu trúc dữ liệu được sử dụng rộng rãi nhất để phân tích dữ liệu.
Lệnh sau sẽ giúp bạn nhập gấu trúc -
# Pandas for managing datasets
import pandas as pd
Bây giờ, hãy nhập thư viện Matplotlib, thư viện này giúp chúng tôi tùy chỉnh các lô của mình.
# Matplotlib for additional customization
from matplotlib import pyplot as plt
Chúng tôi sẽ nhập thư viện Seaborn bằng lệnh sau:
# Seaborn for plotting and styling
import seaborn as sb
Nhập tập dữ liệu
Chúng tôi đã nhập các thư viện cần thiết. Trong phần này, chúng ta sẽ hiểu cách nhập các tập dữ liệu cần thiết.
Seaborn đi kèm với một vài bộ dữ liệu quan trọng trong thư viện. Khi Seaborn được cài đặt, bộ dữ liệu sẽ tự động tải xuống.
Bạn có thể sử dụng bất kỳ bộ dữ liệu nào trong số này cho việc học của mình. Với sự trợ giúp của hàm sau, bạn có thể tải tập dữ liệu cần thiết
load_dataset()
Nhập dữ liệu dưới dạng Pandas DataFrame
Trong phần này, chúng tôi sẽ nhập một tập dữ liệu. Tập dữ liệu này tải dưới dạng Pandas DataFrame theo mặc định. Nếu có bất kỳ chức năng nào trong Pandas DataFrame, nó sẽ hoạt động trên DataFrame này.
Dòng mã sau sẽ giúp bạn nhập tập dữ liệu -
# Seaborn for plotting and styling
import seaborn as sb
df = sb.load_dataset('tips')
print df.head()
Dòng mã trên sẽ tạo ra kết quả sau:
total_bill tip sex smoker day time size
0 16.99 1.01 Female No Sun Dinner 2
1 10.34 1.66 Male No Sun Dinner 3
2 21.01 3.50 Male No Sun Dinner 3
3 23.68 3.31 Male No Sun Dinner 2
4 24.59 3.61 Female No Sun Dinner 4
Để xem tất cả các tập dữ liệu có sẵn trong thư viện Seaborn, bạn có thể sử dụng lệnh sau với get_dataset_names() chức năng như hình dưới đây -
import seaborn as sb
print sb.get_dataset_names()
Dòng mã trên sẽ trả về danh sách các bộ dữ liệu có sẵn dưới dạng đầu ra sau
[u'anscombe', u'attention', u'brain_networks', u'car_crashes', u'dots',
u'exercise', u'flights', u'fmri', u'gammas', u'iris', u'planets', u'tips',
u'titanic']
DataFrameslưu trữ dữ liệu dưới dạng lưới hình chữ nhật mà dữ liệu có thể được xem qua một cách dễ dàng. Mỗi hàng của lưới hình chữ nhật chứa các giá trị của một phiên bản và mỗi cột của lưới là một vectơ chứa dữ liệu cho một biến cụ thể. Điều này có nghĩa là các hàng của DataFrame không cần phải chứa các giá trị của cùng kiểu dữ liệu, chúng có thể là số, ký tự, logic, v.v. DataFrame cho Python đi kèm với thư viện Pandas và chúng được định nghĩa là cấu trúc dữ liệu có nhãn hai chiều với các loại cột tiềm năng khác nhau.
Để biết thêm chi tiết về DataFrames, hãy truy cập hướng dẫn của chúng tôi về gấu trúc.