Python - Gấu trúc
Pandas là một Thư viện Python mã nguồn mở được sử dụng để xử lý dữ liệu hiệu suất cao và phân tích dữ liệu bằng cách sử dụng các cấu trúc dữ liệu mạnh mẽ của nó. Python với gấu trúc đang được sử dụng trong nhiều lĩnh vực học thuật và thương mại, bao gồm Tài chính, Kinh tế, Thống kê, Quảng cáo, Phân tích trang web, v.v. Sử dụng Pandas, chúng ta có thể thực hiện năm bước điển hình trong quá trình xử lý và phân tích dữ liệu, bất kể nguồn gốc của dữ liệu - tải, tổ chức, thao tác, lập mô hình và phân tích dữ liệu.
Dưới đây là một số tính năng quan trọng của Pandas được sử dụng đặc biệt cho công việc Xử lý dữ liệu và Phân tích dữ liệu.
Đặc điểm chính của gấu trúc
- Đối tượng DataFrame nhanh và hiệu quả với lập chỉ mục mặc định và tùy chỉnh.
- Các công cụ để tải dữ liệu vào các đối tượng dữ liệu trong bộ nhớ từ các định dạng tệp khác nhau.
- Căn chỉnh dữ liệu và tích hợp xử lý dữ liệu bị thiếu.
- Định hình lại và xoay vòng các nhóm ngày.
- Cắt dựa trên nhãn, lập chỉ mục và tập hợp con các tập dữ liệu lớn.
- Có thể xóa hoặc chèn các cột từ cấu trúc dữ liệu.
- Nhóm theo dữ liệu để tổng hợp và biến đổi.
- Kết hợp và kết hợp dữ liệu hiệu suất cao.
- Chức năng Chuỗi thời gian.
Gấu trúc xử lý ba cấu trúc dữ liệu sau:
- Series
- DataFrame
Các cấu trúc dữ liệu này được xây dựng dựa trên mảng Numpy, làm cho chúng nhanh và hiệu quả.
Kích thước & Mô tả
Cách tốt nhất để nghĩ về các cấu trúc dữ liệu này là cấu trúc dữ liệu chiều cao hơn là một vùng chứa cấu trúc dữ liệu chiều thấp hơn của nó. Ví dụ, DataFrame là vùng chứa của Series, Panel là vùng chứa của DataFrame.
Cấu trúc dữ liệu | Kích thước | Sự miêu tả |
---|---|---|
Loạt | 1 | Mảng đồng nhất có nhãn 1D, kích thước không thay đổi. |
Khung dữ liệu | 2 | Cấu trúc dạng bảng có nhãn 2D chung, có thể thay đổi kích thước với các cột có thể được nhập không đồng nhất. |
DataFrame được sử dụng rộng rãi và nó là cấu trúc dữ liệu quan trọng nhất.
Loạt
Chuỗi là một mảng một chiều giống như cấu trúc với dữ liệu đồng nhất. Ví dụ: chuỗi sau là tập hợp các số nguyên 10, 23, 56,…
10 | 23 | 56 | 17 | 52 | 61 | 73 | 90 | 26 | 72 |
Các điểm chính của chuỗi
- Dữ liệu đồng nhất
- Kích thước bất biến
- Giá trị của dữ liệu có thể thay đổi
Khung dữ liệu
DataFrame là một mảng hai chiều với dữ liệu không đồng nhất. Ví dụ,
Tên | Tuổi tác | Giới tính | Xếp hạng |
---|---|---|---|
Steve | 32 | Nam giới | 3,45 |
Lia | 28 | Giống cái | 4,6 |
Vin | 45 | Nam giới | 3,9 |
Katie | 38 | Giống cái | 2,78 |
Bảng này đại diện cho dữ liệu của nhóm bán hàng của một tổ chức với xếp hạng hiệu suất tổng thể của họ. Dữ liệu được biểu diễn dưới dạng hàng và cột. Mỗi cột đại diện cho một thuộc tính và mỗi hàng đại diện cho một người.
Loại dữ liệu của các cột
Các kiểu dữ liệu của bốn cột như sau:
Cột | Kiểu |
---|---|
Tên | Chuỗi |
Tuổi tác | Số nguyên |
Giới tính | Chuỗi |
Xếp hạng | Phao nổi |
Các điểm chính của khung dữ liệu
- Dữ liệu không đồng nhất
- Kích thước có thể thay đổi
- Dữ liệu có thể thay đổi
Chúng ta sẽ thấy rất nhiều ví dụ về cách sử dụng thư viện pandas của python trong công việc Khoa học dữ liệu trong các chương tiếp theo.