Giới thiệu về cấu trúc dữ liệu

Gấu trúc xử lý ba cấu trúc dữ liệu sau:

  • Series
  • DataFrame
  • Panel

Các cấu trúc dữ liệu này được xây dựng trên mảng Numpy, có nghĩa là chúng rất nhanh.

Kích thước & Mô tả

Cách tốt nhất để nghĩ về các cấu trúc dữ liệu này là cấu trúc dữ liệu chiều cao hơn là một vùng chứa cấu trúc dữ liệu chiều thấp hơn của nó. Ví dụ, DataFrame là vùng chứa của Series, Panel là vùng chứa của DataFrame.

Cấu trúc dữ liệu Kích thước Sự miêu tả
Loạt 1 Mảng đồng nhất có nhãn 1D, có thể thay đổi kích thước.
Khung dữ liệu 2 Cấu trúc dạng bảng có nhãn 2D chung, có thể thay đổi kích thước với các cột có thể được nhập không đồng nhất.
Bảng điều khiển 3 Mảng có thể thay đổi kích thước, được gắn nhãn 3D chung.

Xây dựng và xử lý mảng hai hoặc nhiều chiều là một công việc tẻ nhạt, người dùng phải cân nhắc hướng của tập dữ liệu khi viết hàm. Nhưng sử dụng cấu trúc dữ liệu Pandas, nỗ lực tinh thần của người dùng bị giảm xuống.

Ví dụ: với dữ liệu dạng bảng (DataFrame), sẽ hữu ích hơn về mặt ngữ nghĩa khi nghĩ về index (các hàng) và columns chứ không phải trục 0 và trục 1.

Tính đột biến

Tất cả cấu trúc dữ liệu của Pandas đều có thể thay đổi giá trị (có thể thay đổi) và ngoại trừ Chuỗi tất cả đều có thể thay đổi kích thước. Dòng là bất biến kích thước.

Note- DataFrame được sử dụng rộng rãi và là một trong những cấu trúc dữ liệu quan trọng nhất. Bảng điều khiển được sử dụng ít hơn nhiều.

Loạt

Chuỗi là một mảng một chiều giống như cấu trúc với dữ liệu đồng nhất. Ví dụ: chuỗi sau là tập hợp các số nguyên 10, 23, 56,…

10 23 56 17 52 61 73 90 26 72

Những điểm chính

  • Dữ liệu đồng nhất
  • Kích thước bất biến
  • Giá trị của dữ liệu có thể thay đổi

Khung dữ liệu

DataFrame là một mảng hai chiều với dữ liệu không đồng nhất. Ví dụ,

Tên Tuổi tác Giới tính Xếp hạng
Steve 32 Nam giới 3,45
Lia 28 Giống cái 4,6
Vin 45 Nam giới 3,9
Katie 38 Giống cái 2,78

Bảng này đại diện cho dữ liệu của nhóm bán hàng của một tổ chức với xếp hạng hiệu suất tổng thể của họ. Dữ liệu được biểu diễn dưới dạng hàng và cột. Mỗi cột đại diện cho một thuộc tính và mỗi hàng đại diện cho một người.

Loại dữ liệu của các cột

Các kiểu dữ liệu của bốn cột như sau:

Cột Kiểu
Tên Chuỗi
Tuổi tác Số nguyên
Giới tính Chuỗi
Xếp hạng Phao nổi

Những điểm chính

  • Dữ liệu không đồng nhất
  • Kích thước có thể thay đổi
  • Dữ liệu có thể thay đổi

Bảng điều khiển

Panel là một cấu trúc dữ liệu ba chiều với dữ liệu không đồng nhất. Thật khó để biểu diễn bảng điều khiển bằng biểu diễn đồ họa. Nhưng một bảng điều khiển có thể được minh họa như một vùng chứa DataFrame.

Những điểm chính

  • Dữ liệu không đồng nhất
  • Kích thước có thể thay đổi
  • Dữ liệu có thể thay đổi