Python - Hoạt động dữ liệu
Python xử lý dữ liệu ở nhiều định dạng khác nhau chủ yếu thông qua hai thư viện, Pandas và Numpy. Chúng ta đã thấy các tính năng quan trọng của hai thư viện này trong các chương trước. Trong chương này, chúng ta sẽ thấy một số ví dụ cơ bản từ mỗi thư viện về cách hoạt động trên dữ liệu.
Hoạt động dữ liệu trong Numpy
Đối tượng quan trọng nhất được định nghĩa trong NumPy là một kiểu mảng N chiều được gọi là ndarray. Nó mô tả bộ sưu tập các mặt hàng cùng loại. Các mục trong bộ sưu tập có thể được truy cập bằng cách sử dụng chỉ mục dựa trên số không. Một thể hiện của lớp ndarray có thể được xây dựng bằng các quy trình tạo mảng khác nhau được mô tả ở phần sau của hướng dẫn. Ndarray cơ bản được tạo bằng một hàm mảng trong NumPy như sau:
numpy.array
Sau đây là một số ví dụ về xử lý dữ liệu Numpy.
ví dụ 1
# more than one dimensions
import numpy as np
a = np.array([[1, 2], [3, 4]])
print a
Kết quả như sau:
[[1, 2]
[3, 4]]
Ví dụ 2
# minimum dimensions
import numpy as np
a = np.array([1, 2, 3,4,5], ndmin = 2)
print a
Kết quả như sau:
[[1, 2, 3, 4, 5]]
Ví dụ 3
# dtype parameter
import numpy as np
a = np.array([1, 2, 3], dtype = complex)
print a
Kết quả như sau:
[ 1.+0.j, 2.+0.j, 3.+0.j]
Hoạt động dữ liệu trong gấu trúc
Gấu trúc xử lý dữ liệu thông qua Series,Data Framevà Panel. Chúng ta sẽ xem một số ví dụ từ mỗi cái này.
Dòng gấu trúc
Chuỗi là mảng có nhãn một chiều có khả năng chứa dữ liệu thuộc bất kỳ kiểu nào (đối tượng số nguyên, chuỗi, float, python, v.v.). Các nhãn trục được gọi chung là chỉ mục. Có thể tạo Dòng gấu trúc bằng cách sử dụng hàm tạo sau:
pandas.Series( data, index, dtype, copy)
Thí dụ
Ở đây chúng tôi tạo một chuỗi từ Mảng Numpy.
#import the pandas library and aliasing as pd
import pandas as pd
import numpy as np
data = np.array(['a','b','c','d'])
s = pd.Series(data)
print s
Nó là output như sau -
0 a
1 b
2 c
3 d
dtype: object
Pandas DataFrame
Khung dữ liệu là một cấu trúc dữ liệu hai chiều, tức là dữ liệu được căn chỉnh theo kiểu bảng trong các hàng và cột. Một DataFrame gấu trúc có thể được tạo bằng cách sử dụng hàm tạo sau:
pandas.DataFrame( data, index, columns, dtype, copy)
Bây giờ chúng ta hãy tạo một DataFrame được lập chỉ mục bằng cách sử dụng các mảng.
import pandas as pd
data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky'],'Age':[28,34,29,42]}
df = pd.DataFrame(data, index=['rank1','rank2','rank3','rank4'])
print df
Nó là output như sau -
Age Name
rank1 28 Tom
rank2 34 Jack
rank3 29 Steve
rank4 42 Ricky
Bảng điều khiển gấu trúc
A panellà một vùng chứa dữ liệu 3D. Thời hạnPanel data có nguồn gốc từ kinh tế lượng và chịu trách nhiệm một phần cho tên gấu trúc - pan(el)-da(ta)-S.
Một Panel có thể được tạo bằng cách sử dụng hàm tạo sau:
pandas.Panel(data, items, major_axis, minor_axis, dtype, copy)
Trong ví dụ dưới đây, chúng tôi tạo một bảng điều khiển từ dict của Đối tượng DataFrame
#creating an empty panel
import pandas as pd
import numpy as np
data = {'Item1' : pd.DataFrame(np.random.randn(4, 3)),
'Item2' : pd.DataFrame(np.random.randn(4, 2))}
p = pd.Panel(data)
print p
Nó là output như sau -
<class 'pandas.core.panel.Panel'>
Dimensions: 2 (items) x 4 (major_axis) x 5 (minor_axis)
Items axis: 0 to 1
Major_axis axis: 0 to 3
Minor_axis axis: 0 to 4