Python - Hoạt động dữ liệu

Python xử lý dữ liệu ở nhiều định dạng khác nhau chủ yếu thông qua hai thư viện, Pandas và Numpy. Chúng ta đã thấy các tính năng quan trọng của hai thư viện này trong các chương trước. Trong chương này, chúng ta sẽ thấy một số ví dụ cơ bản từ mỗi thư viện về cách hoạt động trên dữ liệu.

Hoạt động dữ liệu trong Numpy

Đối tượng quan trọng nhất được định nghĩa trong NumPy là một kiểu mảng N chiều được gọi là ndarray. Nó mô tả bộ sưu tập các mặt hàng cùng loại. Các mục trong bộ sưu tập có thể được truy cập bằng cách sử dụng chỉ mục dựa trên số không. Một thể hiện của lớp ndarray có thể được xây dựng bằng các quy trình tạo mảng khác nhau được mô tả ở phần sau của hướng dẫn. Ndarray cơ bản được tạo bằng một hàm mảng trong NumPy như sau:

numpy.array

Sau đây là một số ví dụ về xử lý dữ liệu Numpy.

ví dụ 1

# more than one dimensions 
import numpy as np 
a = np.array([[1, 2], [3, 4]]) 
print a

Kết quả như sau:

[[1, 2] 
 [3, 4]]

Ví dụ 2

# minimum dimensions 
import numpy as np 
a = np.array([1, 2, 3,4,5], ndmin = 2) 
print a

Kết quả như sau:

[[1, 2, 3, 4, 5]]

Ví dụ 3

# dtype parameter 
import numpy as np 
a = np.array([1, 2, 3], dtype = complex) 
print a

Kết quả như sau:

[ 1.+0.j,  2.+0.j,  3.+0.j]

Hoạt động dữ liệu trong gấu trúc

Gấu trúc xử lý dữ liệu thông qua Series,Data FramePanel. Chúng ta sẽ xem một số ví dụ từ mỗi cái này.

Dòng gấu trúc

Chuỗi là mảng có nhãn một chiều có khả năng chứa dữ liệu thuộc bất kỳ kiểu nào (đối tượng số nguyên, chuỗi, float, python, v.v.). Các nhãn trục được gọi chung là chỉ mục. Có thể tạo Dòng gấu trúc bằng cách sử dụng hàm tạo sau:

pandas.Series( data, index, dtype, copy)

Thí dụ

Ở đây chúng tôi tạo một chuỗi từ Mảng Numpy.

#import the pandas library and aliasing as pd
import pandas as pd
import numpy as np
data = np.array(['a','b','c','d'])
s = pd.Series(data)
print s

Nó là output như sau -

0   a
1   b
2   c
3   d
dtype: object

Pandas DataFrame

Khung dữ liệu là một cấu trúc dữ liệu hai chiều, tức là dữ liệu được căn chỉnh theo kiểu bảng trong các hàng và cột. Một DataFrame gấu trúc có thể được tạo bằng cách sử dụng hàm tạo sau:

pandas.DataFrame( data, index, columns, dtype, copy)

Bây giờ chúng ta hãy tạo một DataFrame được lập chỉ mục bằng cách sử dụng các mảng.

import pandas as pd
data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky'],'Age':[28,34,29,42]}
df = pd.DataFrame(data, index=['rank1','rank2','rank3','rank4'])
print df

Nó là output như sau -

Age    Name
rank1    28      Tom
rank2    34     Jack
rank3    29    Steve
rank4    42    Ricky

Bảng điều khiển gấu trúc

A panellà một vùng chứa dữ liệu 3D. Thời hạnPanel data có nguồn gốc từ kinh tế lượng và chịu trách nhiệm một phần cho tên gấu trúc - pan(el)-da(ta)-S.

Một Panel có thể được tạo bằng cách sử dụng hàm tạo sau:

pandas.Panel(data, items, major_axis, minor_axis, dtype, copy)

Trong ví dụ dưới đây, chúng tôi tạo một bảng điều khiển từ dict của Đối tượng DataFrame

#creating an empty panel
import pandas as pd
import numpy as np

data = {'Item1' : pd.DataFrame(np.random.randn(4, 3)), 
        'Item2' : pd.DataFrame(np.random.randn(4, 2))}
p = pd.Panel(data)
print p

Nó là output như sau -

<class 'pandas.core.panel.Panel'>
Dimensions: 2 (items) x 4 (major_axis) x 5 (minor_axis)
Items axis: 0 to 1
Major_axis axis: 0 to 3
Minor_axis axis: 0 to 4