Python Pandas - ฟังก์ชันพื้นฐาน

ตอนนี้เราได้เรียนรู้เกี่ยวกับโครงสร้างข้อมูล Pandas ทั้งสามและวิธีการสร้าง เราจะมุ่งเน้นไปที่ออบเจ็กต์ DataFrame เป็นหลักเนื่องจากความสำคัญในการประมวลผลข้อมูลแบบเรียลไทม์และยังกล่าวถึงโครงสร้างข้อมูลอื่น ๆ อีกเล็กน้อย

ฟังก์ชันพื้นฐานของซีรี่ส์

ซีเนียร์ คุณสมบัติหรือวิธีการและคำอธิบาย
1

axes

ส่งคืนรายการป้ายชื่อแกนแถว

2

dtype

ส่งกลับ dtype ของวัตถุ

3

empty

ส่งคืนค่า True หากชุดข้อมูลว่างเปล่า

4

ndim

ส่งคืนจำนวนมิติของข้อมูลพื้นฐานตามคำจำกัดความ 1

5

size

ส่งคืนจำนวนองค์ประกอบในข้อมูลพื้นฐาน

6

values

ส่งคืน Series เป็น ndarray

7

head()

ส่งคืน n แถวแรก

8

tail()

ส่งคืน n แถวสุดท้าย

ตอนนี้ให้เราสร้างซีรี่ส์และดูการดำเนินการแอตทริบิวต์แบบแท็บด้านบนทั้งหมด

ตัวอย่าง

import pandas as pd
import numpy as np

#Create a series with 100 random numbers
s = pd.Series(np.random.randn(4))
print s

มัน output มีดังนี้ -

0   0.967853
1  -0.148368
2  -1.395906
3  -1.758394
dtype: float64

แกน

ส่งคืนรายการป้ายกำกับของซีรี่ส์

import pandas as pd
import numpy as np

#Create a series with 100 random numbers
s = pd.Series(np.random.randn(4))
print ("The axes are:")
print s.axes

มัน output มีดังนี้ -

The axes are:
[RangeIndex(start=0, stop=4, step=1)]

ผลลัพธ์ข้างต้นเป็นรูปแบบที่กะทัดรัดของรายการค่าตั้งแต่ 0 ถึง 5 นั่นคือ [0,1,2,3,4]

ว่างเปล่า

ส่งคืนค่าบูลีนโดยบอกว่าวัตถุว่างหรือไม่ True แสดงว่าวัตถุว่างเปล่า

import pandas as pd
import numpy as np

#Create a series with 100 random numbers
s = pd.Series(np.random.randn(4))
print ("Is the Object empty?")
print s.empty

มัน output มีดังนี้ -

Is the Object empty?
False

ndim

ส่งคืนจำนวนมิติของวัตถุ ตามความหมายซีรี่ส์คือโครงสร้างข้อมูล 1D ดังนั้นจึงส่งคืน

import pandas as pd
import numpy as np

#Create a series with 4 random numbers
s = pd.Series(np.random.randn(4))
print s

print ("The dimensions of the object:")
print s.ndim

มัน output มีดังนี้ -

0   0.175898
1   0.166197
2  -0.609712
3  -1.377000
dtype: float64

The dimensions of the object:
1

ขนาด

ส่งคืนขนาด (ความยาว) ของซีรีส์

import pandas as pd
import numpy as np

#Create a series with 4 random numbers
s = pd.Series(np.random.randn(2))
print s
print ("The size of the object:")
print s.size

มัน output มีดังนี้ -

0   3.078058
1  -1.207803
dtype: float64

The size of the object:
2

ค่า

ส่งคืนข้อมูลจริงในซีรีส์เป็นอาร์เรย์

import pandas as pd
import numpy as np

#Create a series with 4 random numbers
s = pd.Series(np.random.randn(4))
print s

print ("The actual data series is:")
print s.values

มัน output มีดังนี้ -

0   1.787373
1  -0.605159
2   0.180477
3  -0.140922
dtype: float64

The actual data series is:
[ 1.78737302 -0.60515881 0.18047664 -0.1409218 ]

หัวและหาง

หากต้องการดูตัวอย่างขนาดเล็กของ Series หรือออบเจ็กต์ DataFrame ให้ใช้เมธอด head () และ tail ()

head() คืนค่าแรก nแถว (สังเกตค่าดัชนี) จำนวนองค์ประกอบเริ่มต้นที่จะแสดงคือห้ารายการ แต่คุณอาจส่งตัวเลขที่กำหนดเองได้

import pandas as pd
import numpy as np

#Create a series with 4 random numbers
s = pd.Series(np.random.randn(4))
print ("The original series is:")
print s

print ("The first two rows of the data series:")
print s.head(2)

มัน output มีดังนี้ -

The original series is:
0   0.720876
1  -0.765898
2   0.479221
3  -0.139547
dtype: float64

The first two rows of the data series:
0   0.720876
1  -0.765898
dtype: float64

tail() ส่งคืนไฟล์ nแถว (สังเกตค่าดัชนี) จำนวนองค์ประกอบเริ่มต้นที่จะแสดงคือห้ารายการ แต่คุณอาจส่งตัวเลขที่กำหนดเองได้

import pandas as pd
import numpy as np

#Create a series with 4 random numbers
s = pd.Series(np.random.randn(4))
print ("The original series is:")
print s

print ("The last two rows of the data series:")
print s.tail(2)

มัน output มีดังนี้ -

The original series is:
0 -0.655091
1 -0.881407
2 -0.608592
3 -2.341413
dtype: float64

The last two rows of the data series:
2 -0.608592
3 -2.341413
dtype: float64

ฟังก์ชันพื้นฐานของ DataFrame

ตอนนี้ให้เราเข้าใจว่า DataFrame Basic Functionality คืออะไร ตารางต่อไปนี้แสดงรายการคุณลักษณะสำคัญหรือวิธีการที่ช่วยในฟังก์ชันพื้นฐานของ DataFrame

ซีเนียร์ คุณสมบัติหรือวิธีการและคำอธิบาย
1

T

เปลี่ยนแถวและคอลัมน์

2

axes

ส่งคืนรายการที่มีป้ายชื่อแกนแถวและป้ายชื่อแกนคอลัมน์เป็นสมาชิกเท่านั้น

3

dtypes

ส่งคืน dtypes ในวัตถุนี้

4

empty

เป็นจริงถ้า NDFrame ว่างเปล่าทั้งหมด [ไม่มีรายการ]; ถ้าแกนใดมีความยาว 0

5

ndim

จำนวนแกน / ขนาดอาร์เรย์

6

shape

ส่งคืนทูเพิลที่แสดงถึงมิติข้อมูลของ DataFrame

7

size

จำนวนองค์ประกอบใน NDFrame

8

values

การแสดง Numpy ของ NDFrame

9

head()

ส่งคืน n แถวแรก

10

tail()

ส่งคืน n แถวสุดท้าย

ตอนนี้ให้เราสร้าง DataFrame และดูว่าแอตทริบิวต์ดังกล่าวข้างต้นทำงานอย่างไร

ตัวอย่าง

import pandas as pd
import numpy as np

#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
   'Age':pd.Series([25,26,25,23,30,29,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}

#Create a DataFrame
df = pd.DataFrame(d)
print ("Our data series is:")
print df

มัน output มีดังนี้ -

Our data series is:
    Age   Name    Rating
0   25    Tom     4.23
1   26    James   3.24
2   25    Ricky   3.98
3   23    Vin     2.56
4   30    Steve   3.20
5   29    Smith   4.60
6   23    Jack    3.80

T (เปลี่ยน)

ส่งคืนทรานสโพสของ DataFrame แถวและคอลัมน์จะสลับกัน

import pandas as pd
import numpy as np
 
# Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
   'Age':pd.Series([25,26,25,23,30,29,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}

# Create a DataFrame
df = pd.DataFrame(d)
print ("The transpose of the data series is:")
print df.T

มัน output มีดังนี้ -

The transpose of the data series is:
         0     1       2      3      4      5       6
Age      25    26      25     23     30     29      23
Name     Tom   James   Ricky  Vin    Steve  Smith   Jack
Rating   4.23  3.24    3.98   2.56   3.2    4.6     3.8

แกน

ส่งคืนรายการป้ายชื่อแกนแถวและป้ายชื่อแกนคอลัมน์

import pandas as pd
import numpy as np

#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
   'Age':pd.Series([25,26,25,23,30,29,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}

#Create a DataFrame
df = pd.DataFrame(d)
print ("Row axis labels and column axis labels are:")
print df.axes

มัน output มีดังนี้ -

Row axis labels and column axis labels are:

[RangeIndex(start=0, stop=7, step=1), Index([u'Age', u'Name', u'Rating'],
dtype='object')]

dtypes

ส่งคืนชนิดข้อมูลของแต่ละคอลัมน์

import pandas as pd
import numpy as np

#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
   'Age':pd.Series([25,26,25,23,30,29,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}

#Create a DataFrame
df = pd.DataFrame(d)
print ("The data types of each column are:")
print df.dtypes

มัน output มีดังนี้ -

The data types of each column are:
Age     int64
Name    object
Rating  float64
dtype: object

ว่างเปล่า

ส่งกลับค่าบูลีนโดยบอกว่าวัตถุว่างหรือไม่ True แสดงว่าวัตถุว่างเปล่า

import pandas as pd
import numpy as np
 
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
   'Age':pd.Series([25,26,25,23,30,29,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
 
#Create a DataFrame
df = pd.DataFrame(d)
print ("Is the object empty?")
print df.empty

มัน output มีดังนี้ -

Is the object empty?
False

ndim

ส่งคืนจำนวนมิติของวัตถุ ตามความหมาย DataFrame คือวัตถุ 2 มิติ

import pandas as pd
import numpy as np

#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
   'Age':pd.Series([25,26,25,23,30,29,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}

#Create a DataFrame
df = pd.DataFrame(d)
print ("Our object is:")
print df
print ("The dimension of the object is:")
print df.ndim

มัน output มีดังนี้ -

Our object is:
      Age    Name     Rating
0     25     Tom      4.23
1     26     James    3.24
2     25     Ricky    3.98
3     23     Vin      2.56
4     30     Steve    3.20
5     29     Smith    4.60
6     23     Jack     3.80

The dimension of the object is:
2

รูปร่าง

ส่งคืนทูเพิลที่แสดงถึงมิติข้อมูลของ DataFrame ทูเพิล (a, b) โดยที่ a แทนจำนวนแถวและb แสดงถึงจำนวนคอลัมน์

import pandas as pd
import numpy as np
 
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
   'Age':pd.Series([25,26,25,23,30,29,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
 
#Create a DataFrame
df = pd.DataFrame(d)
print ("Our object is:")
print df
print ("The shape of the object is:")
print df.shape

มัน output มีดังนี้ -

Our object is:
   Age   Name    Rating
0  25    Tom     4.23
1  26    James   3.24
2  25    Ricky   3.98
3  23    Vin     2.56
4  30    Steve   3.20
5  29    Smith   4.60
6  23    Jack    3.80

The shape of the object is:
(7, 3)

ขนาด

ส่งคืนจำนวนองค์ประกอบใน DataFrame

import pandas as pd
import numpy as np
 
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
   'Age':pd.Series([25,26,25,23,30,29,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
 
#Create a DataFrame
df = pd.DataFrame(d)
print ("Our object is:")
print df
print ("The total number of elements in our object is:")
print df.size

มัน output มีดังนี้ -

Our object is:
    Age   Name    Rating
0   25    Tom     4.23
1   26    James   3.24
2   25    Ricky   3.98
3   23    Vin     2.56
4   30    Steve   3.20
5   29    Smith   4.60
6   23    Jack    3.80

The total number of elements in our object is:
21

ค่า

ส่งคืนข้อมูลจริงใน DataFrame เป็นไฟล์ NDarray.

import pandas as pd
import numpy as np
 
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
   'Age':pd.Series([25,26,25,23,30,29,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
 
#Create a DataFrame
df = pd.DataFrame(d)
print ("Our object is:")
print df
print ("The actual data in our data frame is:")
print df.values

มัน output มีดังนี้ -

Our object is:
    Age   Name    Rating
0   25    Tom     4.23
1   26    James   3.24
2   25    Ricky   3.98
3   23    Vin     2.56
4   30    Steve   3.20
5   29    Smith   4.60
6   23    Jack    3.80
The actual data in our data frame is:
[[25 'Tom' 4.23]
[26 'James' 3.24]
[25 'Ricky' 3.98]
[23 'Vin' 2.56]
[30 'Steve' 3.2]
[29 'Smith' 4.6]
[23 'Jack' 3.8]]

หัวและหาง

หากต้องการดูตัวอย่างขนาดเล็กของออบเจ็กต์ DataFrame ให้ใช้ไฟล์ head() และหาง () วิธีการ head() คืนค่าแรก nแถว (สังเกตค่าดัชนี) จำนวนองค์ประกอบเริ่มต้นที่จะแสดงคือห้ารายการ แต่คุณอาจส่งตัวเลขที่กำหนดเองได้

import pandas as pd
import numpy as np
 
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
   'Age':pd.Series([25,26,25,23,30,29,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}

#Create a DataFrame
df = pd.DataFrame(d)
print ("Our data frame is:")
print df
print ("The first two rows of the data frame is:")
print df.head(2)

มัน output มีดังนี้ -

Our data frame is:
    Age   Name    Rating
0   25    Tom     4.23
1   26    James   3.24
2   25    Ricky   3.98
3   23    Vin     2.56
4   30    Steve   3.20
5   29    Smith   4.60
6   23    Jack    3.80

The first two rows of the data frame is:
   Age   Name   Rating
0  25    Tom    4.23
1  26    James  3.24

tail() ส่งคืนไฟล์ nแถว (สังเกตค่าดัชนี) จำนวนองค์ประกอบเริ่มต้นที่จะแสดงคือห้ารายการ แต่คุณอาจส่งตัวเลขที่กำหนดเองได้

import pandas as pd
import numpy as np

#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
   'Age':pd.Series([25,26,25,23,30,29,23]), 
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
 
#Create a DataFrame
df = pd.DataFrame(d)
print ("Our data frame is:")
print df
print ("The last two rows of the data frame is:")
print df.tail(2)

มัน output มีดังนี้ -

Our data frame is:
    Age   Name    Rating
0   25    Tom     4.23
1   26    James   3.24
2   25    Ricky   3.98
3   23    Vin     2.56
4   30    Steve   3.20
5   29    Smith   4.60
6   23    Jack    3.80

The last two rows of the data frame is:
    Age   Name    Rating
5   29    Smith    4.6
6   23    Jack     3.8