Python Pandas - ซีรี่ส์
ซีรี่ส์คืออาร์เรย์ที่มีป้ายกำกับมิติเดียวที่สามารถเก็บข้อมูลประเภทใดก็ได้ (จำนวนเต็มสตริงโฟลทอ็อบเจกต์ python ฯลฯ ) ป้ายชื่อแกนเรียกรวมกันว่าดัชนี
หมีแพนด้าชุด
สามารถสร้างชุดหมีแพนด้าได้โดยใช้ตัวสร้างต่อไปนี้ -
pandas.Series( data, index, dtype, copy)
พารามิเตอร์ของตัวสร้างมีดังนี้ -
ซีเนียร์ No | พารามิเตอร์และคำอธิบาย |
---|---|
1 | data ข้อมูลอยู่ในรูปแบบต่างๆเช่น ndarray รายการค่าคงที่ |
2 | index ค่าดัชนีต้องไม่ซ้ำกันและมีความยาวเท่ากับข้อมูล ค่าเริ่มต้นnp.arrange(n) หากไม่มีการส่งดัชนี |
3 | dtype dtype สำหรับชนิดข้อมูล หากไม่มีประเภทข้อมูลจะถูกอนุมาน |
4 | copy คัดลอกข้อมูล ค่าเริ่มต้นเท็จ |
สามารถสร้างซีรีส์ได้โดยใช้อินพุตต่างๆเช่น -
- Array
- Dict
- ค่าสเกลาร์หรือค่าคงที่
สร้างซีรี่ส์ว่างเปล่า
ซีรี่ส์พื้นฐานซึ่งสามารถสร้างได้คือซีรี่ส์ว่างเปล่า
ตัวอย่าง
#import the pandas library and aliasing as pd
import pandas as pd
s = pd.Series()
print s
มัน output มีดังนี้ -
Series([], dtype: float64)
สร้างซีรี่ส์จาก ndarray
หากข้อมูลเป็น ndarray ดัชนีที่ส่งผ่านจะต้องมีความยาวเท่ากัน หากไม่มีการส่งดัชนีดัชนีเริ่มต้นจะเป็นrange(n) ที่ไหน n คือความยาวอาร์เรย์เช่น [0,1,2,3 …. range(len(array))-1].
ตัวอย่าง 1
#import the pandas library and aliasing as pd
import pandas as pd
import numpy as np
data = np.array(['a','b','c','d'])
s = pd.Series(data)
print s
มัน output มีดังนี้ -
0 a
1 b
2 c
3 d
dtype: object
เราไม่ผ่านดัชนีใด ๆ ดังนั้นโดยค่าเริ่มต้นจะกำหนดดัชนีตั้งแต่ 0 ถึง len(data)-1เช่น 0 ถึง 3
ตัวอย่าง 2
#import the pandas library and aliasing as pd
import pandas as pd
import numpy as np
data = np.array(['a','b','c','d'])
s = pd.Series(data,index=[100,101,102,103])
print s
มัน output มีดังนี้ -
100 a
101 b
102 c
103 d
dtype: object
เราส่งผ่านค่าดัชนีที่นี่ ตอนนี้เราสามารถดูค่าดัชนีที่กำหนดเองได้ในผลลัพธ์
สร้างซีรี่ส์จาก dict
ก dictสามารถส่งผ่านเป็นอินพุตและหากไม่มีการระบุดัชนีคีย์พจนานุกรมจะถูกนำมาเรียงตามลำดับเพื่อสร้างดัชนี ถ้าindex ถูกส่งผ่านค่าในข้อมูลที่ตรงกับป้ายกำกับในดัชนีจะถูกดึงออกมา
ตัวอย่าง 1
#import the pandas library and aliasing as pd
import pandas as pd
import numpy as np
data = {'a' : 0., 'b' : 1., 'c' : 2.}
s = pd.Series(data)
print s
มัน output มีดังนี้ -
a 0.0
b 1.0
c 2.0
dtype: float64
Observe - ปุ่มพจนานุกรมใช้ในการสร้างดัชนี
ตัวอย่าง 2
#import the pandas library and aliasing as pd
import pandas as pd
import numpy as np
data = {'a' : 0., 'b' : 1., 'c' : 2.}
s = pd.Series(data,index=['b','c','d','a'])
print s
มัน output มีดังนี้ -
b 1.0
c 2.0
d NaN
a 0.0
dtype: float64
Observe - ลำดับดัชนียังคงอยู่และองค์ประกอบที่ขาดหายไปจะเต็มไปด้วย NaN (ไม่ใช่ตัวเลข)
สร้างซีรี่ส์จาก Scalar
หากข้อมูลเป็นค่าสเกลาร์ต้องจัดเตรียมดัชนี ค่าจะถูกทำซ้ำเพื่อให้ตรงกับความยาวของindex
#import the pandas library and aliasing as pd
import pandas as pd
import numpy as np
s = pd.Series(5, index=[0, 1, 2, 3])
print s
มัน output มีดังนี้ -
0 5
1 5
2 5
3 5
dtype: int64
การเข้าถึงข้อมูลจากซีรี่ส์ที่มีตำแหน่ง
ข้อมูลในชุดข้อมูลสามารถเข้าถึงได้คล้ายกับในไฟล์ ndarray.
ตัวอย่าง 1
ดึงข้อมูลองค์ประกอบแรก ในฐานะที่เรารู้อยู่แล้วว่านับเริ่มต้นจากศูนย์สำหรับอาร์เรย์ซึ่งหมายความว่าองค์ประกอบแรกจะถูกเก็บไว้ที่ศูนย์THตำแหน่งและอื่น ๆ
import pandas as pd
s = pd.Series([1,2,3,4,5],index = ['a','b','c','d','e'])
#retrieve the first element
print s[0]
มัน output มีดังนี้ -
1
ตัวอย่าง 2
ดึงข้อมูลสามองค์ประกอบแรกในซีรี่ส์ หากใส่ a: ไว้ด้านหน้ารายการทั้งหมดจากดัชนีนั้นเป็นต้นไปจะถูกแยกออก หากใช้พารามิเตอร์สองตัว (ด้วย: ระหว่างค่าเหล่านั้น) รายการระหว่างดัชนีทั้งสอง (ไม่รวมดัชนีหยุด)
import pandas as pd
s = pd.Series([1,2,3,4,5],index = ['a','b','c','d','e'])
#retrieve the first three element
print s[:3]
มัน output มีดังนี้ -
a 1
b 2
c 3
dtype: int64
ตัวอย่างที่ 3
ดึงข้อมูลสามองค์ประกอบสุดท้าย
import pandas as pd
s = pd.Series([1,2,3,4,5],index = ['a','b','c','d','e'])
#retrieve the last three element
print s[-3:]
มัน output มีดังนี้ -
c 3
d 4
e 5
dtype: int64
ดึงข้อมูลโดยใช้ฉลาก (ดัชนี)
ซีรี่ส์เป็นเหมือนขนาดคงที่ dict ซึ่งคุณสามารถรับและกำหนดค่าตามป้ายดัชนี
ตัวอย่าง 1
ดึงข้อมูลองค์ประกอบเดียวโดยใช้ค่าป้ายชื่อดัชนี
import pandas as pd
s = pd.Series([1,2,3,4,5],index = ['a','b','c','d','e'])
#retrieve a single element
print s['a']
มัน output มีดังนี้ -
1
ตัวอย่าง 2
ดึงข้อมูลหลายองค์ประกอบโดยใช้รายการค่าป้ายดัชนี
import pandas as pd
s = pd.Series([1,2,3,4,5],index = ['a','b','c','d','e'])
#retrieve multiple elements
print s[['a','c','d']]
มัน output มีดังนี้ -
a 1
c 3
d 4
dtype: int64
ตัวอย่างที่ 3
หากไม่มีฉลากจะมีการเพิ่มข้อยกเว้น
import pandas as pd
s = pd.Series([1,2,3,4,5],index = ['a','b','c','d','e'])
#retrieve multiple elements
print s['f']
มัน output มีดังนี้ -
…
KeyError: 'f'