ข้อได้เปรียบด้านประสิทธิภาพของการดำเนินการ DataFrame ที่ไม่มีการคัดลอก
StaticFrame มีประสิทธิภาพเหนือกว่า Pandas ได้อย่างไรโดยเปิดรับมุมมองอาร์เรย์ NumPy
อาร์เรย์ NumPy เป็นวัตถุ Python ที่เก็บข้อมูลในบัฟเฟอร์ C-array ที่อยู่ติดกัน ประสิทธิภาพที่ยอดเยี่ยมของอาร์เรย์เหล่านี้ไม่ได้มาจากการนำเสนอที่กะทัดรัดเท่านั้น แต่ยังมาจากความสามารถของอาร์เรย์ในการแบ่งปัน "มุมมอง" ของบัฟเฟอร์นั้นระหว่างอาร์เรย์จำนวนมาก NumPy ใช้การดำเนินการอาร์เรย์แบบ "ไม่คัดลอก" บ่อยครั้ง โดยสร้างอาร์เรย์ที่ได้รับมาโดยไม่คัดลอกบัฟเฟอร์ข้อมูลที่อยู่ภายใต้ ด้วยการใช้ประโยชน์จากประสิทธิภาพของ NumPy อย่าง เต็มที่ ไลบรารี StaticFrame DataFrame จึงมีประสิทธิภาพที่ดีกว่า Pandas สำหรับการดำเนินการทั่วไปหลายอย่าง
การดำเนินการที่ไม่มีการคัดลอกด้วยอาร์เรย์ NumPy
วลี “ไม่คัดลอก” อธิบายการดำเนินการบนคอนเทนเนอร์ (ในที่นี้ คืออาร์เรย์หรือ DataFrame) ซึ่งมีการสร้างอินสแตนซ์ใหม่ แต่ข้อมูลพื้นฐานถูกอ้างอิง ไม่ใช่คัดลอก แม้ว่าหน่วยความจำใหม่บางส่วนจะได้รับการจัดสรรสำหรับอินสแตนซ์ แต่ขนาดโดยทั่วไปจะไม่มีนัยสำคัญเมื่อเทียบกับข้อมูลพื้นฐานที่อาจมีปริมาณมาก
NumPy ทำให้การดำเนินการแบบไม่คัดลอกเป็นวิธีหลักในการทำงานกับอาร์เรย์ เมื่อคุณแบ่งอาร์เรย์ NumPy คุณจะได้รับอาร์เรย์ใหม่ที่แบ่งปันข้อมูลที่ถูกแบ่งส่วน การแบ่งส่วนอาร์เรย์เป็นการดำเนินการที่ไม่มีการคัดลอก ประสิทธิภาพที่เหนือชั้นได้รับจากการไม่ต้องคัดลอกบัฟเฟอร์ที่อยู่ติดกันซึ่งจัดสรรไว้แล้ว แต่แทนที่จะจัดเก็บออฟเซ็ตและสเตรดลงในข้อมูลนั้นแทน
ตัวอย่างเช่น ความแตกต่างระหว่างการแบ่งส่วนอาร์เรย์ของจำนวนเต็ม 100,000 (~0.1 µs) และการแบ่งส่วนแล้วคัดลอกอาร์เรย์เดียวกัน (~10 µs) คือลำดับความสำคัญสองลำดับ
>>> import numpy as np
>>> data = np.arange(100_000)
>>> %timeit data[:50_000]
123 ns ± 0.565 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)
>>> %timeit data[:50_000].copy()
13.1 µs ± 48.4 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
ในตัวอย่างด้านล่าง เราสร้างอาร์เรย์ นำสไลซ์ และดูที่flags
สไลซ์ เราเห็นว่าสำหรับชิ้นOWNDATA
คือFalse
และbase
ของชิ้นนั้นเป็นอาร์เรย์ดั้งเดิม (มีตัวระบุวัตถุเดียวกัน)
>>> a1 = np.arange(12)
>>> a1
array([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11])
>>> a2 = a1[:6]
>>> a2.flags
C_CONTIGUOUS : True
F_CONTIGUOUS : True
OWNDATA : False
WRITEABLE : True
ALIGNED : True
WRITEBACKIFCOPY : False
UPDATEIFCOPY : False
>>> id(a1), id(a2.base)
(140506320732848, 140506320732848)
ตัวอย่างเช่น หลังจากปรับรูปร่างอาร์เรย์ 1 มิติเริ่มต้นใหม่เป็นอาร์เรย์ 2 มิติOWNDATA
คือFalse
แสดงว่ายังคงอ้างอิงข้อมูลของอาร์เรย์เดิม
>>> a3 = a1.reshape(3,4)
>>> a3
array([[ 0, 1, 2, 3],
[ 4, 5, 6, 7],
[ 8, 9, 10, 11]])
>>> a3.flags
C_CONTIGUOUS : True
F_CONTIGUOUS : False
OWNDATA : False
WRITEABLE : True
ALIGNED : True
WRITEBACKIFCOPY : False
UPDATEIFCOPY : False
>>> id(a3.base), id(a1)
(140506320732848, 140506320732848)
>>> a4 = a3[:, 2]
>>> a4
array([ 2, 6, 10])
>>> a4.flags
C_CONTIGUOUS : False
F_CONTIGUOUS : False
OWNDATA : False
WRITEABLE : True
ALIGNED : True
WRITEBACKIFCOPY : False
UPDATEIFCOPY : False
>>> id(a1), id(a4.base)
(140506320732848, 140506320732848)
>>> a4[0] = -1
>>> a4
array([-1, 6, 10])
>>> a3
array([[ 0, 1, -1, 3],
[ 4, 5, 6, 7],
[ 8, 9, 10, 11]])
>>> a2
array([ 0, 1, -1, 3, 4, 5])
>>> a1
array([ 0, 1, -1, 3, 4, 5, 6, 7, 8, 9, 10, 11])
ทางเลือกหนึ่งคือให้ผู้โทรทำสำเนา "ป้องกัน" อย่างชัดเจนทุกครั้งที่สร้างอาร์เรย์ใหม่ สิ่งนี้จะลบข้อได้เปรียบด้านประสิทธิภาพของการแชร์มุมมอง แต่รับรองว่าการกลายพันธุ์ของอาร์เรย์จะไม่ทำให้เกิดผลข้างเคียงที่ไม่คาดคิด
อีกทางเลือกหนึ่งซึ่งไม่ต้องเสียสละประสิทธิภาพคือการทำให้อาร์เรย์ไม่เปลี่ยนรูป เมื่อทำเช่นนั้น จะสามารถแชร์มุมมองของอาร์เรย์ได้โดยไม่ต้องกังวลเรื่องการกลายพันธุ์ซึ่งก่อให้เกิดผลข้างเคียงที่ไม่คาดคิด
อาร์เรย์ NumPy สามารถทำให้ไม่เปลี่ยนรูปแบบได้ง่ายๆ โดยตั้งค่าwriteable
สถานะเป็นFalse
บนflags
อินเทอร์เฟซ หลังจากตั้งค่านี้flags
จอแสดงผลจะแสดงWRITEABLE
เป็นFalse
และการพยายามกลายพันธุ์อาร์เรย์นี้ส่งผลให้เกิดข้อยกเว้น
>>> a1.flags.writeable = False
>>> a1.flags
C_CONTIGUOUS : True
F_CONTIGUOUS : True
OWNDATA : True
WRITEABLE : False
ALIGNED : True
WRITEBACKIFCOPY : False
UPDATEIFCOPY : False
>>> a1[0] = -1
Traceback (most recent call last):
File "<console>", line 1, in <module>
ValueError: assignment destination is read-only
ข้อดีของการดำเนินการ DataFrame ที่ไม่มีการคัดลอก
ข้อมูลเชิงลึกที่ว่าโมเดลข้อมูลแบบอาร์เรย์ที่ไม่เปลี่ยนรูปนี้ให้ประสิทธิภาพที่ดีที่สุดโดยมีความเสี่ยงน้อยที่สุด เป็นพื้นฐานของการสร้างไลบรารี StaticFrame DataFrame เนื่องจาก StaticFrame (เช่น Pandas) จัดการข้อมูลที่จัดเก็บไว้ในอาร์เรย์ NumPy การใช้มุมมองอาร์เรย์ (โดยไม่ต้องทำสำเนาป้องกัน) จึงมีข้อดีด้านประสิทธิภาพที่สำคัญ หากไม่มีโมเดลข้อมูลที่ไม่เปลี่ยนรูป Pandas จะไม่สามารถใช้มุมมองอาร์เรย์ดังกล่าวได้
StaticFrame นั้นไม่ได้เร็วกว่า Pandas เสมอไป: Pandas มีการดำเนินการที่มีประสิทธิภาพมากสำหรับการรวมและการแปลงพิเศษอื่นๆ แต่เมื่อใช้ประโยชน์จากการดำเนินการอาร์เรย์ที่ไม่มีการคัดลอก StaticFrame สามารถทำได้เร็วกว่ามาก
ในการเปรียบเทียบประสิทธิภาพ เราจะใช้ ไลบรารี FrameFixturesเพื่อสร้าง DataFrame 2 แถว 10,000 แถวคูณ 1,000 คอลัมน์ที่มีประเภทต่างกัน สำหรับทั้งสองอย่าง เราสามารถแปลง StaticFrame Frame
เป็น Pandas DataFrame
ได้
>>> import static_frame as sf
>>> import pandas as pd
>>> sf.__version__, pd.__version__
('0.9.21', '1.5.1')
>>> import frame_fixtures as ff
>>> f1 = ff.parse('s(10_000,1000)|v(int,int,str,float)')
>>> df1 = f1.to_pandas()
>>> f2 = ff.parse('s(10_000,1000)|v(int,bool,bool,float)')
>>> df2 = f2.to_pandas()
>>> %timeit f1.rename(index='foo')
35.8 µs ± 496 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
>>> %timeit df1.rename_axis('foo')
167 ms ± 4.72 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
>>> %timeit f1.set_index(0)
1.25 ms ± 23.7 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
>>> %timeit df1.set_index(0, drop=False)
166 ms ± 3.52 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
>>> %timeit f1[[10, 50, 100, 500]]
25.4 µs ± 471 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
>>> %timeit df1[[10, 50, 100, 500]]
729 µs ± 4.14 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
>>> %timeit sf.Frame.from_concat((f1, f2), axis=1, columns=sf.IndexAutoFactory)
1.16 ms ± 50.1 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
>>> %timeit pd.concat((df1, df2), axis=1)
102 ms ± 14.4 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
NumPy ออกแบบมาเพื่อใช้ประโยชน์จากการแบ่งปันมุมมองข้อมูล เนื่องจาก Pandas อนุญาตให้มีการกลายพันธุ์แบบแทนที่ จึงไม่สามารถใช้มุมมองอาร์เรย์ NumPy ได้อย่างเหมาะสม เนื่องจาก StaticFrame สร้างขึ้นบนโมเดลข้อมูลที่ไม่เปลี่ยนรูปแบบ ความเสี่ยงด้านการเปลี่ยนแปลงของผลข้างเคียงจึงถูกกำจัดและเปิดรับการดำเนินการที่ไม่มีการคัดลอก ซึ่งให้ข้อได้เปรียบด้านประสิทธิภาพที่สำคัญ