Python Pandas - Iterasi
Perilaku iterasi dasar pada objek Pandas bergantung pada tipenya. Saat melakukan iterasi pada Seri, ini dianggap seperti array, dan iterasi dasar menghasilkan nilai. Struktur data lainnya, seperti DataFrame dan Panel, mengikutidict-like konvensi iterasi atas keys dari objek.
Singkatnya, iterasi dasar (untuk i dalam objek) menghasilkan -
Series - nilai
DataFrame - label kolom
Panel - label barang
Iterasi DataFrame
Iterasi DataFrame memberikan nama kolom. Mari kita perhatikan contoh berikut untuk memahami hal yang sama.
import pandas as pd
import numpy as np
N=20
df = pd.DataFrame({
'A': pd.date_range(start='2016-01-01',periods=N,freq='D'),
'x': np.linspace(0,stop=N-1,num=N),
'y': np.random.rand(N),
'C': np.random.choice(['Low','Medium','High'],N).tolist(),
'D': np.random.normal(100, 10, size=(N)).tolist()
})
for col in df:
print col
Nya output adalah sebagai berikut -
A
C
D
x
y
Untuk mengulangi baris DataFrame, kita dapat menggunakan fungsi berikut -
iteritems() - untuk mengulangi pasangan (kunci, nilai)
iterrows() - mengulangi baris sebagai pasangan (indeks, seri)
itertuples() - mengulangi baris sebagai namaiuple
iteritems ()
Iterasi di atas setiap kolom sebagai kunci, pasangan nilai dengan label sebagai kunci dan nilai kolom sebagai objek Seri.
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(4,3),columns=['col1','col2','col3'])
for key,value in df.iteritems():
print key,value
Nya output adalah sebagai berikut -
col1 0 0.802390
1 0.324060
2 0.256811
3 0.839186
Name: col1, dtype: float64
col2 0 1.624313
1 -1.033582
2 1.796663
3 1.856277
Name: col2, dtype: float64
col3 0 -0.022142
1 -0.230820
2 1.160691
3 -0.830279
Name: col3, dtype: float64
Perhatikan, setiap kolom diiterasi secara terpisah sebagai key-value pair dalam sebuah Series.
iterrows ()
iterrows () mengembalikan iterator yang menghasilkan setiap nilai indeks bersama dengan rangkaian yang berisi data di setiap baris.
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(4,3),columns = ['col1','col2','col3'])
for row_index,row in df.iterrows():
print row_index,row
Nya output adalah sebagai berikut -
0 col1 1.529759
col2 0.762811
col3 -0.634691
Name: 0, dtype: float64
1 col1 -0.944087
col2 1.420919
col3 -0.507895
Name: 1, dtype: float64
2 col1 -0.077287
col2 -0.858556
col3 -0.663385
Name: 2, dtype: float64
3 col1 -1.638578
col2 0.059866
col3 0.493482
Name: 3, dtype: float64
Note - Karena iterrows()mengulangi baris, itu tidak mempertahankan tipe data di seluruh baris. 0,1,2 adalah indeks baris dan col1, col2, col3 adalah indeks kolom.
itertuples ()
itertuples () metode akan mengembalikan iterator yang menghasilkan tupel bernama untuk setiap baris di DataFrame. Elemen pertama tupel akan menjadi nilai indeks baris yang sesuai, sedangkan nilai yang tersisa adalah nilai baris.
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(4,3),columns = ['col1','col2','col3'])
for row in df.itertuples():
print row
Nya output adalah sebagai berikut -
Pandas(Index=0, col1=1.5297586201375899, col2=0.76281127433814944, col3=-
0.6346908238310438)
Pandas(Index=1, col1=-0.94408735763808649, col2=1.4209186418359423, col3=-
0.50789517967096232)
Pandas(Index=2, col1=-0.07728664756791935, col2=-0.85855574139699076, col3=-
0.6633852507207626)
Pandas(Index=3, col1=0.65734942534106289, col2=-0.95057710432604969,
col3=0.80344487462316527)
Note- Jangan mencoba mengubah objek apa pun saat melakukan iterasi. Iterasi dimaksudkan untuk membaca dan iterator mengembalikan salinan dari objek asli (tampilan), sehingga perubahan tidak akan mencerminkan objek aslinya.
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(4,3),columns = ['col1','col2','col3'])
for index, row in df.iterrows():
row['a'] = 10
print df
Nya output adalah sebagai berikut -
col1 col2 col3
0 -1.739815 0.735595 -0.295589
1 0.635485 0.106803 1.527922
2 -0.939064 0.547095 0.038585
3 -1.016509 -0.116580 -0.523158
Amati, tidak ada perubahan yang tercermin.