Python Pandas - Peringatan & Gotchas
Peringatan berarti peringatan dan gotcha berarti masalah yang tidak terlihat.
Menggunakan Pernyataan If / Truth dengan Pandas
Pandas mengikuti konvensi numpy untuk memunculkan kesalahan saat Anda mencoba mengonversi sesuatu menjadi bool. Ini terjadi diif atau when menggunakan operasi Boolean, dan, or, atau not. Tidak jelas apa hasilnya. Haruskah itu Benar karena bukan panjang-nol? Salah karena ada nilai False? Tidak jelas, jadi sebaliknya, Pandas meningkatkan aValueError -
import pandas as pd
if pd.Series([False, True, False]):
print 'I am True'
Nya output adalah sebagai berikut -
ValueError: The truth value of a Series is ambiguous.
Use a.empty, a.bool() a.item(),a.any() or a.all().
Di ifkondisi, tidak jelas apa yang harus dilakukan dengan itu. Kesalahannya adalah sugestif apakah akan menggunakan aNone atau any of those.
import pandas as pd
if pd.Series([False, True, False]).any():
print("I am any")
Nya output adalah sebagai berikut -
I am any
Untuk mengevaluasi objek panda elemen tunggal dalam konteks Boolean, gunakan metode ini .bool() -
import pandas as pd
print pd.Series([True]).bool()
Nya output adalah sebagai berikut -
True
Bitwise Boolean
Operator Bitwise Boolean seperti == dan != akan mengembalikan deret Boolean, yang hampir selalu dibutuhkan.
import pandas as pd
s = pd.Series(range(5))
print s==4
Nya output adalah sebagai berikut -
0 False
1 False
2 False
3 False
4 True
dtype: bool
sedang dalam Operasi
Ini mengembalikan seri Boolean yang menunjukkan apakah setiap elemen dalam Seri persis terkandung dalam urutan nilai yang diteruskan.
import pandas as pd
s = pd.Series(list('abc'))
s = s.isin(['a', 'c', 'e'])
print s
Nya output adalah sebagai berikut -
0 True
1 False
2 True
dtype: bool
Mengindeks ulang vs ix Gotcha
Banyak pengguna akan menemukan diri mereka menggunakan ix indexing capabilities sebagai cara ringkas untuk memilih data dari objek Pandas -
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(6, 4), columns=['one', 'two', 'three',
'four'],index=list('abcdef'))
print df
print df.ix[['b', 'c', 'e']]
Nya output adalah sebagai berikut -
one two three four
a -1.582025 1.335773 0.961417 -1.272084
b 1.461512 0.111372 -0.072225 0.553058
c -1.240671 0.762185 1.511936 -0.630920
d -2.380648 -0.029981 0.196489 0.531714
e 1.846746 0.148149 0.275398 -0.244559
f -1.842662 -0.933195 2.303949 0.677641
one two three four
b 1.461512 0.111372 -0.072225 0.553058
c -1.240671 0.762185 1.511936 -0.630920
e 1.846746 0.148149 0.275398 -0.244559
Ini, tentu saja, dalam hal ini sepenuhnya setara dengan menggunakan reindex metode -
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(6, 4), columns=['one', 'two', 'three',
'four'],index=list('abcdef'))
print df
print df.reindex(['b', 'c', 'e'])
Nya output adalah sebagai berikut -
one two three four
a 1.639081 1.369838 0.261287 -1.662003
b -0.173359 0.242447 -0.494384 0.346882
c -0.106411 0.623568 0.282401 -0.916361
d -1.078791 -0.612607 -0.897289 -1.146893
e 0.465215 1.552873 -1.841959 0.329404
f 0.966022 -0.190077 1.324247 0.678064
one two three four
b -0.173359 0.242447 -0.494384 0.346882
c -0.106411 0.623568 0.282401 -0.916361
e 0.465215 1.552873 -1.841959 0.329404
Beberapa orang mungkin menyimpulkan itu ix dan reindex100% setara berdasarkan ini. Ini benar kecuali dalam kasus pengindeksan integer. Misalnya, operasi di atas dapat dinyatakan sebagai -
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(6, 4), columns=['one', 'two', 'three',
'four'],index=list('abcdef'))
print df
print df.ix[[1, 2, 4]]
print df.reindex([1, 2, 4])
Nya output adalah sebagai berikut -
one two three four
a -1.015695 -0.553847 1.106235 -0.784460
b -0.527398 -0.518198 -0.710546 -0.512036
c -0.842803 -1.050374 0.787146 0.205147
d -1.238016 -0.749554 -0.547470 -0.029045
e -0.056788 1.063999 -0.767220 0.212476
f 1.139714 0.036159 0.201912 0.710119
one two three four
b -0.527398 -0.518198 -0.710546 -0.512036
c -0.842803 -1.050374 0.787146 0.205147
e -0.056788 1.063999 -0.767220 0.212476
one two three four
1 NaN NaN NaN NaN
2 NaN NaN NaN NaN
4 NaN NaN NaN NaN
Penting untuk diingat itu reindex is strict label indexing only. Hal ini dapat menyebabkan beberapa hasil yang berpotensi mengejutkan dalam kasus patologis di mana indeks berisi, katakanlah, bilangan bulat dan string.