Python Pandas - Data Jarang
Objek renggang "dikompresi" saat data apa pun yang cocok dengan nilai tertentu (NaN / nilai yang hilang, meskipun nilai apa pun dapat dipilih) dihilangkan. Objek SparseIndex khusus melacak di mana datanya telah "dipisahkan". Ini akan lebih masuk akal dalam sebuah contoh. Semua struktur data Pandas standar menerapkanto_sparse metode -
import pandas as pd
import numpy as np
ts = pd.Series(np.random.randn(10))
ts[2:-2] = np.nan
sts = ts.to_sparse()
print sts
Nya output adalah sebagai berikut -
0 -0.810497
1 -1.419954
2 NaN
3 NaN
4 NaN
5 NaN
6 NaN
7 NaN
8 0.439240
9 -1.095910
dtype: float64
BlockIndex
Block locations: array([0, 8], dtype=int32)
Block lengths: array([2, 2], dtype=int32)
Objek jarang ada untuk alasan efisiensi memori.
Mari kita asumsikan sekarang Anda memiliki NA DataFrame besar dan jalankan kode berikut -
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(10000, 4))
df.ix[:9998] = np.nan
sdf = df.to_sparse()
print sdf.density
Nya output adalah sebagai berikut -
0.0001
Objek renggang apa pun dapat diubah kembali ke bentuk padat standar dengan memanggil to_dense -
import pandas as pd
import numpy as np
ts = pd.Series(np.random.randn(10))
ts[2:-2] = np.nan
sts = ts.to_sparse()
print sts.to_dense()
Nya output adalah sebagai berikut -
0 -0.810497
1 -1.419954
2 NaN
3 NaN
4 NaN
5 NaN
6 NaN
7 NaN
8 0.439240
9 -1.095910
dtype: float64
Jarang Dtypes
Data renggang harus memiliki tipe yang sama dengan representasi padatnya. Saat ini,float64, int64 dan booldtypesdidukung. Tergantung aslinyadtype, fill_value default perubahan -
float64 - np.nan
int64 - 0
bool - Salah
Mari kita jalankan kode berikut untuk memahami hal yang sama -
import pandas as pd
import numpy as np
s = pd.Series([1, np.nan, np.nan])
print s
s.to_sparse()
print s
Nya output adalah sebagai berikut -
0 1.0
1 NaN
2 NaN
dtype: float64
0 1.0
1 NaN
2 NaN
dtype: float64