Python Pandas-희소 데이터
특정 값과 일치하는 데이터 (NaN / 누락 된 값, 임의의 값을 선택할 수 있음)가 생략되면 희소 개체가 "압축"됩니다. 특수 SparseIndex 객체는 데이터가 "분할 된"위치를 추적합니다. 이것은 예에서 훨씬 더 의미가 있습니다. 모든 표준 Pandas 데이터 구조는to_sparse 방법-
import pandas as pd
import numpy as np
ts = pd.Series(np.random.randn(10))
ts[2:-2] = np.nan
sts = ts.to_sparse()
print sts
이것의 output 다음과 같습니다-
0 -0.810497
1 -1.419954
2 NaN
3 NaN
4 NaN
5 NaN
6 NaN
7 NaN
8 0.439240
9 -1.095910
dtype: float64
BlockIndex
Block locations: array([0, 8], dtype=int32)
Block lengths: array([2, 2], dtype=int32)
희소 객체는 메모리 효율성을 위해 존재합니다.
이제 큰 NA DataFrame이 있다고 가정하고 다음 코드를 실행합니다.
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(10000, 4))
df.ix[:9998] = np.nan
sdf = df.to_sparse()
print sdf.density
이것의 output 다음과 같습니다-
0.0001
모든 희소 개체는 다음을 호출하여 표준 조밀 형식으로 다시 변환 할 수 있습니다. to_dense −
import pandas as pd
import numpy as np
ts = pd.Series(np.random.randn(10))
ts[2:-2] = np.nan
sts = ts.to_sparse()
print sts.to_dense()
이것의 output 다음과 같습니다-
0 -0.810497
1 -1.419954
2 NaN
3 NaN
4 NaN
5 NaN
6 NaN
7 NaN
8 0.439240
9 -1.095910
dtype: float64
희소 D 유형
희소 데이터는 조밀 한 표현과 동일한 dtype을 가져야합니다. 현재float64, int64 과 booldtypes지원됩니다. 원본에 따라dtype, fill_value default 변경 사항-
float64 − np.nan
int64 − 0
bool − 거짓
동일한 내용을 이해하기 위해 다음 코드를 실행 해 보겠습니다.
import pandas as pd
import numpy as np
s = pd.Series([1, np.nan, np.nan])
print s
s.to_sparse()
print s
이것의 output 다음과 같습니다-
0 1.0
1 NaN
2 NaN
dtype: float64
0 1.0
1 NaN
2 NaN
dtype: float64