Python Pandas-희소 데이터

특정 값과 일치하는 데이터 (NaN / 누락 된 값, 임의의 값을 선택할 수 있음)가 생략되면 희소 개체가 "압축"됩니다. 특수 SparseIndex 객체는 데이터가 "분할 된"위치를 추적합니다. 이것은 예에서 훨씬 더 의미가 있습니다. 모든 표준 Pandas 데이터 구조는to_sparse 방법-

import pandas as pd
import numpy as np

ts = pd.Series(np.random.randn(10))
ts[2:-2] = np.nan
sts = ts.to_sparse()
print sts

이것의 output 다음과 같습니다-

0   -0.810497
1   -1.419954
2         NaN
3         NaN
4         NaN
5         NaN
6         NaN
7         NaN
8    0.439240
9   -1.095910
dtype: float64
BlockIndex
Block locations: array([0, 8], dtype=int32)
Block lengths: array([2, 2], dtype=int32)

희소 객체는 메모리 효율성을 위해 존재합니다.

이제 큰 NA DataFrame이 있다고 가정하고 다음 코드를 실행합니다.

import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randn(10000, 4))
df.ix[:9998] = np.nan
sdf = df.to_sparse()

print sdf.density

이것의 output 다음과 같습니다-

0.0001

모든 희소 개체는 다음을 호출하여 표준 조밀 형식으로 다시 변환 할 수 있습니다. to_dense

import pandas as pd
import numpy as np
ts = pd.Series(np.random.randn(10))
ts[2:-2] = np.nan
sts = ts.to_sparse()
print sts.to_dense()

이것의 output 다음과 같습니다-

0   -0.810497
1   -1.419954
2         NaN
3         NaN
4         NaN
5         NaN
6         NaN
7         NaN
8    0.439240
9   -1.095910
dtype: float64

희소 D 유형

희소 데이터는 조밀 한 표현과 동일한 dtype을 가져야합니다. 현재float64, int64booldtypes지원됩니다. 원본에 따라dtype, fill_value default 변경 사항-

  • float64 − np.nan

  • int64 − 0

  • bool − 거짓

동일한 내용을 이해하기 위해 다음 코드를 실행 해 보겠습니다.

import pandas as pd
import numpy as np

s = pd.Series([1, np.nan, np.nan])
print s

s.to_sparse()
print s

이것의 output 다음과 같습니다-

0   1.0
1   NaN
2   NaN
dtype: float64

0   1.0
1   NaN
2   NaN
dtype: float64