Python Pandas-시리즈
시리즈는 모든 유형 (정수, 문자열, 부동 소수점, 파이썬 객체 등)의 데이터를 보유 할 수있는 1 차원 레이블이 지정된 배열입니다. 축 레이블을 총칭하여 인덱스라고합니다.
pandas.Series
팬더 시리즈는 다음 생성자를 사용하여 만들 수 있습니다.
pandas.Series( data, index, dtype, copy)
생성자의 매개 변수는 다음과 같습니다.
Sr. 아니요 | 매개 변수 및 설명 |
---|---|
1 | data 데이터는 ndarray, 목록, 상수와 같은 다양한 형식을 취합니다. |
2 | index 인덱스 값은 고유하고 해시 가능해야하며 데이터와 길이가 같아야합니다. 기본np.arrange(n) 인덱스가 전달되지 않은 경우. |
삼 | dtype dtype은 데이터 유형입니다. None이면 데이터 유형이 유추됩니다. |
4 | copy 데이터를 복사합니다. 기본값 False |
시리즈는 다음과 같은 다양한 입력을 사용하여 생성 할 수 있습니다.
- Array
- Dict
- 스칼라 값 또는 상수
빈 시리즈 만들기
생성 할 수있는 기본 시리즈는 빈 시리즈입니다.
예
#import the pandas library and aliasing as pd
import pandas as pd
s = pd.Series()
print s
이것의 output 다음과 같습니다-
Series([], dtype: float64)
ndarray에서 시리즈 만들기
데이터가 ndarray이면 전달 된 인덱스의 길이가 같아야합니다. 인덱스가 전달되지 않으면 기본적으로 인덱스는range(n) 어디 n 배열 길이, 즉 [0,1,2,3…. range(len(array))-1].
예 1
#import the pandas library and aliasing as pd
import pandas as pd
import numpy as np
data = np.array(['a','b','c','d'])
s = pd.Series(data)
print s
이것의 output 다음과 같습니다-
0 a
1 b
2 c
3 d
dtype: object
인덱스를 전달하지 않았으므로 기본적으로 0에서 len(data)-1즉, 0 ~ 3입니다.
예 2
#import the pandas library and aliasing as pd
import pandas as pd
import numpy as np
data = np.array(['a','b','c','d'])
s = pd.Series(data,index=[100,101,102,103])
print s
이것의 output 다음과 같습니다-
100 a
101 b
102 c
103 d
dtype: object
여기에 인덱스 값을 전달했습니다. 이제 출력에서 사용자 지정 인덱스 값을 볼 수 있습니다.
dict에서 시리즈 만들기
ㅏ dict입력으로 전달 될 수 있으며 인덱스가 지정되지 않은 경우 사전 키를 정렬 된 순서로 가져와 인덱스를 구성합니다. 만약index 전달되면 인덱스의 레이블에 해당하는 데이터의 값이 제거됩니다.
예 1
#import the pandas library and aliasing as pd
import pandas as pd
import numpy as np
data = {'a' : 0., 'b' : 1., 'c' : 2.}
s = pd.Series(data)
print s
이것의 output 다음과 같습니다-
a 0.0
b 1.0
c 2.0
dtype: float64
Observe − 사전 키는 색인을 구성하는 데 사용됩니다.
예 2
#import the pandas library and aliasing as pd
import pandas as pd
import numpy as np
data = {'a' : 0., 'b' : 1., 'c' : 2.}
s = pd.Series(data,index=['b','c','d','a'])
print s
이것의 output 다음과 같습니다-
b 1.0
c 2.0
d NaN
a 0.0
dtype: float64
Observe − 인덱스 순서는 유지되고 누락 된 요소는 NaN (Not a Number)으로 채워집니다.
스칼라에서 시리즈 생성
데이터가 스칼라 값이면 인덱스를 제공해야합니다. 값은 길이와 일치하도록 반복됩니다.index
#import the pandas library and aliasing as pd
import pandas as pd
import numpy as np
s = pd.Series(5, index=[0, 1, 2, 3])
print s
이것의 output 다음과 같습니다-
0 5
1 5
2 5
3 5
dtype: int64
위치가있는 시리즈의 데이터에 액세스
시리즈의 데이터는 ndarray.
예 1
첫 번째 요소를 검색합니다. 이미 알고 있듯이 계수는 배열의 0부터 시작합니다. 즉, 첫 번째 요소가 0 번째 위치에 저장되는 식 입니다.
import pandas as pd
s = pd.Series([1,2,3,4,5],index = ['a','b','c','d','e'])
#retrieve the first element
print s[0]
이것의 output 다음과 같습니다-
1
예 2
시리즈의 처음 세 요소를 검색합니다. 앞에 :가 삽입되면 해당 색인 이후의 모든 항목이 추출됩니다. 두 개의 매개 변수 (: 사이에 있음)가 사용되는 경우 두 인덱스 사이의 항목 (중지 인덱스 제외)
import pandas as pd
s = pd.Series([1,2,3,4,5],index = ['a','b','c','d','e'])
#retrieve the first three element
print s[:3]
이것의 output 다음과 같습니다-
a 1
b 2
c 3
dtype: int64
예제 3
마지막 세 요소를 검색합니다.
import pandas as pd
s = pd.Series([1,2,3,4,5],index = ['a','b','c','d','e'])
#retrieve the last three element
print s[-3:]
이것의 output 다음과 같습니다-
c 3
d 4
e 5
dtype: int64
레이블 (색인)을 사용하여 데이터 검색
시리즈는 고정 된 크기와 같습니다. dict 인덱스 레이블로 값을 가져오고 설정할 수 있다는 점에서.
예 1
색인 레이블 값을 사용하여 단일 요소를 검색합니다.
import pandas as pd
s = pd.Series([1,2,3,4,5],index = ['a','b','c','d','e'])
#retrieve a single element
print s['a']
이것의 output 다음과 같습니다-
1
예 2
색인 레이블 값 목록을 사용하여 여러 요소를 검색합니다.
import pandas as pd
s = pd.Series([1,2,3,4,5],index = ['a','b','c','d','e'])
#retrieve multiple elements
print s[['a','c','d']]
이것의 output 다음과 같습니다-
a 1
c 3
d 4
dtype: int64
예제 3
레이블이 포함되지 않은 경우 예외가 발생합니다.
import pandas as pd
s = pd.Series([1,2,3,4,5],index = ['a','b','c','d','e'])
#retrieve multiple elements
print s['f']
이것의 output 다음과 같습니다-
…
KeyError: 'f'