Python Pandas-기본 기능
지금까지 3 개의 Pandas DataStructures와이를 만드는 방법에 대해 배웠습니다. 실시간 데이터 처리에서의 중요성 때문에 DataFrame 객체에 주로 초점을 맞추고 몇 가지 다른 DataStructures에 대해서도 논의합니다.
시리즈 기본 기능
Sr. 아니. | 속성 또는 방법 및 설명 |
---|---|
1 | axes 행 축 레이블 목록을 반환합니다. |
2 | dtype 객체의 dtype을 반환합니다. |
삼 | empty 계열이 비어 있으면 True를 반환합니다. |
4 | ndim 정의 1에 따라 기본 데이터의 차원 수를 반환합니다. |
5 | size 기본 데이터의 요소 수를 반환합니다. |
6 | values Series를 ndarray로 반환합니다. |
7 | head() 처음 n 개 행을 반환합니다. |
8 | tail() 마지막 n 개 행을 반환합니다. |
이제 Series를 만들고 위의 모든 표로 작성된 속성 작업을 살펴 보겠습니다.
예
import pandas as pd
import numpy as np
#Create a series with 100 random numbers
s = pd.Series(np.random.randn(4))
print s
이것의 output 다음과 같습니다-
0 0.967853
1 -0.148368
2 -1.395906
3 -1.758394
dtype: float64
축
시리즈의 레이블 목록을 반환합니다.
import pandas as pd
import numpy as np
#Create a series with 100 random numbers
s = pd.Series(np.random.randn(4))
print ("The axes are:")
print s.axes
이것의 output 다음과 같습니다-
The axes are:
[RangeIndex(start=0, stop=4, step=1)]
위의 결과는 0에서 5까지의 값 목록 (예 : [0,1,2,3,4])의 압축 형식입니다.
빈
Object가 비어 있는지 여부를 나타내는 Boolean 값을 반환합니다. True는 개체가 비어 있음을 나타냅니다.
import pandas as pd
import numpy as np
#Create a series with 100 random numbers
s = pd.Series(np.random.randn(4))
print ("Is the Object empty?")
print s.empty
이것의 output 다음과 같습니다-
Is the Object empty?
False
ndim
개체의 차원 수를 반환합니다. 정의에 따라 Series는 1D 데이터 구조이므로 다음을 반환합니다.
import pandas as pd
import numpy as np
#Create a series with 4 random numbers
s = pd.Series(np.random.randn(4))
print s
print ("The dimensions of the object:")
print s.ndim
이것의 output 다음과 같습니다-
0 0.175898
1 0.166197
2 -0.609712
3 -1.377000
dtype: float64
The dimensions of the object:
1
크기
시리즈의 크기 (길이)를 반환합니다.
import pandas as pd
import numpy as np
#Create a series with 4 random numbers
s = pd.Series(np.random.randn(2))
print s
print ("The size of the object:")
print s.size
이것의 output 다음과 같습니다-
0 3.078058
1 -1.207803
dtype: float64
The size of the object:
2
가치
계열의 실제 데이터를 배열로 반환합니다.
import pandas as pd
import numpy as np
#Create a series with 4 random numbers
s = pd.Series(np.random.randn(4))
print s
print ("The actual data series is:")
print s.values
이것의 output 다음과 같습니다-
0 1.787373
1 -0.605159
2 0.180477
3 -0.140922
dtype: float64
The actual data series is:
[ 1.78737302 -0.60515881 0.18047664 -0.1409218 ]
머리와 꼬리
Series 또는 DataFrame 객체의 작은 샘플을 보려면 head () 및 tail () 메서드를 사용하십시오.
head() 첫 번째를 반환 n행 (인덱스 값 관찰). 표시 할 기본 요소 수는 5 개이지만 사용자 지정 번호를 전달할 수 있습니다.
import pandas as pd
import numpy as np
#Create a series with 4 random numbers
s = pd.Series(np.random.randn(4))
print ("The original series is:")
print s
print ("The first two rows of the data series:")
print s.head(2)
이것의 output 다음과 같습니다-
The original series is:
0 0.720876
1 -0.765898
2 0.479221
3 -0.139547
dtype: float64
The first two rows of the data series:
0 0.720876
1 -0.765898
dtype: float64
tail() 마지막을 반환 n행 (인덱스 값 관찰). 표시 할 기본 요소 수는 5 개이지만 사용자 지정 번호를 전달할 수 있습니다.
import pandas as pd
import numpy as np
#Create a series with 4 random numbers
s = pd.Series(np.random.randn(4))
print ("The original series is:")
print s
print ("The last two rows of the data series:")
print s.tail(2)
이것의 output 다음과 같습니다-
The original series is:
0 -0.655091
1 -0.881407
2 -0.608592
3 -2.341413
dtype: float64
The last two rows of the data series:
2 -0.608592
3 -2.341413
dtype: float64
DataFrame 기본 기능
이제 DataFrame 기본 기능이 무엇인지 이해하겠습니다. 다음 표에는 DataFrame 기본 기능에 도움이되는 중요한 속성 또는 메서드가 나열되어 있습니다.
Sr. 아니. | 속성 또는 방법 및 설명 |
---|---|
1 | T 행과 열을 바꿉니다. |
2 | axes 행 축 레이블과 열 축 레이블이 유일한 멤버 인 목록을 반환합니다. |
삼 | dtypes 이 객체의 dtypes를 반환합니다. |
4 | empty NDFrame이 완전히 비어 있으면 참 [항목 없음]. 축의 길이가 0 인 경우. |
5 | ndim 축 수 / 배열 차원. |
6 | shape DataFrame의 차원을 나타내는 튜플을 반환합니다. |
7 | size NDFrame의 요소 수입니다. |
8 | values NDFrame의 Numpy 표현. |
9 | head() 처음 n 개 행을 반환합니다. |
10 | tail() 마지막 n 개 행을 반환합니다. |
이제 DataFrame을 만들고 위에서 언급 한 속성의 작동 방식을 모두 살펴 보겠습니다.
예
import pandas as pd
import numpy as np
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
'Age':pd.Series([25,26,25,23,30,29,23]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#Create a DataFrame
df = pd.DataFrame(d)
print ("Our data series is:")
print df
이것의 output 다음과 같습니다-
Our data series is:
Age Name Rating
0 25 Tom 4.23
1 26 James 3.24
2 25 Ricky 3.98
3 23 Vin 2.56
4 30 Steve 3.20
5 29 Smith 4.60
6 23 Jack 3.80
T (조옮김)
DataFrame의 전치를 반환합니다. 행과 열이 서로 바뀝니다.
import pandas as pd
import numpy as np
# Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
'Age':pd.Series([25,26,25,23,30,29,23]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
# Create a DataFrame
df = pd.DataFrame(d)
print ("The transpose of the data series is:")
print df.T
이것의 output 다음과 같습니다-
The transpose of the data series is:
0 1 2 3 4 5 6
Age 25 26 25 23 30 29 23
Name Tom James Ricky Vin Steve Smith Jack
Rating 4.23 3.24 3.98 2.56 3.2 4.6 3.8
축
행 축 레이블 및 열 축 레이블 목록을 반환합니다.
import pandas as pd
import numpy as np
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
'Age':pd.Series([25,26,25,23,30,29,23]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#Create a DataFrame
df = pd.DataFrame(d)
print ("Row axis labels and column axis labels are:")
print df.axes
이것의 output 다음과 같습니다-
Row axis labels and column axis labels are:
[RangeIndex(start=0, stop=7, step=1), Index([u'Age', u'Name', u'Rating'],
dtype='object')]
dtypes
각 열의 데이터 유형을 반환합니다.
import pandas as pd
import numpy as np
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
'Age':pd.Series([25,26,25,23,30,29,23]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#Create a DataFrame
df = pd.DataFrame(d)
print ("The data types of each column are:")
print df.dtypes
이것의 output 다음과 같습니다-
The data types of each column are:
Age int64
Name object
Rating float64
dtype: object
빈
Object가 비어 있는지 여부를 나타내는 부울 값을 반환합니다. True는 개체가 비어 있음을 나타냅니다.
import pandas as pd
import numpy as np
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
'Age':pd.Series([25,26,25,23,30,29,23]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#Create a DataFrame
df = pd.DataFrame(d)
print ("Is the object empty?")
print df.empty
이것의 output 다음과 같습니다-
Is the object empty?
False
ndim
개체의 차원 수를 반환합니다. 정의에 따라 DataFrame은 2D 개체입니다.
import pandas as pd
import numpy as np
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
'Age':pd.Series([25,26,25,23,30,29,23]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#Create a DataFrame
df = pd.DataFrame(d)
print ("Our object is:")
print df
print ("The dimension of the object is:")
print df.ndim
이것의 output 다음과 같습니다-
Our object is:
Age Name Rating
0 25 Tom 4.23
1 26 James 3.24
2 25 Ricky 3.98
3 23 Vin 2.56
4 30 Steve 3.20
5 29 Smith 4.60
6 23 Jack 3.80
The dimension of the object is:
2
모양
DataFrame의 차원을 나타내는 튜플을 반환합니다. 튜플 (a, b), 여기서 a는 행 수를 나타내고b 열 수를 나타냅니다.
import pandas as pd
import numpy as np
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
'Age':pd.Series([25,26,25,23,30,29,23]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#Create a DataFrame
df = pd.DataFrame(d)
print ("Our object is:")
print df
print ("The shape of the object is:")
print df.shape
이것의 output 다음과 같습니다-
Our object is:
Age Name Rating
0 25 Tom 4.23
1 26 James 3.24
2 25 Ricky 3.98
3 23 Vin 2.56
4 30 Steve 3.20
5 29 Smith 4.60
6 23 Jack 3.80
The shape of the object is:
(7, 3)
크기
DataFrame의 요소 수를 반환합니다.
import pandas as pd
import numpy as np
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
'Age':pd.Series([25,26,25,23,30,29,23]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#Create a DataFrame
df = pd.DataFrame(d)
print ("Our object is:")
print df
print ("The total number of elements in our object is:")
print df.size
이것의 output 다음과 같습니다-
Our object is:
Age Name Rating
0 25 Tom 4.23
1 26 James 3.24
2 25 Ricky 3.98
3 23 Vin 2.56
4 30 Steve 3.20
5 29 Smith 4.60
6 23 Jack 3.80
The total number of elements in our object is:
21
가치
DataFrame의 실제 데이터를 NDarray.
import pandas as pd
import numpy as np
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
'Age':pd.Series([25,26,25,23,30,29,23]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#Create a DataFrame
df = pd.DataFrame(d)
print ("Our object is:")
print df
print ("The actual data in our data frame is:")
print df.values
이것의 output 다음과 같습니다-
Our object is:
Age Name Rating
0 25 Tom 4.23
1 26 James 3.24
2 25 Ricky 3.98
3 23 Vin 2.56
4 30 Steve 3.20
5 29 Smith 4.60
6 23 Jack 3.80
The actual data in our data frame is:
[[25 'Tom' 4.23]
[26 'James' 3.24]
[25 'Ricky' 3.98]
[23 'Vin' 2.56]
[30 'Steve' 3.2]
[29 'Smith' 4.6]
[23 'Jack' 3.8]]
머리와 꼬리
DataFrame 개체의 작은 샘플을 보려면 head() 및 tail () 메서드. head() 첫 번째를 반환 n행 (인덱스 값 관찰). 표시 할 기본 요소 수는 5 개이지만 사용자 지정 번호를 전달할 수 있습니다.
import pandas as pd
import numpy as np
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
'Age':pd.Series([25,26,25,23,30,29,23]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#Create a DataFrame
df = pd.DataFrame(d)
print ("Our data frame is:")
print df
print ("The first two rows of the data frame is:")
print df.head(2)
이것의 output 다음과 같습니다-
Our data frame is:
Age Name Rating
0 25 Tom 4.23
1 26 James 3.24
2 25 Ricky 3.98
3 23 Vin 2.56
4 30 Steve 3.20
5 29 Smith 4.60
6 23 Jack 3.80
The first two rows of the data frame is:
Age Name Rating
0 25 Tom 4.23
1 26 James 3.24
tail() 마지막을 반환 n행 (인덱스 값 관찰). 표시 할 기본 요소 수는 5 개이지만 사용자 지정 번호를 전달할 수 있습니다.
import pandas as pd
import numpy as np
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
'Age':pd.Series([25,26,25,23,30,29,23]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#Create a DataFrame
df = pd.DataFrame(d)
print ("Our data frame is:")
print df
print ("The last two rows of the data frame is:")
print df.tail(2)
이것의 output 다음과 같습니다-
Our data frame is:
Age Name Rating
0 25 Tom 4.23
1 26 James 3.24
2 25 Ricky 3.98
3 23 Vin 2.56
4 30 Steve 3.20
5 29 Smith 4.60
6 23 Jack 3.80
The last two rows of the data frame is:
Age Name Rating
5 29 Smith 4.6
6 23 Jack 3.8