Python Pandas-기본 기능

지금까지 3 개의 Pandas DataStructures와이를 만드는 방법에 대해 배웠습니다. 실시간 데이터 처리에서의 중요성 때문에 DataFrame 객체에 주로 초점을 맞추고 몇 가지 다른 DataStructures에 대해서도 논의합니다.

시리즈 기본 기능

Sr. 아니. 속성 또는 방법 및 설명
1

axes

행 축 레이블 목록을 반환합니다.

2

dtype

객체의 dtype을 반환합니다.

empty

계열이 비어 있으면 True를 반환합니다.

4

ndim

정의 1에 따라 기본 데이터의 차원 수를 반환합니다.

5

size

기본 데이터의 요소 수를 반환합니다.

6

values

Series를 ndarray로 반환합니다.

7

head()

처음 n 개 행을 반환합니다.

8

tail()

마지막 n 개 행을 반환합니다.

이제 Series를 만들고 위의 모든 표로 작성된 속성 작업을 살펴 ​​보겠습니다.

import pandas as pd
import numpy as np

#Create a series with 100 random numbers
s = pd.Series(np.random.randn(4))
print s

이것의 output 다음과 같습니다-

0   0.967853
1  -0.148368
2  -1.395906
3  -1.758394
dtype: float64

시리즈의 레이블 목록을 반환합니다.

import pandas as pd
import numpy as np

#Create a series with 100 random numbers
s = pd.Series(np.random.randn(4))
print ("The axes are:")
print s.axes

이것의 output 다음과 같습니다-

The axes are:
[RangeIndex(start=0, stop=4, step=1)]

위의 결과는 0에서 5까지의 값 목록 (예 : [0,1,2,3,4])의 압축 형식입니다.

Object가 비어 있는지 여부를 나타내는 Boolean 값을 반환합니다. True는 개체가 비어 있음을 나타냅니다.

import pandas as pd
import numpy as np

#Create a series with 100 random numbers
s = pd.Series(np.random.randn(4))
print ("Is the Object empty?")
print s.empty

이것의 output 다음과 같습니다-

Is the Object empty?
False

ndim

개체의 차원 수를 반환합니다. 정의에 따라 Series는 1D 데이터 구조이므로 다음을 반환합니다.

import pandas as pd
import numpy as np

#Create a series with 4 random numbers
s = pd.Series(np.random.randn(4))
print s

print ("The dimensions of the object:")
print s.ndim

이것의 output 다음과 같습니다-

0   0.175898
1   0.166197
2  -0.609712
3  -1.377000
dtype: float64

The dimensions of the object:
1

크기

시리즈의 크기 (길이)를 반환합니다.

import pandas as pd
import numpy as np

#Create a series with 4 random numbers
s = pd.Series(np.random.randn(2))
print s
print ("The size of the object:")
print s.size

이것의 output 다음과 같습니다-

0   3.078058
1  -1.207803
dtype: float64

The size of the object:
2

가치

계열의 실제 데이터를 배열로 반환합니다.

import pandas as pd
import numpy as np

#Create a series with 4 random numbers
s = pd.Series(np.random.randn(4))
print s

print ("The actual data series is:")
print s.values

이것의 output 다음과 같습니다-

0   1.787373
1  -0.605159
2   0.180477
3  -0.140922
dtype: float64

The actual data series is:
[ 1.78737302 -0.60515881 0.18047664 -0.1409218 ]

머리와 꼬리

Series 또는 DataFrame 객체의 작은 샘플을 보려면 head () 및 tail () 메서드를 사용하십시오.

head() 첫 번째를 반환 n행 (인덱스 값 관찰). 표시 할 기본 요소 수는 5 개이지만 사용자 지정 번호를 전달할 수 있습니다.

import pandas as pd
import numpy as np

#Create a series with 4 random numbers
s = pd.Series(np.random.randn(4))
print ("The original series is:")
print s

print ("The first two rows of the data series:")
print s.head(2)

이것의 output 다음과 같습니다-

The original series is:
0   0.720876
1  -0.765898
2   0.479221
3  -0.139547
dtype: float64

The first two rows of the data series:
0   0.720876
1  -0.765898
dtype: float64

tail() 마지막을 반환 n행 (인덱스 값 관찰). 표시 할 기본 요소 수는 5 개이지만 사용자 지정 번호를 전달할 수 있습니다.

import pandas as pd
import numpy as np

#Create a series with 4 random numbers
s = pd.Series(np.random.randn(4))
print ("The original series is:")
print s

print ("The last two rows of the data series:")
print s.tail(2)

이것의 output 다음과 같습니다-

The original series is:
0 -0.655091
1 -0.881407
2 -0.608592
3 -2.341413
dtype: float64

The last two rows of the data series:
2 -0.608592
3 -2.341413
dtype: float64

DataFrame 기본 기능

이제 DataFrame 기본 기능이 무엇인지 이해하겠습니다. 다음 표에는 DataFrame 기본 기능에 도움이되는 중요한 속성 또는 메서드가 나열되어 있습니다.

Sr. 아니. 속성 또는 방법 및 설명
1

T

행과 열을 바꿉니다.

2

axes

행 축 레이블과 열 축 레이블이 유일한 멤버 인 목록을 반환합니다.

dtypes

이 객체의 dtypes를 반환합니다.

4

empty

NDFrame이 완전히 비어 있으면 참 [항목 없음]. 축의 길이가 0 인 경우.

5

ndim

축 수 / 배열 차원.

6

shape

DataFrame의 차원을 나타내는 튜플을 반환합니다.

7

size

NDFrame의 요소 수입니다.

8

values

NDFrame의 Numpy 표현.

9

head()

처음 n 개 행을 반환합니다.

10

tail()

마지막 n 개 행을 반환합니다.

이제 DataFrame을 만들고 위에서 언급 한 속성의 작동 방식을 모두 살펴 보겠습니다.

import pandas as pd
import numpy as np

#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
   'Age':pd.Series([25,26,25,23,30,29,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}

#Create a DataFrame
df = pd.DataFrame(d)
print ("Our data series is:")
print df

이것의 output 다음과 같습니다-

Our data series is:
    Age   Name    Rating
0   25    Tom     4.23
1   26    James   3.24
2   25    Ricky   3.98
3   23    Vin     2.56
4   30    Steve   3.20
5   29    Smith   4.60
6   23    Jack    3.80

T (조옮김)

DataFrame의 전치를 반환합니다. 행과 열이 서로 바뀝니다.

import pandas as pd
import numpy as np
 
# Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
   'Age':pd.Series([25,26,25,23,30,29,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}

# Create a DataFrame
df = pd.DataFrame(d)
print ("The transpose of the data series is:")
print df.T

이것의 output 다음과 같습니다-

The transpose of the data series is:
         0     1       2      3      4      5       6
Age      25    26      25     23     30     29      23
Name     Tom   James   Ricky  Vin    Steve  Smith   Jack
Rating   4.23  3.24    3.98   2.56   3.2    4.6     3.8

행 축 레이블 및 열 축 레이블 목록을 반환합니다.

import pandas as pd
import numpy as np

#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
   'Age':pd.Series([25,26,25,23,30,29,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}

#Create a DataFrame
df = pd.DataFrame(d)
print ("Row axis labels and column axis labels are:")
print df.axes

이것의 output 다음과 같습니다-

Row axis labels and column axis labels are:

[RangeIndex(start=0, stop=7, step=1), Index([u'Age', u'Name', u'Rating'],
dtype='object')]

dtypes

각 열의 데이터 유형을 반환합니다.

import pandas as pd
import numpy as np

#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
   'Age':pd.Series([25,26,25,23,30,29,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}

#Create a DataFrame
df = pd.DataFrame(d)
print ("The data types of each column are:")
print df.dtypes

이것의 output 다음과 같습니다-

The data types of each column are:
Age     int64
Name    object
Rating  float64
dtype: object

Object가 비어 있는지 여부를 나타내는 부울 값을 반환합니다. True는 개체가 비어 있음을 나타냅니다.

import pandas as pd
import numpy as np
 
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
   'Age':pd.Series([25,26,25,23,30,29,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
 
#Create a DataFrame
df = pd.DataFrame(d)
print ("Is the object empty?")
print df.empty

이것의 output 다음과 같습니다-

Is the object empty?
False

ndim

개체의 차원 수를 반환합니다. 정의에 따라 DataFrame은 2D 개체입니다.

import pandas as pd
import numpy as np

#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
   'Age':pd.Series([25,26,25,23,30,29,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}

#Create a DataFrame
df = pd.DataFrame(d)
print ("Our object is:")
print df
print ("The dimension of the object is:")
print df.ndim

이것의 output 다음과 같습니다-

Our object is:
      Age    Name     Rating
0     25     Tom      4.23
1     26     James    3.24
2     25     Ricky    3.98
3     23     Vin      2.56
4     30     Steve    3.20
5     29     Smith    4.60
6     23     Jack     3.80

The dimension of the object is:
2

모양

DataFrame의 차원을 나타내는 튜플을 반환합니다. 튜플 (a, b), 여기서 a는 행 수를 나타내고b 열 수를 나타냅니다.

import pandas as pd
import numpy as np
 
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
   'Age':pd.Series([25,26,25,23,30,29,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
 
#Create a DataFrame
df = pd.DataFrame(d)
print ("Our object is:")
print df
print ("The shape of the object is:")
print df.shape

이것의 output 다음과 같습니다-

Our object is:
   Age   Name    Rating
0  25    Tom     4.23
1  26    James   3.24
2  25    Ricky   3.98
3  23    Vin     2.56
4  30    Steve   3.20
5  29    Smith   4.60
6  23    Jack    3.80

The shape of the object is:
(7, 3)

크기

DataFrame의 요소 수를 반환합니다.

import pandas as pd
import numpy as np
 
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
   'Age':pd.Series([25,26,25,23,30,29,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
 
#Create a DataFrame
df = pd.DataFrame(d)
print ("Our object is:")
print df
print ("The total number of elements in our object is:")
print df.size

이것의 output 다음과 같습니다-

Our object is:
    Age   Name    Rating
0   25    Tom     4.23
1   26    James   3.24
2   25    Ricky   3.98
3   23    Vin     2.56
4   30    Steve   3.20
5   29    Smith   4.60
6   23    Jack    3.80

The total number of elements in our object is:
21

가치

DataFrame의 실제 데이터를 NDarray.

import pandas as pd
import numpy as np
 
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
   'Age':pd.Series([25,26,25,23,30,29,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
 
#Create a DataFrame
df = pd.DataFrame(d)
print ("Our object is:")
print df
print ("The actual data in our data frame is:")
print df.values

이것의 output 다음과 같습니다-

Our object is:
    Age   Name    Rating
0   25    Tom     4.23
1   26    James   3.24
2   25    Ricky   3.98
3   23    Vin     2.56
4   30    Steve   3.20
5   29    Smith   4.60
6   23    Jack    3.80
The actual data in our data frame is:
[[25 'Tom' 4.23]
[26 'James' 3.24]
[25 'Ricky' 3.98]
[23 'Vin' 2.56]
[30 'Steve' 3.2]
[29 'Smith' 4.6]
[23 'Jack' 3.8]]

머리와 꼬리

DataFrame 개체의 작은 샘플을 보려면 head() 및 tail () 메서드. head() 첫 번째를 반환 n행 (인덱스 값 관찰). 표시 할 기본 요소 수는 5 개이지만 사용자 지정 번호를 전달할 수 있습니다.

import pandas as pd
import numpy as np
 
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
   'Age':pd.Series([25,26,25,23,30,29,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}

#Create a DataFrame
df = pd.DataFrame(d)
print ("Our data frame is:")
print df
print ("The first two rows of the data frame is:")
print df.head(2)

이것의 output 다음과 같습니다-

Our data frame is:
    Age   Name    Rating
0   25    Tom     4.23
1   26    James   3.24
2   25    Ricky   3.98
3   23    Vin     2.56
4   30    Steve   3.20
5   29    Smith   4.60
6   23    Jack    3.80

The first two rows of the data frame is:
   Age   Name   Rating
0  25    Tom    4.23
1  26    James  3.24

tail() 마지막을 반환 n행 (인덱스 값 관찰). 표시 할 기본 요소 수는 5 개이지만 사용자 지정 번호를 전달할 수 있습니다.

import pandas as pd
import numpy as np

#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
   'Age':pd.Series([25,26,25,23,30,29,23]), 
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
 
#Create a DataFrame
df = pd.DataFrame(d)
print ("Our data frame is:")
print df
print ("The last two rows of the data frame is:")
print df.tail(2)

이것의 output 다음과 같습니다-

Our data frame is:
    Age   Name    Rating
0   25    Tom     4.23
1   26    James   3.24
2   25    Ricky   3.98
3   23    Vin     2.56
4   30    Steve   3.20
5   29    Smith   4.60
6   23    Jack    3.80

The last two rows of the data frame is:
    Age   Name    Rating
5   29    Smith    4.6
6   23    Jack     3.8