Scikit Learn-데이터 표현

기계 학습이 데이터에서 모델을 생성하려고한다는 것을 알고 있습니다. 이를 위해 컴퓨터는 먼저 데이터를 이해해야합니다. 다음으로, 컴퓨터로 이해하기 위해 데이터를 표현하는 다양한 방법에 대해 논의 할 것입니다.

테이블로 데이터

Scikit-learn에서 데이터를 표현하는 가장 좋은 방법은 테이블 형식입니다. 테이블은 행이 데이터 세트의 개별 요소를 나타내고 열이 해당 개별 요소와 관련된 수량을 나타내는 2D 데이터 그리드를 나타냅니다.

아래 주어진 예를 사용하여 iris dataset 파이썬의 도움으로 Pandas DataFrame의 형태로 seaborn 도서관.

import seaborn as sns
iris = sns.load_dataset('iris')
iris.head()

산출

sepal_length sepal_width petal_length petal_width  species
0        5.1      3.5         1.4             0.2   setosa
1        4.9      3.0         1.4             0.2   setosa
2        4.7      3.2         1.3             0.2   setosa
3        4.6      3.1         1.5             0.2   setosa
4        5.0      3.6         1.4             0.2   setosa

위의 출력에서 ​​데이터의 각 행은 관찰 된 단일 꽃을 나타내고 행 수는 데이터 세트의 총 꽃 수를 나타냅니다. 일반적으로 행렬의 행을 샘플이라고합니다.

반면에 데이터의 각 열은 각 샘플을 설명하는 정량적 정보를 나타냅니다. 일반적으로 행렬의 열을 특성이라고합니다.

기능 매트릭스로서의 데이터

특징 행렬은 정보를 2 차원 행렬로 생각할 수있는 테이블 레이아웃으로 정의 할 수 있습니다. 이름이 지정된 변수에 저장됩니다.X모양이 [n_samples, n_features] 인 2 차원이라고 가정합니다. 대부분 NumPy 배열 또는 Pandas DataFrame에 포함되어 있습니다. 앞서 말했듯이 샘플은 항상 데이터 세트에서 설명하는 개별 개체를 나타내고 기능은 각 샘플을 정량적으로 설명하는 별개의 관찰을 나타냅니다.

타겟 어레이로서의 데이터

X로 표시되는 기능 매트릭스와 함께 대상 배열도 있습니다. 레이블이라고도합니다. y로 표시됩니다. 레이블 또는 대상 배열은 일반적으로 길이가 n_samples 인 1 차원입니다. 일반적으로 NumPy에 포함되어 있습니다.array 또는 판다 Series. 대상 배열에는 값, 연속 숫자 값 및 이산 값이 모두있을 수 있습니다.

타겟 어레이는 특성 열과 어떻게 다릅니 까?

대상 배열이 일반적으로 데이터에서 예측하려는 양이라는 점을 한 점으로 구분할 수 있습니다. 즉, 통계적 측면에서 종속 변수입니다.

아래 예에서 홍채 데이터 세트에서 다른 측정 값을 기반으로 꽃의 종을 예측합니다. 이 경우 종 열이 기능으로 간주됩니다.

import seaborn as sns
iris = sns.load_dataset('iris')
%matplotlib inline
import seaborn as sns; sns.set()
sns.pairplot(iris, hue='species', height=3);

산출

X_iris = iris.drop('species', axis=1)
X_iris.shape
y_iris = iris['species']
y_iris.shape

산출

(150,4)
(150,)