기계 학습-자동 워크 플로

소개

성공적으로 실행하고 결과를 생성하려면 기계 학습 모델이 일부 표준 워크 플로를 자동화해야합니다. 이러한 표준 워크 플로를 자동화하는 프로세스는 Scikit-learn Pipelines의 도움으로 수행 할 수 있습니다. 데이터 과학자의 관점에서 파이프 라인은 일반화되었지만 매우 중요한 개념입니다. 기본적으로 원시 형식에서 유용한 정보로의 데이터 흐름을 허용합니다. 파이프 라인의 작동은 다음 다이어그램의 도움으로 이해할 수 있습니다.

ML 파이프 라인의 블록은 다음과 같습니다.

Data ingestion− 이름에서 알 수 있듯이 ML 프로젝트에서 사용할 데이터를 가져 오는 과정입니다. 데이터는 실시간 또는 단일 또는 다중 시스템에서 일괄 추출 할 수 있습니다. 데이터 품질이 전체 ML 모델에 영향을 미칠 수 있기 때문에 가장 어려운 단계 중 하나입니다.

Data Preparation− 데이터를 가져온 후 ML 모델에 사용할 데이터를 준비해야합니다. 데이터 전처리는 데이터 준비에서 가장 중요한 기술 중 하나입니다.

ML Model Training− 다음 단계는 ML 모델을 학습하는 것입니다. 데이터에서 특징을 추출하고 예측하기위한 감독, 비지도, 강화와 같은 다양한 ML 알고리즘이 있습니다.

Model Evaluation− 다음으로 ML 모델을 평가해야합니다. AutoML 파이프 라인의 경우 다양한 통계 방법과 비즈니스 규칙을 사용하여 ML 모델을 평가할 수 있습니다.

ML Model retraining− AutoML 파이프 라인의 경우 첫 번째 모델이 최상의 모델 일 필요는 없습니다. 첫 번째 모델은 기준 모델로 간주되며 반복적으로 훈련하여 모델의 정확도를 높일 수 있습니다.

Deployment− 마침내 모델을 배포해야합니다. 이 단계에는 사용을 위해 모델을 비즈니스 운영에 적용하고 마이그레이션하는 작업이 포함됩니다.

ML 파이프 라인에 수반되는 과제

ML 파이프 라인을 생성하기 위해 데이터 과학자는 많은 과제에 직면합니다. 이러한 과제는 다음 세 가지 범주로 나뉩니다.

데이터 품질

ML 모델의 성공 여부는 데이터 품질에 크게 좌우됩니다. ML 모델에 제공하는 데이터가 정확하지 않고 신뢰할 수 있으며 견고하지 않은 경우 잘못된 출력 또는 오해의 소지가있는 출력으로 끝납니다.

데이터 신뢰성

ML 파이프 라인과 관련된 또 다른 문제는 ML 모델에 제공하는 데이터의 안정성입니다. 아시다시피 데이터 과학자가 데이터를 수집 할 수있는 다양한 소스가있을 수 있지만 최상의 결과를 얻으려면 데이터 소스가 신뢰할 수 있고 신뢰할 수 있어야합니다.

데이터 접근성

ML 파이프 라인에서 최상의 결과를 얻으려면 데이터 자체에 액세스 할 수 있어야하며 데이터 통합, 정리 및 큐 레이션이 필요합니다. 데이터 접근성 속성의 결과로 메타 데이터가 새 태그로 업데이트됩니다.

ML 파이프 라인 모델링 및 데이터 준비

학습 데이터 세트에서 테스트 데이터 세트까지 발생하는 데이터 유출은 데이터 과학자가 ML 모델 용 데이터를 준비하는 동안 처리해야하는 중요한 문제입니다. 일반적으로 데이터 준비시 데이터 과학자는 학습 전에 전체 데이터 세트에 대해 표준화 또는 정규화와 같은 기술을 사용합니다. 그러나 이러한 기술은 훈련 데이터 세트가 테스트 데이터 세트의 데이터 규모에 영향을 받았기 때문에 데이터 유출로부터 우리를 도울 수 없습니다.

ML 파이프 라인을 사용하면 파이프 라인이 표준화와 같은 데이터 준비가 교차 유효성 검사 절차의 각 단계로 제한되도록 보장하기 때문에 이러한 데이터 유출을 방지 할 수 있습니다.

다음은 데이터 준비 및 모델 평가 워크 플로를 보여주는 Python의 예입니다. 이를 위해 Sklearn의 Pima Indian Diabetes 데이터 세트를 사용합니다. 먼저 데이터를 표준화 한 파이프 라인을 생성 할 것입니다. 그런 다음 Linear Discriminative 분석 모델이 생성되고 마침내 파이프 라인이 10 겹 교차 검증을 사용하여 평가됩니다.

먼저 다음과 같이 필요한 패키지를 가져옵니다.

from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis

이제 이전 예제에서했던 것처럼 Pima 당뇨병 데이터 세트를로드해야합니다.

path = r"C:\pima-indians-diabetes.csv"
headernames = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(path, names=headernames)
array = data.values

다음으로 다음 코드를 사용하여 파이프 라인을 생성합니다.

estimators = []
estimators.append(('standardize', StandardScaler()))
estimators.append(('lda', LinearDiscriminantAnalysis()))
model = Pipeline(estimators)

마지막으로이 파이프 라인을 평가하고 다음과 같이 정확도를 출력 할 것입니다.

kfold = KFold(n_splits=20, random_state=7)
results = cross_val_score(model, X, Y, cv=kfold)
print(results.mean())

산출

0.7790148448043184

위의 출력은 데이터 세트 설정의 정확성에 대한 요약입니다.

ML 파이프 라인 및 특징 추출 모델링

ML 모델의 특징 추출 단계에서도 데이터 유출이 발생할 수 있습니다. 그렇기 때문에 훈련 데이터 세트에서 데이터 유출을 막기 위해 특징 추출 절차도 제한해야합니다. 데이터 준비의 경우와 마찬가지로 ML 파이프 라인을 사용하여 이러한 데이터 유출도 방지 할 수 있습니다. 이러한 목적으로 ML 파이프 라인에서 제공하는 도구 인 FeatureUnion을 사용할 수 있습니다.

다음은 기능 추출 및 모델 평가 워크 플로를 보여주는 Python의 예입니다. 이를 위해 Sklearn의 Pima Indian Diabetes 데이터 세트를 사용합니다.

먼저 PCA (Principal Component Analysis)를 통해 3 가지 기능을 추출합니다. 그런 다음 통계 분석을 통해 6 개의 기능을 추출합니다. 특징 추출 후, 다중 특징 선택 및 추출 절차의 결과는 다음을 사용하여 결합됩니다.

FeatureUnion 도구. 마지막으로 로지스틱 회귀 모델이 생성되고 파이프 라인은 10 겹 교차 검증을 사용하여 평가됩니다.

먼저 다음과 같이 필요한 패키지를 가져옵니다.

from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.pipeline import Pipeline
from sklearn.pipeline import FeatureUnion
from sklearn.linear_model import LogisticRegression
from sklearn.decomposition import PCA
from sklearn.feature_selection import SelectKBest

이제 이전 예제에서했던 것처럼 Pima 당뇨병 데이터 세트를로드해야합니다.

path = r"C:\pima-indians-diabetes.csv"
headernames = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(path, names=headernames)
array = data.values

다음으로 피처 유니온은 다음과 같이 생성됩니다.

features = []
features.append(('pca', PCA(n_components=3)))
features.append(('select_best', SelectKBest(k=6)))
feature_union = FeatureUnion(features)

다음으로 파이프 라인은 다음 스크립트 줄의 도움으로 생성됩니다.

estimators = []
estimators.append(('feature_union', feature_union))
estimators.append(('logistic', LogisticRegression()))
model = Pipeline(estimators)

마지막으로이 파이프 라인을 평가하고 다음과 같이 정확도를 출력 할 것입니다.

kfold = KFold(n_splits=20, random_state=7)
results = cross_val_score(model, X, Y, cv=kfold)
print(results.mean())

산출

0.7789811066126855

위의 출력은 데이터 세트 설정의 정확성에 대한 요약입니다.