Python의 로지스틱 회귀-빠른 가이드
로지스틱 회귀는 개체를 통계적으로 분류하는 방법입니다. 이 장에서는 몇 가지 예를 사용하여 로지스틱 회귀를 소개합니다.
분류
로지스틱 회귀를 이해하려면 분류의 의미를 알아야합니다. 이것을 더 잘 이해하기 위해 다음 예제를 고려해 보겠습니다.
- 의사는 종양을 악성 또는 양성으로 분류합니다.
- 은행 거래는 사기이거나 진짜 일 수 있습니다.
수년 동안 인간은 오류가 발생하기 쉽지만 이러한 작업을 수행해 왔습니다. 문제는 이러한 작업을보다 정확하게 수행하도록 기계를 훈련시킬 수 있는가?
분류를 수행하는 기계의 한 가지 예는 이메일입니다. Client모든 수신 메일을 "스팸"또는 "스팸 아님"으로 분류하고 상당히 정확하게 수행합니다. 로지스틱 회귀 통계 기법이 이메일 클라이언트에 성공적으로 적용되었습니다. 이 경우 분류 문제를 해결하도록 기계를 훈련했습니다.
로지스틱 회귀는 이러한 종류의 이진 분류 문제를 해결하는 데 사용되는 기계 학습의 한 부분 일뿐입니다. 이미 개발되어 다른 종류의 문제를 해결하기 위해 실제로 사용되고있는 몇 가지 다른 기계 학습 기술이 있습니다.
위의 모든 예에서 예측의 결과는 예 또는 아니오라는 두 가지 값만 가지고 있습니다.이를 클래스라고 부르기 때문에 분류자가 객체를 두 클래스로 분류한다고 말합니다. 기술적 인 측면에서 결과 또는 목표 변수는 본질적으로 이분법 적이라고 말할 수 있습니다.
출력이 두 개 이상의 클래스로 분류 될 수있는 다른 분류 문제가 있습니다. 예를 들어, 과일로 가득 찬 바구니가 주어지면 다른 종류의 과일을 분리해야합니다. 이제 바구니에는 오렌지, 사과, 망고 등이 포함될 수 있습니다. 따라서 과일을 분리 할 때 두 개 이상의 클래스로 분리합니다. 이것은 다변량 분류 문제입니다.
은행이 정기 예금 (일부 은행에서는 정기 예금이라고도 함)을 개설 할 잠재 고객을 식별하는 데 도움이되는 기계 학습 애플리케이션을 개발하기 위해 접근하는 것을 고려하십시오. 은행은 잠재 고객에 대한 정보를 수집하기 위해 전화 통화 또는 웹 양식을 통해 정기적으로 설문 조사를 실시합니다. 설문 조사는 본질적으로 일반적이며이 은행 자체를 다루는 데 관심이없는 매우 많은 청중을 대상으로 수행됩니다. 나머지 중 일부만이 정기 예금에 관심이있을 수 있습니다. 다른 사람들은 은행에서 제공하는 다른 시설에 관심이있을 수 있습니다. 따라서 설문 조사는 TD를 여는 고객을 식별하기 위해 반드시 수행되는 것은 아닙니다. 귀하의 임무는 은행이 귀하와 공유 할 방대한 설문 조사 데이터에서 TD를 열 가능성이 높은 모든 고객을 식별하는 것입니다.
다행히도 이러한 종류의 데이터 중 하나는 기계 학습 모델을 개발하려는 사람들에게 공개적으로 제공됩니다. 이 데이터는 UC Irvine의 일부 학생들이 외부 자금으로 준비했습니다. 데이터베이스는 다음의 일부로 사용할 수 있습니다.UCI Machine Learning Repository전 세계의 학생, 교육자 및 연구원이 널리 사용합니다. 데이터는 여기 에서 다운로드 할 수 있습니다 .
다음 장에서는 동일한 데이터를 사용하여 애플리케이션 개발을 수행해 보겠습니다.
이 장에서는 Python에서 로지스틱 회귀를 수행하기위한 프로젝트 설정과 관련된 프로세스를 자세히 이해합니다.
Jupyter 설치
우리는 머신 러닝에 가장 널리 사용되는 플랫폼 중 하나 인 Jupyter를 사용할 것입니다. 컴퓨터에 Jupyter가 설치되어 있지 않은 경우 여기 에서 다운로드 하십시오 . 설치를 위해 해당 사이트의 지침에 따라 플랫폼을 설치할 수 있습니다. 사이트에서 알 수 있듯이Anaconda Distribution이는 Python 및 과학 컴퓨팅 및 데이터 과학을 위해 일반적으로 사용되는 많은 Python 패키지와 함께 제공됩니다. 이렇게하면 이러한 패키지를 개별적으로 설치할 필요성이 줄어 듭니다.
Jupyter를 성공적으로 설치 한 후 새 프로젝트를 시작하면이 단계의 화면이 다음과 같이 코드를 수락 할 준비가됩니다.
이제 프로젝트 이름을 Untitled1 to “Logistic Regression” 제목 이름을 클릭하고 편집합니다.
먼저 코드에 필요한 몇 가지 Python 패키지를 가져올 것입니다.
Python 패키지 가져 오기
이를 위해 코드 편집기에서 다음 코드를 입력하거나 잘라내어 붙여 넣습니다.
In [1]: # import statements
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn import preprocessing
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
너의 Notebook 이 단계에서 다음과 같이 보일 것입니다-
클릭하여 코드를 실행하십시오. Run단추. 오류가 생성되지 않으면 Jupyter를 성공적으로 설치 한 것이며 이제 나머지 개발 준비가 된 것입니다.
처음 세 개의 import 문은 프로젝트에서 pandas, numpy 및 matplotlib.pyplot 패키지를 가져옵니다. 다음 세 개의 문은 sklearn에서 지정된 모듈을 가져옵니다.
다음 작업은 프로젝트에 필요한 데이터를 다운로드하는 것입니다. 다음 장에서 이에 대해 알아볼 것입니다.
Python에서 로지스틱 회귀를 수행하기위한 데이터를 가져 오는 단계는이 장에서 자세히 설명합니다.
데이터 세트 다운로드
앞서 언급 한 UCI 데이터 세트를 아직 다운로드하지 않은 경우 여기 에서 지금 다운로드 하십시오 . 데이터 폴더를 클릭하십시오. 다음 화면이 표시됩니다-
주어진 링크를 클릭하여 bank.zip 파일을 다운로드하십시오. zip 파일에는 다음 파일이 포함되어 있습니다.
모델 개발에 bank.csv 파일을 사용합니다. bank-names.txt 파일에는 나중에 필요할 데이터베이스에 대한 설명이 포함되어 있습니다. bank-full.csv에는 고급 개발에 사용할 수있는 훨씬 더 큰 데이터 세트가 포함되어 있습니다.
여기에 다운로드 가능한 소스 zip에 bank.csv 파일이 포함되어 있습니다. 이 파일은 쉼표로 구분 된 필드를 포함합니다. 또한 파일을 몇 가지 수정했습니다. 학습을 위해 프로젝트 소스 zip에 포함 된 파일을 사용하는 것이 좋습니다.
데이터로드
방금 복사 한 csv 파일에서 데이터를로드하려면 다음 문을 입력하고 코드를 실행합니다.
In [2]: df = pd.read_csv('bank.csv', header=0)
다음 코드 문을 실행하여로드 된 데이터를 검사 할 수도 있습니다.
IN [3]: df.head()
명령이 실행되면 다음 출력이 표시됩니다.
기본적으로로드 된 데이터의 처음 5 개 행을 인쇄했습니다. 존재하는 21 개의 열을 조사하십시오. 모델 개발을 위해이 열 중 몇 개만 사용할 것입니다.
다음으로 데이터를 정리해야합니다. 데이터에는NaN. 이러한 행을 제거하려면 다음 명령을 사용하십시오.
IN [4]: df = df.dropna()
다행히 bank.csv에는 NaN이있는 행이 포함되어 있지 않으므로이 단계는 우리의 경우 실제로 필요하지 않습니다. 그러나 일반적으로 거대한 데이터베이스에서 이러한 행을 발견하는 것은 어렵습니다. 따라서 데이터를 정리하기 위해 위의 문을 실행하는 것이 항상 더 안전합니다.
Note − 다음 문을 사용하여 언제든지 데이터 크기를 쉽게 확인할 수 있습니다.
IN [5]: print (df.shape)
(41188, 21)
행과 열의 수는 위의 두 번째 줄에 표시된 것처럼 출력에 인쇄됩니다.
다음으로 할 일은 우리가 구축하려는 모델에 대한 각 열의 적합성을 검사하는 것입니다.
어떤 조직이 설문 조사를 수행 할 때마다 고객으로부터 가능한 한 많은 정보를 수집하려고 시도하며이 정보가 나중에 조직에 유용 할 것이라는 생각으로합니다. 현재 문제를 해결하기 위해 우리는 문제와 직접적으로 관련된 정보를 수집해야합니다.
모든 필드 표시
이제 유용한 데이터 필드를 선택하는 방법을 살펴 보겠습니다. 코드 편집기에서 다음 문을 실행합니다.
In [6]: print(list(df.columns))
다음 출력이 표시됩니다.
['age', 'job', 'marital', 'education', 'default', 'housing', 'loan',
'contact', 'month', 'day_of_week', 'duration', 'campaign', 'pdays',
'previous', 'poutcome', 'emp_var_rate', 'cons_price_idx', 'cons_conf_idx',
'euribor3m', 'nr_employed', 'y']
출력에는 데이터베이스의 모든 열 이름이 표시됩니다. 마지막 열 "y"는이 고객이 은행에 정기 예금을 가지고 있는지 여부를 나타내는 부울 값입니다. 이 필드의 값은 "y"또는 "n"입니다. 데이터의 일부로 다운로드 된 banks-name.txt 파일에서 각 열의 설명과 목적을 읽을 수 있습니다.
원하지 않는 필드 제거
열 이름을 살펴보면 일부 필드가 당면한 문제에 아무런 의미가 없음을 알 수 있습니다. 예를 들어, 다음과 같은 필드month, day_of_week, 캠페인 등은 우리에게 소용이 없습니다. 데이터베이스에서 이러한 필드를 제거합니다. 열을 삭제하려면 아래와 같이 drop 명령을 사용합니다.
In [8]: #drop columns which are not needed.
df.drop(df.columns[[0, 3, 7, 8, 9, 10, 11, 12, 13, 15, 16, 17, 18, 19]],
axis = 1, inplace = True)
이 명령은 열 번호 0, 3, 7, 8 등을 삭제한다고 말합니다. 색인이 올바르게 선택되었는지 확인하려면 다음 문을 사용하십시오.
In [7]: df.columns[9]
Out[7]: 'day_of_week'
이것은 주어진 인덱스에 대한 열 이름을 인쇄합니다.
필요하지 않은 컬럼을 삭제 한 후 head 문으로 데이터를 검사하십시오. 화면 출력은 다음과 같습니다.
In [9]: df.head()
Out[9]:
job marital default housing loan poutcome y
0 blue-collar married unknown yes no nonexistent 0
1 technician married no no no nonexistent 0
2 management single no yes no success 1
3 services married no no no nonexistent 0
4 retired married no yes no success 1
이제 데이터 분석 및 예측에 중요하다고 생각되는 분야 만 있습니다. 중요성Data Scientist이 단계에서 그림이 나타납니다. 데이터 과학자는 모델 구축에 적합한 열을 선택해야합니다.
예를 들어 job언뜻보기에는 모든 사람이 데이터베이스에 포함되도록 설득하지는 못하지만 매우 유용한 분야가 될 것입니다. 모든 유형의 고객이 TD를 열지는 않습니다. 저소득층은 TD를 열지 못할 수 있지만 고소득층은 일반적으로 초과 자금을 TD에 보관합니다. 따라서이 시나리오에서는 직업 유형이 상당히 관련이 있습니다. 마찬가지로 분석과 관련이 있다고 생각되는 열을 신중하게 선택하십시오.
다음 장에서는 모델 구축을위한 데이터를 준비합니다.
분류자를 생성하려면 분류 자 작성 모듈에서 요청하는 형식으로 데이터를 준비해야합니다. 데이터를 준비합니다.One Hot Encoding.
데이터 인코딩
데이터 인코딩이 의미하는 바에 대해 간단히 설명하겠습니다. 먼저 코드를 실행 해 보겠습니다. 코드 창에서 다음 명령을 실행하십시오.
In [10]: # creating one hot encoding of the categorical columns.
data = pd.get_dummies(df, columns =['job', 'marital', 'default', 'housing', 'loan', 'poutcome'])
주석이 말했듯이 위의 문은 데이터의 핫 인코딩을 생성합니다. 그것이 무엇을 만들어 냈는지 봅시다. 라는 생성 된 데이터를 검사합니다.“data” 데이터베이스의 헤드 레코드를 인쇄하여.
In [11]: data.head()
다음 출력이 표시됩니다.
위의 데이터를 이해하기 위해 다음을 실행하여 열 이름을 나열합니다. data.columns 아래와 같이 명령-
In [12]: data.columns
Out[12]: Index(['y', 'job_admin.', 'job_blue-collar', 'job_entrepreneur',
'job_housemaid', 'job_management', 'job_retired', 'job_self-employed',
'job_services', 'job_student', 'job_technician', 'job_unemployed',
'job_unknown', 'marital_divorced', 'marital_married', 'marital_single',
'marital_unknown', 'default_no', 'default_unknown', 'default_yes',
'housing_no', 'housing_unknown', 'housing_yes', 'loan_no',
'loan_unknown', 'loan_yes', 'poutcome_failure', 'poutcome_nonexistent',
'poutcome_success'], dtype='object')
이제 하나의 핫 인코딩이 get_dummies명령. 새로 생성 된 데이터베이스의 첫 번째 열은이 클라이언트가 TD에 가입했는지 여부를 나타내는 "y"필드입니다. 이제 인코딩 된 열을 살펴 보겠습니다. 인코딩 된 첫 번째 열은“job”. 데이터베이스에서 "job"열에는 "admin", "blue-collar", "entrepreneur"등과 같은 많은 가능한 값이 있습니다. 가능한 각 값에 대해 데이터베이스에 열 이름이 접두사로 추가 된 새 열이 생성됩니다.
따라서 "job_admin", "job_blue-collar"등의 열이 있습니다. 원래 데이터베이스의 인코딩 된 각 필드에 대해 생성 된 데이터베이스에 추가 된 열 목록과 해당 열이 원래 데이터베이스에서 가져 오는 가능한 모든 값을 찾을 수 있습니다. 데이터가 새 데이터베이스에 매핑되는 방식을 이해하려면 열 목록을주의 깊게 검토하십시오.
데이터 매핑 이해
생성 된 데이터를 이해하기 위해 data 명령을 사용하여 전체 데이터를 인쇄 해 보겠습니다. 명령을 실행 한 후의 일부 출력은 다음과 같습니다.
In [13]: data
위 화면은 처음 12 개 행을 보여줍니다. 더 아래로 스크롤하면 모든 행에 대해 매핑이 완료된 것을 볼 수 있습니다.
빠른 참조를 위해 데이터베이스 아래에있는 부분 화면 출력이 여기에 표시됩니다.
매핑 된 데이터를 이해하기 위해 첫 번째 행을 살펴 보겠습니다.
이 고객은 "y"필드의 값으로 표시된대로 TD를 구독하지 않았다고합니다. 또한이 고객이 "생산직"고객임을 나타냅니다. 수평으로 아래로 스크롤하면 그가 "주택"이 있고 "대출"을받지 않았 음을 알려줍니다.
이 핫 인코딩 후 모델 구축을 시작하기 전에 데이터 처리가 더 필요합니다.
"알 수 없음"삭제
매핑 된 데이터베이스의 열을 살펴보면 "unknown"으로 끝나는 열이 거의 없음을 알 수 있습니다. 예를 들어, 스크린 샷에 표시된 다음 명령을 사용하여 인덱스 12의 열을 검사합니다.
In [14]: data.columns[12]
Out[14]: 'job_unknown'
이는 지정된 고객의 작업을 알 수 없음을 나타냅니다. 분명히 우리의 분석 및 모델 구축에 이러한 열을 포함하는 것은 의미가 없습니다. 따라서 "알 수없는"값을 가진 모든 열을 삭제해야합니다. 이것은 다음 명령으로 수행됩니다-
In [15]: data.drop(data.columns[[12, 16, 18, 21, 24]], axis=1, inplace=True)
올바른 열 번호를 지정했는지 확인하십시오. 의심스러운 경우에는 앞에서 설명한대로 columns 명령에 색인을 지정하여 언제든지 열 이름을 검사 할 수 있습니다.
원하지 않는 열을 삭제 한 후 아래 출력과 같이 최종 열 목록을 검토 할 수 있습니다.
In [16]: data.columns
Out[16]: Index(['y', 'job_admin.', 'job_blue-collar', 'job_entrepreneur',
'job_housemaid', 'job_management', 'job_retired', 'job_self-employed',
'job_services', 'job_student', 'job_technician', 'job_unemployed',
'marital_divorced', 'marital_married', 'marital_single', 'default_no',
'default_yes', 'housing_no', 'housing_yes', 'loan_no', 'loan_yes',
'poutcome_failure', 'poutcome_nonexistent', 'poutcome_success'],
dtype='object')
이 시점에서 데이터는 모델 구축을위한 준비가되었습니다.
우리는 약 4 만개의 이상한 기록을 가지고 있습니다. 전체 데이터를 모델 구축에 사용하면 테스트 용 데이터가 남지 않습니다. 따라서 일반적으로 전체 데이터 세트를 70/30 비율로 두 부분으로 나눕니다. 데이터의 70 %는 모델 구축에 사용하고 나머지는 생성 된 모델의 예측 정확도를 테스트하는 데 사용합니다. 요구 사항에 따라 다른 분할 비율을 사용할 수 있습니다.
기능 배열 생성
데이터를 분할하기 전에 데이터를 X와 Y의 두 배열로 분리합니다. X 배열은 분석하려는 모든 기능 (데이터 열)을 포함하고 Y 배열은 다음의 출력 인 부울 값의 1 차원 배열입니다. 예측. 이를 이해하기 위해 몇 가지 코드를 실행 해 보겠습니다.
먼저 다음 Python 문을 실행하여 X 배열을 만듭니다.
In [17]: X = data.iloc[:,1:]
내용을 검토하려면 X 사용하다 head몇 가지 초기 레코드를 인쇄합니다. 다음 화면은 X 배열의 내용을 보여줍니다.
In [18]: X.head ()
배열에는 여러 행과 23 개의 열이 있습니다.
다음으로“y”값.
출력 배열 생성
예측 값 열에 대한 배열을 만들려면 다음 Python 문을 사용하십시오.
In [19]: Y = data.iloc[:,0]
호출하여 내용을 확인하십시오. head. 아래 화면 출력은 결과를 보여줍니다-
In [20]: Y.head()
Out[20]: 0 0
1 0
2 1
3 0
4 1
Name: y, dtype: int64
이제 다음 명령을 사용하여 데이터를 분할하십시오.
In [21]: X_train, X_test, Y_train, Y_test = train_test_split(X, Y, random_state=0)
이렇게하면 다음과 같은 4 개의 배열이 생성됩니다. X_train, Y_train, X_test, and Y_test. 이전과 마찬가지로 head 명령을 사용하여 이러한 배열의 내용을 검사 할 수 있습니다. 모델 학습에는 X_train 및 Y_train 배열을 사용하고 테스트 및 유효성 검사에는 X_test 및 Y_test 배열을 사용합니다.
이제 분류기를 만들 준비가되었습니다. 다음 장에서 살펴 보겠습니다.
분류기를 처음부터 만들 필요는 없습니다. 분류기를 구축하는 것은 복잡하며 통계, 확률 이론, 최적화 기술 등과 같은 여러 영역에 대한 지식이 필요합니다. 이러한 분류기를 완벽하게 테스트하고 매우 효율적으로 구현 한 여러 사전 빌드 된 라이브러리가 시장에 나와 있습니다. 우리는 미리 만들어진 모델을sklearn.
sklearn 분류기
sklearn 툴킷에서 로지스틱 회귀 분류기를 만드는 것은 간단하며 여기에 표시된 것처럼 단일 프로그램 문에서 수행됩니다.
In [22]: classifier = LogisticRegression(solver='lbfgs',random_state=0)
분류 기가 생성되면 학습 데이터를 분류기에 공급하여 내부 매개 변수를 조정하고 향후 데이터에 대한 예측을 준비 할 수 있도록합니다. 분류기를 조정하기 위해 다음 문을 실행합니다.
In [23]: classifier.fit(X_train, Y_train)
이제 분류기를 테스트 할 준비가되었습니다. 다음 코드는 위의 두 명령문을 실행 한 결과입니다.
Out[23]: LogisticRegression(C = 1.0, class_weight = None, dual = False,
fit_intercept=True, intercept_scaling=1, max_iter=100,
multi_class='warn', n_jobs=None, penalty='l2', random_state=0,
solver='lbfgs', tol=0.0001, verbose=0, warm_start=False))
이제 생성 된 분류기를 테스트 할 준비가되었습니다. 다음 장에서이를 다룰 것입니다.
위에서 만든 분류기를 프로덕션 용도로 사용하기 전에 테스트해야합니다. 테스트 결과 모델이 원하는 정확도를 충족하지 않는 것으로 밝혀지면 위의 프로세스로 돌아가서 다른 기능 세트 (데이터 필드)를 선택하고 모델을 다시 빌드 한 다음 테스트해야합니다. 이는 분류 기가 원하는 정확도 요구 사항을 충족 할 때까지 반복되는 단계입니다. 이제 분류기를 테스트 해 보겠습니다.
테스트 데이터 예측
분류기를 테스트하기 위해 이전 단계에서 생성 된 테스트 데이터를 사용합니다. 우리는predict 생성 된 개체에 메서드를 전달하고 X 다음 명령에 표시된대로 테스트 데이터의 배열-
In [24]: predicted_y = classifier.predict(X_test)
이것은 X 배열의 각 행에 대한 예측을 제공하는 전체 훈련 데이터 세트에 대한 단일 차원 배열을 생성합니다. 다음 명령을 사용하여이 배열을 검사 할 수 있습니다.
In [25]: predicted_y
다음은 위의 두 명령을 실행했을 때의 출력입니다.
Out[25]: array([0, 0, 0, ..., 0, 0, 0])
출력은 처음과 마지막 세 고객이 잠재적 인 후보가 아님을 나타냅니다. Term Deposit. 전체 어레이를 검사하여 잠재 고객을 분류 할 수 있습니다. 그렇게하려면 다음 Python 코드 스 니펫을 사용하십시오.
In [26]: for x in range(len(predicted_y)):
if (predicted_y[x] == 1):
print(x, end="\t")
위 코드를 실행 한 결과는 다음과 같습니다.
출력에는 TD를 구독 할 가능성이있는 모든 행의 인덱스가 표시됩니다. 이제 선택한 행에있는 각 고객의 연락처 세부 정보를 선택하고 작업을 진행하는 은행의 마케팅 팀에이 출력을 제공 할 수 있습니다.
이 모델을 프로덕션에 적용하기 전에 예측의 정확성을 확인해야합니다.
정확성 확인
모델의 정확도를 테스트하려면 아래와 같이 분류기에서 점수 방법을 사용하십시오.
In [27]: print('Accuracy: {:.2f}'.format(classifier.score(X_test, Y_test)))
이 명령을 실행 한 화면 출력은 다음과 같습니다.
Accuracy: 0.90
우리 모델의 정확도는 90 %로 대부분의 응용 분야에서 매우 우수한 것으로 간주됩니다. 따라서 추가 조정이 필요하지 않습니다. 이제 고객은 다음 캠페인을 실행하고 잠재 고객 목록을 가져 와서 성공률이 높은 TD를 시작하기 위해 추적 할 준비가되었습니다.
위의 예에서 보았 듯이 기계 학습에 로지스틱 회귀를 적용하는 것은 어려운 작업이 아닙니다. 그러나 자체 한계가 있습니다. 로지스틱 회귀는 많은 수의 범주 기능을 처리 할 수 없습니다. 지금까지 논의한 예에서는 기능의 수를 매우 많이 줄였습니다.
그러나 이러한 특성이 예측에서 중요하다면이를 포함해야했지만 로지스틱 회귀 분석이 좋은 정확도를 제공하지 못할 것입니다. 로지스틱 회귀는 또한 과적 합에 취약합니다. 비선형 문제에는 적용 할 수 없습니다. 목표와 상관 관계가없고 서로 상관 관계가있는 독립 변수의 경우 성능이 떨어집니다. 따라서 해결하려는 문제에 대한 로지스틱 회귀의 적합성을 신중하게 평가해야합니다.
다른 기술이 고안된 기계 학습 영역이 많이 있습니다. 몇 가지 예를 들자면 kNN (k-nearest neighbors), 선형 회귀, SVM (Support Vector Machine), 의사 결정 트리, Naive Bayes 등과 같은 알고리즘이 있습니다. 특정 모델을 마무리하기 전에 해결하려는 문제에 대한 이러한 다양한 기술의 적용 가능성을 평가해야합니다.
로지스틱 회귀는 이진 분류의 통계 기법입니다. 이 자습서에서는 로지스틱 회귀를 사용하도록 기계를 훈련하는 방법을 배웠습니다. 기계 학습 모델을 만들 때 가장 중요한 요구 사항은 데이터의 가용성입니다. 적절하고 관련성있는 데이터 없이는 단순히 기계를 학습하도록 만들 수 없습니다.
데이터가 있으면 다음 주요 작업은 데이터를 정리하고 원하지 않는 행과 필드를 제거하고 모델 개발에 적합한 필드를 선택하는 것입니다. 이 작업이 완료되면 분류자가 학습에 필요한 형식으로 데이터를 매핑해야합니다. 따라서 데이터 준비는 모든 기계 학습 응용 프로그램에서 중요한 작업입니다. 데이터가 준비되면 특정 유형의 분류자를 선택할 수 있습니다.
이 자습서에서는에 제공된 로지스틱 회귀 분류기를 사용하는 방법을 배웠습니다. sklearn도서관. 분류기를 훈련하기 위해 데이터의 약 70 %를 모델 훈련에 사용합니다. 나머지 데이터는 테스트에 사용합니다. 모델의 정확성을 테스트합니다. 허용 가능한 한도 내에 있지 않으면 새로운 기능 세트를 선택하는 단계로 돌아갑니다.
다시 한 번, 데이터 준비의 전체 프로세스를 따르고, 모델을 훈련하고, 정확도에 만족할 때까지 테스트하십시오. 기계 학습 프로젝트를 시작하기 전에 지금까지 개발되어 업계에 성공적으로 적용된 다양한 기술을 배우고 이에 노출되어야합니다.