Python의 로지스틱 회귀-데이터 재구성
어떤 조직이 설문 조사를 수행 할 때마다 고객으로부터 가능한 한 많은 정보를 수집하려고 시도하며이 정보가 나중에 조직에 유용 할 것이라는 생각으로합니다. 현재 문제를 해결하기 위해 우리는 문제와 직접적으로 관련된 정보를 수집해야합니다.
모든 필드 표시
이제 유용한 데이터 필드를 선택하는 방법을 살펴 보겠습니다. 코드 편집기에서 다음 문을 실행합니다.
In [6]: print(list(df.columns))
다음 출력이 표시됩니다.
['age', 'job', 'marital', 'education', 'default', 'housing', 'loan',
'contact', 'month', 'day_of_week', 'duration', 'campaign', 'pdays',
'previous', 'poutcome', 'emp_var_rate', 'cons_price_idx', 'cons_conf_idx',
'euribor3m', 'nr_employed', 'y']
출력에는 데이터베이스의 모든 열 이름이 표시됩니다. 마지막 열 "y"는이 고객이 은행에 정기 예금을 가지고 있는지 여부를 나타내는 부울 값입니다. 이 필드의 값은 "y"또는 "n"입니다. 데이터의 일부로 다운로드 된 banks-name.txt 파일에서 각 열의 설명과 목적을 읽을 수 있습니다.
원하지 않는 필드 제거
열 이름을 살펴보면 일부 필드가 당면한 문제에 아무런 의미가 없음을 알 수 있습니다. 예를 들어, 다음과 같은 필드month, day_of_week, 캠페인 등은 우리에게 소용이 없습니다. 데이터베이스에서 이러한 필드를 제거합니다. 열을 삭제하려면 아래와 같이 drop 명령을 사용합니다.
In [8]: #drop columns which are not needed.
df.drop(df.columns[[0, 3, 7, 8, 9, 10, 11, 12, 13, 15, 16, 17, 18, 19]],
axis = 1, inplace = True)
이 명령은 열 번호 0, 3, 7, 8 등을 삭제한다고 말합니다. 색인이 올바르게 선택되었는지 확인하려면 다음 문을 사용하십시오.
In [7]: df.columns[9]
Out[7]: 'day_of_week'
이것은 주어진 인덱스에 대한 열 이름을 인쇄합니다.
필요하지 않은 컬럼을 삭제 한 후 head 문으로 데이터를 검사하십시오. 화면 출력은 다음과 같습니다.
In [9]: df.head()
Out[9]:
job marital default housing loan poutcome y
0 blue-collar married unknown yes no nonexistent 0
1 technician married no no no nonexistent 0
2 management single no yes no success 1
3 services married no no no nonexistent 0
4 retired married no yes no success 1
이제 데이터 분석 및 예측에 중요하다고 생각되는 분야 만 있습니다. 중요성Data Scientist이 단계에서 그림이 나타납니다. 데이터 과학자는 모델 구축에 적합한 열을 선택해야합니다.
예를 들어 job언뜻보기에는 모든 사람이 데이터베이스에 포함되도록 설득하지는 못하지만 매우 유용한 분야가 될 것입니다. 모든 유형의 고객이 TD를 열지는 않습니다. 저소득층은 TD를 열지 못할 수 있지만 고소득층은 일반적으로 초과 자금을 TD에 보관합니다. 따라서이 시나리오에서는 직업 유형이 상당히 관련이 있습니다. 마찬가지로 분석과 관련이 있다고 생각되는 열을 신중하게 선택하십시오.
다음 장에서는 모델 구축을위한 데이터를 준비합니다.