Python의 로지스틱 회귀-데이터 가져 오기

Python에서 로지스틱 회귀를 수행하기위한 데이터를 가져 오는 단계는이 장에서 자세히 설명합니다.

데이터 세트 다운로드

앞서 언급 한 UCI 데이터 세트를 아직 다운로드하지 않은 경우 여기 에서 지금 다운로드 하십시오 . 데이터 폴더를 클릭하십시오. 다음 화면이 표시됩니다-

주어진 링크를 클릭하여 bank.zip 파일을 다운로드하십시오. zip 파일에는 다음 파일이 포함되어 있습니다.

모델 개발을 위해 bank.csv 파일을 사용합니다. bank-names.txt 파일에는 나중에 필요할 데이터베이스에 대한 설명이 포함되어 있습니다. bank-full.csv에는 고급 개발에 사용할 수있는 훨씬 더 큰 데이터 세트가 포함되어 있습니다.

여기에 다운로드 가능한 소스 zip에 bank.csv 파일이 포함되어 있습니다. 이 파일은 쉼표로 구분 된 필드를 포함합니다. 또한 파일을 몇 가지 수정했습니다. 학습을 위해 프로젝트 소스 zip에 포함 된 파일을 사용하는 것이 좋습니다.

데이터로드

방금 복사 한 csv 파일에서 데이터를로드하려면 다음 문을 입력하고 코드를 실행합니다.

In [2]: df = pd.read_csv('bank.csv', header=0)

다음 코드 문을 실행하여로드 된 데이터를 검사 할 수도 있습니다.

IN [3]: df.head()

명령이 실행되면 다음 출력이 표시됩니다.

기본적으로로드 된 데이터의 처음 5 개 행을 인쇄했습니다. 존재하는 21 개의 열을 조사하십시오. 모델 개발을 위해이 열 중 몇 개만 사용할 것입니다.

다음으로 데이터를 정리해야합니다. 데이터에는NaN. 이러한 행을 제거하려면 다음 명령을 사용하십시오.

IN [4]: df = df.dropna()

다행히 bank.csv에는 NaN이있는 행이 포함되어 있지 않으므로이 단계는 우리의 경우 실제로 필요하지 않습니다. 그러나 일반적으로 거대한 데이터베이스에서 이러한 행을 발견하는 것은 어렵습니다. 따라서 데이터를 정리하기 위해 위의 문을 실행하는 것이 항상 더 안전합니다.

Note − 다음 문을 사용하여 언제든지 데이터 크기를 쉽게 확인할 수 있습니다.

IN [5]: print (df.shape)
(41188, 21)

위의 두 번째 줄에 표시된대로 행과 열의 수가 출력에 인쇄됩니다.

다음으로 할 일은 우리가 구축하려는 모델에 대한 각 열의 적합성을 검사하는 것입니다.