Python을 사용한 기계 학습-생태계

Python 소개

Python은 고급 프로그래밍 언어의 기능을 가진 인기있는 객체 지향 프로그래밍 언어입니다. 배우기 쉬운 구문과 이식성 기능으로 인해 요즘 인기가 있습니다. 다음 사실은 우리에게 파이썬을 소개합니다.

  • Python은 네덜란드 Stichting Mathematisch Centrum의 Guido van Rossum이 개발했습니다.

  • 그것은 'ABC'라는 프로그래밍 언어의 후계자로 작성되었습니다.

  • 1991 년에 첫 번째 버전이 출시되었습니다.

  • Python이라는 이름은 Monty Python의 Flying Circus라는 TV 쇼에서 Guido van Rossum이 선택했습니다.

  • 오픈 소스 프로그래밍 언어로 자유롭게 다운로드하여 프로그램 개발에 사용할 수 있습니다. www.python.org 에서 다운로드 할 수 있습니다 .

  • Python 프로그래밍 언어에는 Java와 C의 기능이 모두 있습니다. 그것은 우아한 'C'코드를 가지고 있고 반면에 객체 지향 프로그래밍을 위해 Java와 같은 클래스와 객체를 가지고 있습니다.

  • 이것은 해석 된 언어로, 파이썬 프로그램의 소스 코드가 먼저 바이트 코드로 변환 된 다음 파이썬 가상 머신에 의해 실행된다는 것을 의미합니다.

Python의 강점과 약점

모든 프로그래밍 언어에는 몇 가지 장점과 약점이 있습니다. 파이썬도 마찬가지입니다.

강점

연구 및 설문 조사에 따르면 Python은 기계 학습 및 데이터 과학에서 가장 널리 사용되는 언어이자 5 번째로 중요한 언어입니다. 파이썬이 가지고있는 다음과 같은 장점 때문입니다.

Easy to learn and understand− Python의 구문은 더 간단합니다. 따라서 초보자도 언어를 배우고 이해하는 것이 비교적 쉽습니다.

Multi-purpose language − Python은 구조화 된 프로그래밍, 객체 지향 프로그래밍 및 함수형 프로그래밍을 지원하기 때문에 다목적 프로그래밍 언어입니다.

Huge number of modules− Python에는 프로그래밍의 모든 측면을 다루는 수많은 모듈이 있습니다. 이러한 모듈은 쉽게 사용할 수 있으므로 Python을 확장 가능한 언어로 만듭니다.

Support of open source community− 오픈 소스 프로그래밍 언어 인 Python은 대규모 개발자 커뮤니티에서 지원합니다. 이로 인해 버그는 Python 커뮤니티에서 쉽게 수정됩니다. 이 특성은 Python을 매우 강력하고 적응력있게 만듭니다.

Scalability − Python은 쉘 스크립트보다 큰 프로그램을 지원하기 위해 개선 된 구조를 제공하기 때문에 확장 가능한 프로그래밍 언어입니다.

약점

Python은 널리 사용되는 강력한 프로그래밍 언어이지만 실행 속도가 느린 단점이 있습니다.

Python은 해석 언어이기 때문에 컴파일 된 언어에 비해 Python의 실행 속도가 느립니다. 이것은 Python 커뮤니티의 주요 개선 영역이 될 수 있습니다.

Python 설치

Python으로 작업하려면 먼저 설치해야합니다. 다음 두 가지 방법 중 하나로 Python 설치를 수행 할 수 있습니다.

  • 개별적으로 Python 설치

  • 사전 패키지 된 Python 배포 사용-Anaconda

각각에 대해 자세히 논의하겠습니다.

개별적으로 Python 설치

컴퓨터에 Python을 설치하려면 플랫폼에 적용 할 수있는 바이너리 코드 만 다운로드하면됩니다. Python 배포는 Windows, Linux 및 Mac 플랫폼에서 사용할 수 있습니다.

다음은 위에서 언급 한 플랫폼에 Python을 설치하는 간단한 개요입니다.

On Unix and Linux platform

다음 단계의 도움으로 Unix 및 Linux 플랫폼에 Python을 설치할 수 있습니다.

  • 먼저 www.python.org/downloads/ 로 이동합니다 .

  • 그런 다음 링크를 클릭하여 Unix / Linux에서 사용할 수있는 압축 된 소스 코드를 다운로드합니다.

  • 이제 파일을 다운로드하고 추출하십시오.

  • 다음으로 일부 옵션을 사용자 정의하려는 경우 모듈 / 설정 파일을 편집 할 수 있습니다.

    • 다음으로 명령을 작성하십시오. run ./configure script

    • make

    • 설치하다

On Windows platform

다음 단계를 통해 Windows 플랫폼에 Python을 설치할 수 있습니다.

  • 먼저 www.python.org/downloads/ 로 이동합니다 .

  • 다음으로 Windows 설치 프로그램 python-XYZ.msi 파일 링크를 클릭합니다. 여기서 XYZ는 설치하려는 버전입니다.

  • 이제 다운로드 한 파일을 실행해야합니다. 사용하기 쉬운 Python 설치 마법사로 이동합니다. 이제 기본 설정을 수락하고 설치가 완료 될 때까지 기다립니다.

On Macintosh platform

Mac OS X, Homebrew의 경우 훌륭하고 사용하기 쉬운 패키지 설치 프로그램을 사용하여 Python 3을 설치하는 것이 좋습니다. Homebrew가없는 경우 다음 명령을 사용하여 설치할 수 있습니다.

$ ruby -e "$(curl -fsSL
https://raw.githubusercontent.com/Homebrew/install/master/install)"

아래 명령으로 업데이트 할 수 있습니다.

$ brew update

이제 시스템에 Python3을 설치하려면 다음 명령을 실행해야합니다.

$ brew install python3

사전 패키지 된 Python 배포 사용 : Anaconda

Anaconda는 데이터 과학에서 널리 사용되는 모든 라이브러리를 포함하는 Python 패키지 컴파일입니다. Anaconda를 사용하여 Python 환경을 설정하려면 다음 단계를 따를 수 있습니다.

  • Step 1− 먼저 Anaconda 배포판에서 필요한 설치 패키지를 다운로드해야합니다. 동일한 링크는 www.anaconda.com/distribution/ 입니다. 요구 사항에 따라 Windows, Mac 및 Linux OS 중에서 선택할 수 있습니다.

  • Step 2− 다음으로 컴퓨터에 설치하려는 Python 버전을 선택합니다. 최신 Python 버전은 3.7입니다. 64 비트 및 32 비트 그래픽 설치 프로그램에 대한 옵션이 모두 제공됩니다.

  • Step 3− OS 및 Python 버전을 선택하면 컴퓨터에 Anaconda 설치 프로그램이 다운로드됩니다. 이제 파일을 두 번 클릭하면 설치 프로그램이 Anaconda 패키지를 설치합니다.

  • Step 4 − 설치 여부를 확인하려면 명령 프롬프트를 열고 다음과 같이 Python을 입력합니다. −

www.tutorialspoint.com/python_essentials_online_training/getting_started_with_anaconda.asp의 자세한 비디오 강의에서도이를 확인할 수 있습니다 .

데이터 과학에 Python을 사용해야하는 이유

Python은 기계 학습 및 데이터 과학에서 가장 널리 사용되는 언어이자 다섯 번째로 중요한 언어입니다. 다음은 데이터 과학을위한 선호하는 언어 선택을위한 Python의 기능입니다.

광범위한 패키지 세트

Python에는 다양한 도메인에서 사용할 수있는 광범위하고 강력한 패키지 세트가 있습니다. 또한 다음과 같은 패키지가 있습니다.numpy, scipy, pandas, scikit-learn 기계 학습 및 데이터 과학에 필요한 등.

간편한 프로토 타이핑

데이터 과학을위한 언어를 선택하게하는 Python의 또 다른 중요한 기능은 쉽고 빠른 프로토 타이핑입니다. 이 기능은 새로운 알고리즘을 개발하는 데 유용합니다.

협업 기능

데이터 과학 분야는 기본적으로 훌륭한 협업이 필요하며 Python은이를 극도로 만드는 많은 유용한 도구를 제공합니다.

여러 도메인을위한 하나의 언어

일반적인 데이터 과학 프로젝트에는 데이터 추출, 데이터 조작, 데이터 분석, 기능 추출, 모델링, 평가, 배포 및 솔루션 업데이트와 같은 다양한 영역이 포함됩니다. Python은 다목적 언어이므로 데이터 과학자가 공통 플랫폼에서 이러한 모든 도메인을 처리 할 수 ​​있습니다.

Python ML 생태계의 구성 요소

이 섹션에서는 Python 기계 학습 생태계의 구성 요소를 구성하는 몇 가지 핵심 데이터 과학 라이브러리에 대해 설명하겠습니다. 이러한 유용한 구성 요소는 Python을 데이터 과학의 중요한 언어로 만듭니다. 이러한 구성 요소가 많이 있지만 여기서 Python 생태계의 중요한 구성 요소에 대해 논의하겠습니다.

Jupyter 노트북

Jupyter 노트북은 기본적으로 Python 기반 데이터 과학 애플리케이션을 개발하기위한 대화 형 컴퓨팅 환경을 제공합니다. 이전에는 ipython 노트북으로 알려져 있습니다. 다음은 Jupyter 노트북을 Python ML 생태계의 최고의 구성 요소 중 하나로 만드는 몇 가지 기능입니다.

  • Jupyter 노트북은 코드, 이미지, 텍스트, 출력 등과 같은 항목을 단계별로 정렬하여 분석 프로세스를 단계별로 설명 할 수 있습니다.

  • 데이터 과학자가 분석 프로세스를 개발하는 동안 사고 프로세스를 문서화하는 데 도움이됩니다.

  • 결과를 노트북의 일부로 캡처 할 수도 있습니다.

  • jupyter 노트북의 도움으로 동료와 작업을 공유 할 수도 있습니다.

설치 및 실행

Anaconda 배포판을 사용하는 경우 jupyter 노트북이 이미 설치되어 있으므로 별도로 설치할 필요가 없습니다. Anaconda 프롬프트로 이동하여 다음 명령을 입력하면됩니다.

C:\>jupyter notebook

Enter 키를 누르면 컴퓨터의 localhost : 8888에서 노트북 서버가 시작됩니다. 다음 스크린 샷에 나와 있습니다.

이제 새 탭을 클릭하면 옵션 목록이 표시됩니다. Python 3을 선택하면 작업을 시작할 수있는 새 노트북으로 이동합니다. 다음 스크린 샷에서이를 엿볼 수 있습니다.

반면에 표준 Python 배포를 사용하는 경우 인기있는 Python 패키지 설치 프로그램 인 pip를 사용하여 jupyter 노트북을 설치할 수 있습니다.

pip install jupyter

Jupyter 노트북의 셀 유형

다음은 jupyter 노트북에있는 세 가지 유형의 셀입니다.

Code cells− 이름에서 알 수 있듯이이 셀을 사용하여 코드를 작성할 수 있습니다. 코드 / 내용을 작성한 후 노트북과 관련된 커널로 보냅니다.

Markdown cells− 계산 과정을 표시하기 위해이 셀을 사용할 수 있습니다. 텍스트, 이미지, 라텍스 방정식, HTML 태그 등을 포함 할 수 있습니다.

Raw cells− 기록 된 텍스트는 그대로 표시됩니다. 이 셀은 기본적으로 jupyter 노트북의 자동 변환 메커니즘에 의해 변환되고 싶지 않은 텍스트를 추가하는 데 사용됩니다.

jupyter 노트북에 대한 자세한 연구는 www.tutorialspoint.com/jupyter/index.htm 링크를 참조하십시오 .

NumPy

Python을 데이터 과학에서 가장 선호하는 언어 중 하나로 만드는 또 다른 유용한 구성 요소입니다. 기본적으로 Numerical Python의 약자이며 다차원 배열 객체로 구성됩니다. NumPy를 사용하여 다음과 같은 중요한 작업을 수행 할 수 있습니다.

  • 배열에 대한 수학적 및 논리적 연산.

  • 푸리에 변환

  • 선형 대수와 관련된 연산.

NumPy는 대부분 Scipy (Scientific Python) 및 Mat-plotlib (플로팅 라이브러리)와 함께 사용되기 때문에 NumPy를 MatLab의 대체품으로 볼 수도 있습니다.

Installation and Execution

Anaconda 배포판을 사용하는 경우 NumPy가 이미 설치되어 있으므로 별도로 설치할 필요가 없습니다. 다음의 도움으로 패키지를 Python 스크립트로 가져 오기만하면됩니다.

import numpy as np

반면에 표준 Python 배포를 사용하는 경우 인기있는 Python 패키지 설치 프로그램 인 pip를 사용하여 NumPy를 설치할 수 있습니다.

pip install NumPy

NumPy에 대한 자세한 연구는 www.tutorialspoint.com/numpy/index.htm 링크를 참조하십시오 .

판다

Python을 데이터 과학에서 가장 선호하는 언어 중 하나로 만드는 또 다른 유용한 Python 라이브러리입니다. Pandas는 기본적으로 데이터 조작, 랭 글링 및 분석에 사용됩니다. 2008 년 Wes McKinney에 의해 개발되었습니다. Pandas의 도움으로 데이터 처리에서 다음 5 단계를 수행 할 수 있습니다.

  • Load
  • Prepare
  • Manipulate
  • Model
  • Analyze

Pandas의 데이터 표현

Pandas에서 데이터의 전체 표현은 다음 세 가지 데이터 구조의 도움으로 수행됩니다.

Series− 기본적으로 축 레이블이있는 1 차원 ndarray로 동종 데이터가있는 단순한 배열과 같습니다. 예를 들어, 다음 시리즈는 정수 1,5,10,15,24,25 ...

1 5 10 15 24 25 28 36 40 89

Data frame− 가장 유용한 데이터 구조이며 팬더에서 거의 모든 종류의 데이터 표현 및 조작에 사용됩니다. 기본적으로 이기종 데이터를 포함 할 수있는 2 차원 데이터 구조입니다. 일반적으로 테이블 형식 데이터는 데이터 프레임을 사용하여 표시됩니다. 예를 들어, 다음 표는 이름과 롤 번호, 나이 및 성별을 가진 학생들의 데이터를 보여줍니다.

이름 롤 번호 나이 성별
Aarav 1 15 남성
Harshit 2 14 남성
카니 카 16 여자
Mayank 4 15 남성

Panel− 이기종 데이터를 포함하는 3 차원 데이터 구조입니다. 패널을 그래픽으로 표현하는 것은 매우 어렵지만 DataFrame의 컨테이너로 설명 할 수 있습니다.

다음 표는 위에서 언급 한 Pandas에서 사용 된 데이터 구조에 대한 차원과 설명을 제공합니다.

데이터 구조 치수 기술
시리즈 1-D 불변의 1 차원 동종 데이터 크기
데이터 프레임 2-D 테이블 형식의 가변, 이기종 데이터 크기 조정
패널 3 차원 크기 변경이 가능한 배열, DataFrame의 컨테이너.

고차원 데이터 구조가 저 차원 데이터 구조의 컨테이너이므로 이러한 데이터 구조를 이해할 수 있습니다.

설치 및 실행

Anaconda 배포판을 사용하는 경우 Pandas가 이미 설치되어 있으므로 별도로 설치할 필요가 없습니다. 다음의 도움으로 패키지를 Python 스크립트로 가져 오기만하면됩니다.

import pandas as pd

반면에 표준 Python 배포를 사용하는 경우 인기있는 Python 패키지 설치 프로그램 인 pip를 사용하여 Pandas를 설치할 수 있습니다.

pip install Pandas

Pandas를 설치 한 후 위와 같이 Python 스크립트로 가져올 수 있습니다.

다음은 Pandas를 사용하여 ndarray에서 시리즈를 만드는 예입니다.

In [1]: import pandas as pd

In [2]: import numpy as np

In [3]: data = np.array(['g','a','u','r','a','v'])

In [4]: s = pd.Series(data)

In [5]: print (s)

0 g
1 a
2 u
3 r
4 a
5 v

dtype: object

Pandas에 대한 자세한 연구는 www.tutorialspoint.com/python_pandas/index.htm 링크를 참조하십시오 .

Scikit-learn

Python의 데이터 과학 및 기계 학습을위한 또 다른 유용하고 가장 중요한 Python 라이브러리는 Scikit-learn입니다. 다음은 Scikit-learn의 몇 가지 기능으로 유용합니다.

  • NumPy, SciPy 및 Matplotlib를 기반으로합니다.

  • 오픈 소스이며 BSD 라이선스에 따라 재사용 할 수 있습니다.

  • 누구나 액세스 할 수 있으며 다양한 컨텍스트에서 재사용 할 수 있습니다.

  • 분류, 클러스터링, 회귀, 차원 축소, 모델 선택 등과 같은 ML의 주요 영역을 다루는 광범위한 기계 학습 알고리즘을이를 통해 구현할 수 있습니다.

설치 및 실행

Anaconda 배포판을 사용하는 경우 Scikit-learn이 이미 설치되어 있으므로 별도로 설치할 필요가 없습니다. Python 스크립트에 패키지를 사용하기 만하면됩니다. 예를 들어 다음 스크립트 줄을 사용하여 유방암 환자의 데이터 세트를Scikit-learn

from sklearn.datasets import load_breast_cancer

반면에 표준 Python 배포판을 사용하고 NumPy 및 SciPy가있는 경우 인기있는 Python 패키지 설치 프로그램 인 pip를 사용하여 Scikit-learn을 설치할 수 있습니다.

pip install -U scikit-learn

Scikit-learn을 설치 한 후 위에서 수행 한대로 Python 스크립트에 사용할 수 있습니다.