Scikit Learn-소개

이 장에서는 Scikit-Learn 또는 Sklearn이 무엇인지, Scikit-Learn의 기원 및 Scikit-Learn의 개발 및 유지 관리를 담당하는 커뮤니티 및 기여자, 전제 조건, 설치 및 기능과 같은 기타 관련 주제를 이해합니다.

Scikit-Learn (Sklearn)이란?

Scikit-learn (Sklearn)은 Python의 기계 학습을위한 가장 유용하고 강력한 라이브러리입니다. Python의 일관성 인터페이스를 통해 분류, 회귀, 클러스터링 및 차원 축소를 포함하여 기계 학습 및 통계 모델링을위한 효율적인 도구를 제공합니다. 주로 Python으로 작성된이 라이브러리는NumPy, SciPyMatplotlib.

Scikit-Learn의 기원

원래는 scikits.learn 2007 년 Google 여름 코드 프로젝트로 David Cournapeau가 처음 개발했습니다. 나중에 2010 년 FIRCA (French Institute for Research in Computer Science and Automation)의 Fabian Pedregosa, Gael Varoquaux, Alexandre Gramfort 및 Vincent Michel이 이 프로젝트는 2010 년 2 월 1 일에 첫 번째 공개 릴리스 (v0.1 베타)를 만들었습니다.

버전 기록을 살펴 보겠습니다.

  • 2019 년 5 월 : scikit-learn 0.21.0

  • 2019 년 3 월 : scikit-learn 0.20.3

  • 2018 년 12 월 : scikit-learn 0.20.2

  • 2018 년 11 월 : scikit-learn 0.20.1

  • 2018 년 9 월 : scikit-learn 0.20.0

  • 2018 년 7 월 : scikit-learn 0.19.2

  • 2017 년 7 월 : scikit-learn 0.19.0

  • 2016 년 9 월. scikit-learn 0.18.0

  • 2015 년 11 월. scikit-learn 0.17.0

  • 2015 년 3 월. scikit-learn 0.16.0

  • 2014 년 7 월. scikit-learn 0.15.0

  • 2013 년 8 월. scikit-learn 0.14

커뮤니티 및 기여자

Scikit-learn은 커뮤니티의 노력이며 누구나 참여할 수 있습니다. 이 프로젝트는https://github.com/scikit-learn/scikit-learn. 다음 사람들은 현재 Sklearn의 개발 및 유지 관리에 핵심 기여자입니다.

  • Joris Van den Bossche (데이터 과학자)

  • Thomas J Fan (소프트웨어 개발자)

  • Alexandre Gramfort (기계 학습 연구원)

  • Olivier Grisel (기계 학습 전문가)

  • Nicolas Hug (부 연구 과학자)

  • Andreas Mueller (기계 학습 과학자)

  • 진한 민 (소프트웨어 엔지니어)

  • Adrin Jalali (오픈 소스 개발자)

  • Nelle Varoquaux (데이터 과학 연구원)

  • Roman Yurchak (데이터 과학자)

Booking.com, JP Morgan, Evernote, Inria, AWeber, Spotify 등과 같은 다양한 조직에서 Sklearn을 사용하고 있습니다.

전제 조건

scikit-learn 최신 릴리스를 사용하기 전에 다음이 필요합니다.

  • Python (> = 3.5)

  • NumPy (> = 1.11.0)

  • Scipy (> = 0.17.0) li

  • Joblib (> = 0.11)

  • Sklearn 플로팅 기능에는 Matplotlib (> = 1.5.1)이 필요합니다.

  • 데이터 구조 및 분석을 사용하는 일부 scikit-learn 예제에는 Pandas (> = 0.18.0)가 필요합니다.

설치

NumPy와 Scipy를 이미 설치했다면 다음은 scikit-learn을 설치하는 가장 쉬운 두 가지 방법입니다.

pip 사용

다음 명령을 사용하여 pip를 통해 scikit-learn을 설치할 수 있습니다.

pip install -U scikit-learn

conda 사용

다음 명령은 conda를 통해 scikit-learn을 설치하는 데 사용할 수 있습니다-

conda install scikit-learn

반면에 NumPy 및 Scipy가 Python 워크 스테이션에 아직 설치되지 않은 경우 다음 중 하나를 사용하여 설치할 수 있습니다. pip 또는 conda.

scikit-learn을 사용하는 또 다른 옵션은 다음과 같은 Python 배포를 사용하는 것입니다. CanopyAnaconda 둘 다 최신 버전의 scikit-learn을 제공하기 때문입니다.

풍모

Scikit-learn 라이브러리는 데이터로드, 조작 및 요약에 중점을 두는 대신 데이터 모델링에 중점을 둡니다. Sklearn에서 제공하는 가장 인기있는 모델 그룹은 다음과 같습니다.

Supervised Learning algorithms − Linear Regression, SVM (Support Vector Machine), Decision Tree 등과 같은 거의 모든 인기있는지도 학습 알고리즘이 scikit-learn의 일부입니다.

Unsupervised Learning algorithms − 반면에 클러스터링, 요인 분석, PCA (주성분 분석)에서 비지도 신경망에 이르기까지 널리 사용되는 비지도 학습 알고리즘을 모두 갖추고 있습니다.

Clustering −이 모델은 레이블이없는 데이터를 그룹화하는 데 사용됩니다.

Cross Validation − 보이지 않는 데이터에 대한 감독 모델의 정확성을 확인하는 데 사용됩니다.

Dimensionality Reduction − 요약, 시각화 및 기능 선택에 추가로 사용할 수있는 데이터의 속성 수를 줄이는 데 사용됩니다.

Ensemble methods − 이름에서 알 수 있듯이 여러 감독 모델의 예측을 결합하는 데 사용됩니다.

Feature extraction − 데이터에서 특징을 추출하여 이미지 및 텍스트 데이터의 속성을 정의하는 데 사용됩니다.

Feature selection −지도 모델 생성에 유용한 속성을 식별하는 데 사용됩니다.

Open Source − 오픈 소스 라이브러리이며 BSD 라이선스에 따라 상업적으로도 사용할 수 있습니다.