Scikit Learn-소개
이 장에서는 Scikit-Learn 또는 Sklearn이 무엇인지, Scikit-Learn의 기원 및 Scikit-Learn의 개발 및 유지 관리를 담당하는 커뮤니티 및 기여자, 전제 조건, 설치 및 기능과 같은 기타 관련 주제를 이해합니다.
Scikit-Learn (Sklearn)이란?
Scikit-learn (Sklearn)은 Python의 기계 학습을위한 가장 유용하고 강력한 라이브러리입니다. Python의 일관성 인터페이스를 통해 분류, 회귀, 클러스터링 및 차원 축소를 포함하여 기계 학습 및 통계 모델링을위한 효율적인 도구를 제공합니다. 주로 Python으로 작성된이 라이브러리는NumPy, SciPy 과 Matplotlib.
Scikit-Learn의 기원
원래는 scikits.learn 2007 년 Google 여름 코드 프로젝트로 David Cournapeau가 처음 개발했습니다. 나중에 2010 년 FIRCA (French Institute for Research in Computer Science and Automation)의 Fabian Pedregosa, Gael Varoquaux, Alexandre Gramfort 및 Vincent Michel이 이 프로젝트는 2010 년 2 월 1 일에 첫 번째 공개 릴리스 (v0.1 베타)를 만들었습니다.
버전 기록을 살펴 보겠습니다.
2019 년 5 월 : scikit-learn 0.21.0
2019 년 3 월 : scikit-learn 0.20.3
2018 년 12 월 : scikit-learn 0.20.2
2018 년 11 월 : scikit-learn 0.20.1
2018 년 9 월 : scikit-learn 0.20.0
2018 년 7 월 : scikit-learn 0.19.2
2017 년 7 월 : scikit-learn 0.19.0
2016 년 9 월. scikit-learn 0.18.0
2015 년 11 월. scikit-learn 0.17.0
2015 년 3 월. scikit-learn 0.16.0
2014 년 7 월. scikit-learn 0.15.0
2013 년 8 월. scikit-learn 0.14
커뮤니티 및 기여자
Scikit-learn은 커뮤니티의 노력이며 누구나 참여할 수 있습니다. 이 프로젝트는https://github.com/scikit-learn/scikit-learn. 다음 사람들은 현재 Sklearn의 개발 및 유지 관리에 핵심 기여자입니다.
Joris Van den Bossche (데이터 과학자)
Thomas J Fan (소프트웨어 개발자)
Alexandre Gramfort (기계 학습 연구원)
Olivier Grisel (기계 학습 전문가)
Nicolas Hug (부 연구 과학자)
Andreas Mueller (기계 학습 과학자)
진한 민 (소프트웨어 엔지니어)
Adrin Jalali (오픈 소스 개발자)
Nelle Varoquaux (데이터 과학 연구원)
Roman Yurchak (데이터 과학자)
Booking.com, JP Morgan, Evernote, Inria, AWeber, Spotify 등과 같은 다양한 조직에서 Sklearn을 사용하고 있습니다.
전제 조건
scikit-learn 최신 릴리스를 사용하기 전에 다음이 필요합니다.
Python (> = 3.5)
NumPy (> = 1.11.0)
Scipy (> = 0.17.0) li
Joblib (> = 0.11)
Sklearn 플로팅 기능에는 Matplotlib (> = 1.5.1)이 필요합니다.
데이터 구조 및 분석을 사용하는 일부 scikit-learn 예제에는 Pandas (> = 0.18.0)가 필요합니다.
설치
NumPy와 Scipy를 이미 설치했다면 다음은 scikit-learn을 설치하는 가장 쉬운 두 가지 방법입니다.
pip 사용
다음 명령을 사용하여 pip를 통해 scikit-learn을 설치할 수 있습니다.
pip install -U scikit-learn
conda 사용
다음 명령은 conda를 통해 scikit-learn을 설치하는 데 사용할 수 있습니다-
conda install scikit-learn
반면에 NumPy 및 Scipy가 Python 워크 스테이션에 아직 설치되지 않은 경우 다음 중 하나를 사용하여 설치할 수 있습니다. pip 또는 conda.
scikit-learn을 사용하는 또 다른 옵션은 다음과 같은 Python 배포를 사용하는 것입니다. Canopy 과 Anaconda 둘 다 최신 버전의 scikit-learn을 제공하기 때문입니다.
풍모
Scikit-learn 라이브러리는 데이터로드, 조작 및 요약에 중점을 두는 대신 데이터 모델링에 중점을 둡니다. Sklearn에서 제공하는 가장 인기있는 모델 그룹은 다음과 같습니다.
Supervised Learning algorithms − Linear Regression, SVM (Support Vector Machine), Decision Tree 등과 같은 거의 모든 인기있는지도 학습 알고리즘이 scikit-learn의 일부입니다.
Unsupervised Learning algorithms − 반면에 클러스터링, 요인 분석, PCA (주성분 분석)에서 비지도 신경망에 이르기까지 널리 사용되는 비지도 학습 알고리즘을 모두 갖추고 있습니다.
Clustering −이 모델은 레이블이없는 데이터를 그룹화하는 데 사용됩니다.
Cross Validation − 보이지 않는 데이터에 대한 감독 모델의 정확성을 확인하는 데 사용됩니다.
Dimensionality Reduction − 요약, 시각화 및 기능 선택에 추가로 사용할 수있는 데이터의 속성 수를 줄이는 데 사용됩니다.
Ensemble methods − 이름에서 알 수 있듯이 여러 감독 모델의 예측을 결합하는 데 사용됩니다.
Feature extraction − 데이터에서 특징을 추출하여 이미지 및 텍스트 데이터의 속성을 정의하는 데 사용됩니다.
Feature selection −지도 모델 생성에 유용한 속성을 식별하는 데 사용됩니다.
Open Source − 오픈 소스 라이브러리이며 BSD 라이선스에 따라 상업적으로도 사용할 수 있습니다.