H2O-설치
H2O는 아래 나열된 다섯 가지 옵션으로 구성 및 사용할 수 있습니다.
Python에 설치
R에 설치
웹 기반 Flow GUI
Hadoop
아나콘다 클라우드
이후 섹션에서는 사용 가능한 옵션에 따라 H2O 설치 지침을 볼 수 있습니다. 옵션 중 하나를 사용할 가능성이 있습니다.
Python에 설치
Python으로 H2O를 실행하려면 설치에 몇 가지 종속성이 필요합니다. 이제 H2O를 실행하기위한 최소 종속성 세트를 설치하기 시작하겠습니다.
종속성 설치
종속성을 설치하려면 다음 pip 명령을 실행하십시오-
$ pip install requests
콘솔 창을 열고 위의 명령을 입력하여 요청 패키지를 설치하십시오. 다음 스크린 샷은 Mac 컴퓨터에서 위 명령의 실행을 보여줍니다.
요청을 설치 한 후 아래와 같이 3 개의 패키지를 더 설치해야합니다.
$ pip install tabulate
$ pip install "colorama >= 0.3.8"
$ pip install future
최신 업데이트 된 종속성 목록은 H2O GitHub 페이지에서 확인할 수 있습니다. 이 글을 쓰는 시점에서 페이지에 다음과 같은 종속성이 나열됩니다.
python 2. H2O — Installation
pip >= 9.0.1
setuptools
colorama >= 0.3.7
future >= 0.15.2
이전 버전 제거
위의 종속성을 설치 한 후 기존 H2O 설치를 제거해야합니다. 이렇게하려면 다음 명령을 실행하십시오.
$ pip uninstall h2o
최신 버전 설치
이제 다음 명령을 사용하여 최신 버전의 H2O를 설치하겠습니다.
$ pip install -f http://h2o-release.s3.amazonaws.com/h2o/latest_stable_Py.html h2o
성공적으로 설치하면 화면에 다음 메시지가 표시됩니다.
Installing collected packages: h2o
Successfully installed h2o-3.26.0.1
설치 테스트
설치를 테스트하기 위해 H2O 설치에서 제공되는 샘플 애플리케이션 중 하나를 실행합니다. 먼저 다음 명령을 입력하여 Python 프롬프트를 시작하십시오.
$ Python3
Python 인터프리터가 시작되면 Python 명령 프롬프트에 다음 Python 문을 입력합니다.
>>>import h2o
위의 명령은 프로그램에서 H2O 패키지를 가져옵니다. 다음으로 다음 명령을 사용하여 H2O 시스템을 초기화하십시오.
>>>h2o.init()
화면에 클러스터 정보가 표시되고이 단계에서 다음과 같이 표시됩니다.
이제 샘플 코드를 실행할 준비가되었습니다. Python 프롬프트에 다음 명령을 입력하고 실행합니다.
>>>h2o.demo("glm")
데모는 일련의 명령이있는 Python 노트북으로 구성됩니다. 각 명령을 실행하면 출력이 화면에 즉시 표시되고 다음 단계를 계속하려면 키를 누르라는 메시지가 표시됩니다. 노트북에서 마지막 명령문을 실행하는 부분 스크린 샷은 다음과 같습니다.
이 단계에서 Python 설치가 완료되고 직접 실험 할 준비가 된 것입니다.
R에 설치
R 개발을 위해 H2O를 설치하는 것은 설치를 위해 R 프롬프트를 사용한다는 점을 제외하면 Python 용으로 설치하는 것과 매우 유사합니다.
R 콘솔 시작
컴퓨터에서 R 애플리케이션 아이콘을 클릭하여 R 콘솔을 시작합니다. 콘솔 화면은 다음 스크린 샷과 같이 나타납니다.
H2O 설치는 위의 R 프롬프트에서 수행됩니다. RStudio 사용을 선호하는 경우 R 콘솔 하위 창에 명령을 입력합니다.
이전 버전 제거
우선, R 프롬프트에서 다음 명령을 사용하여 이전 버전을 제거하십시오-
> if ("package:h2o" %in% search()) { detach("package:h2o", unload=TRUE) }
> if ("h2o" %in% rownames(installed.packages())) { remove.packages("h2o") }
종속성 다운로드
다음 코드를 사용하여 H2O에 대한 종속성을 다운로드하십시오.
> pkgs <- c("RCurl","jsonlite")
for (pkg in pkgs) {
if (! (pkg %in% rownames(installed.packages()))) { install.packages(pkg) }
}
H2O 설치
R 프롬프트에 다음 명령을 입력하여 H2O를 설치하십시오-
> install.packages("h2o", type = "source", repos = (c("http://h2o-release.s3.amazonaws.com/h2o/latest_stable_R")))
다음 스크린 샷은 예상 출력을 보여줍니다.
R에 H2O를 설치하는 또 다른 방법이 있습니다.
CRAN에서 R에 설치
CRAN에서 R을 설치하려면 R 프롬프트에서 다음 명령을 사용하십시오.
> install.packages("h2o")
거울을 선택하라는 메시지가 표시됩니다.
--- Please select a CRAN mirror for use in this session ---
미러 사이트 목록을 표시하는 대화 상자가 화면에 표시됩니다. 가장 가까운 위치 또는 선택한 거울을 선택하십시오.
설치 테스트
R 프롬프트에서 다음 코드를 입력하고 실행하십시오.
> library(h2o)
> localH2O = h2o.init()
> demo(h2o.kmeans)
생성 된 출력은 다음 스크린 샷과 같습니다.
이제 R에서 H2O 설치가 완료되었습니다.
Web GUI Flow 설치
GUI Flow를 설치하려면 H20 사이트에서 설치 파일을 다운로드하십시오. 원하는 폴더에 다운로드 한 파일의 압축을 풉니 다. 설치시 h2o.jar 파일이 있는지 확인하십시오. 다음 명령을 사용하여 명령 창에서이 파일을 실행하십시오-
$ java -jar h2o.jar
잠시 후 콘솔 창에 다음이 나타납니다.
07-24 16:06:37.304 192.168.1.18:54321 3294 main INFO: H2O started in 7725ms
07-24 16:06:37.304 192.168.1.18:54321 3294 main INFO:
07-24 16:06:37.305 192.168.1.18:54321 3294 main INFO: Open H2O Flow in your web browser: http://192.168.1.18:54321
07-24 16:06:37.305 192.168.1.18:54321 3294 main INFO:
흐름을 시작하려면 주어진 URL을 엽니 다. http://localhost:54321브라우저에서. 다음 화면이 나타납니다-
이 단계에서 Flow 설치가 완료되었습니다.
Hadoop / Anaconda Cloud에 설치
노련한 개발자가 아니라면 빅 데이터에서 H2O를 사용하는 것을 생각하지 않을 것입니다. 여기서 H2O 모델은 수 테라 바이트의 방대한 데이터베이스에서 효율적으로 실행된다고 말하는 것으로 충분합니다. 데이터가 Hadoop 설치 또는 클라우드에있는 경우 H2O 사이트에 제공된 단계에 따라 각 데이터베이스에 대해 설치하십시오.
이제 컴퓨터에 H2O를 성공적으로 설치하고 테스트 했으므로 실제 개발할 준비가되었습니다. 먼저 명령 프롬프트에서 개발을 확인합니다. 이후 강의에서는 H2O 흐름에서 모델 테스트를 수행하는 방법을 배웁니다.
명령 프롬프트에서 개발
이제 H2O를 사용하여 기계 학습 애플리케이션을 개발하는 데 무료로 사용할 수있는 잘 알려진 홍채 데이터 세트의 식물을 분류하는 것을 고려해 보겠습니다.
쉘 창에 다음 명령을 입력하여 Python 인터프리터를 시작하십시오.
$ Python3
이것은 파이썬 인터프리터를 시작합니다. 다음 명령을 사용하여 h2o 플랫폼 가져 오기-
>>> import h2o
분류를 위해 Random Forest 알고리즘을 사용합니다. 이것은 H2ORandomForestEstimator 패키지에서 제공됩니다. 다음과 같이 import 문을 사용하여이 패키지를 가져옵니다.
>>> from h2o.estimators import H2ORandomForestEstimator
init 메소드를 호출하여 H2o 환경을 초기화합니다.
>>> h2o.init()
초기화에 성공하면 클러스터 정보와 함께 콘솔에 다음 메시지가 표시되어야합니다.
Checking whether there is an H2O instance running at http://localhost:54321 . connected.
이제 H2O에서 import_file 메소드를 사용하여 홍채 데이터를 가져옵니다.
>>> data = h2o.import_file('iris.csv')
다음 스크린 샷과 같이 진행률이 표시됩니다.
파일이 메모리에로드 된 후로드 된 테이블의 처음 10 개 행을 표시하여이를 확인할 수 있습니다. 당신은head 그렇게하는 방법-
>>> data.head()
다음 출력이 표 형식으로 표시됩니다.
테이블에는 열 이름도 표시됩니다. 처음 4 개의 열을 ML 알고리즘의 기능으로 사용하고 마지막 열 클래스를 예측 된 출력으로 사용합니다. 먼저 다음 두 변수를 생성하여 ML 알고리즘 호출에서이를 지정합니다.
>>> features = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width']
>>> output = 'class'
다음으로 split_frame 메서드를 호출하여 데이터를 학습 및 테스트로 분할합니다.
>>> train, test = data.split_frame(ratios = [0.8])
데이터는 80:20 비율로 분할됩니다. 우리는 훈련에 80 % 데이터를 사용하고 테스트에 20 %를 사용합니다.
이제 기본 제공 Random Forest 모델을 시스템에로드합니다.
>>> model = H2ORandomForestEstimator(ntrees = 50, max_depth = 20, nfolds = 10)
위의 호출에서 트리 수를 50으로, 트리의 최대 깊이를 20으로, 교차 검증을위한 폴드 수를 10으로 설정했습니다. 이제 모델을 훈련해야합니다. 우리는 다음과 같이 train 메소드를 호출하여 그렇게합니다.
>>> model.train(x = features, y = output, training_frame = train)
train 메서드는 처음 두 매개 변수로 앞서 생성 한 기능과 출력을 수신합니다. 훈련 데이터 세트는 전체 데이터 세트의 80 % 인 훈련으로 설정됩니다. 훈련 중에 여기에 표시된대로 진행 상황을 볼 수 있습니다.
이제 모델 구축 프로세스가 끝나면 모델을 테스트 할 차례입니다. 훈련 된 모델 객체에서 model_performance 메소드를 호출하여이를 수행합니다.
>>> performance = model.model_performance(test_data=test)
위의 메서드 호출에서 테스트 데이터를 매개 변수로 보냈습니다.
이제 우리 모델의 성능 인 출력을 볼 시간입니다. 성능을 인쇄하기 만하면됩니다.
>>> print (performance)
이것은 당신에게 다음과 같은 출력을 줄 것입니다-
출력에는 평균 제곱 오차 (MSE), 평균 제곱 오차 (RMSE), LogLoss 및 혼동 행렬까지 표시됩니다.
Jupyter에서 실행
우리는 명령에서 실행되는 것을 보았고 각 코드 줄의 목적도 이해했습니다. 한 줄씩 또는 한 번에 전체 프로그램을 Jupyter 환경에서 전체 코드를 실행할 수 있습니다. 전체 목록이 여기에 있습니다.
import h2o
from h2o.estimators import H2ORandomForestEstimator
h2o.init()
data = h2o.import_file('iris.csv')
features = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width']
output = 'class'
train, test = data.split_frame(ratios=[0.8])
model = H2ORandomForestEstimator(ntrees = 50, max_depth = 20, nfolds = 10)
model.train(x = features, y = output, training_frame = train)
performance = model.model_performance(test_data=test)
print (performance)
코드를 실행하고 출력을 관찰하십시오. 이제 데이터 세트에 Random Forest 알고리즘을 적용하고 테스트하는 것이 얼마나 쉬운 지 알 수 있습니다. H20의 힘은이 기능을 훨씬 뛰어 넘습니다. 더 나은 성능을 얻을 수 있는지 확인하기 위해 동일한 데이터 세트에서 다른 모델을 시도하려면 어떻게해야합니까? 이에 대해서는 후속 섹션에서 설명합니다.
다른 알고리즘 적용
이제 이전 데이터 세트에 Gradient Boosting 알고리즘을 적용하여 어떻게 작동하는지 알아 보겠습니다. 위의 전체 목록에서 아래 코드에 강조 표시된대로 두 가지 사소한 변경 만 수행하면됩니다.
import h2o
from h2o.estimators import H2OGradientBoostingEstimator
h2o.init()
data = h2o.import_file('iris.csv')
features = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width']
output = 'class'
train, test = data.split_frame(ratios = [0.8])
model = H2OGradientBoostingEstimator
(ntrees = 50, max_depth = 20, nfolds = 10)
model.train(x = features, y = output, training_frame = train)
performance = model.model_performance(test_data = test)
print (performance)
코드를 실행하면 다음과 같은 출력이 나타납니다.
MSE, RMSE, Confusion Matrix 등과 같은 결과를 이전 출력과 비교하고 프로덕션 배포에 사용할 결과를 결정하기 만하면됩니다. 사실 목적에 가장 적합한 알고리즘을 결정하기 위해 여러 가지 다른 알고리즘을 적용 할 수 있습니다.