H2O - AutoML
Để sử dụng AutoML, hãy bắt đầu một sổ ghi chép Jupyter mới và làm theo các bước được hiển thị bên dưới.
Nhập AutoML
Đầu tiên nhập gói H2O và AutoML vào dự án bằng hai câu lệnh sau:
import h2o
from h2o.automl import H2OAutoML
Khởi tạo H2O
Khởi tạo h2o bằng câu lệnh sau:
h2o.init()
Bạn sẽ thấy thông tin cụm trên màn hình như trong ảnh chụp màn hình bên dưới -
Đang tải dữ liệu
Chúng tôi sẽ sử dụng cùng một tập dữ liệu iris.csv mà bạn đã sử dụng trước đó trong hướng dẫn này. Tải dữ liệu bằng câu lệnh sau:
data = h2o.import_file('iris.csv')
Chuẩn bị tập dữ liệu
Chúng ta cần quyết định các tính năng và các cột dự đoán. Chúng tôi sử dụng các tính năng tương tự và cột dự đoán như trong trường hợp trước đó của chúng tôi. Đặt các tính năng và cột đầu ra bằng cách sử dụng hai câu lệnh sau:
features = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width']
output = 'class'
Chia dữ liệu theo tỷ lệ 80:20 để đào tạo và kiểm tra -
train, test = data.split_frame(ratios=[0.8])
Áp dụng AutoML
Bây giờ, tất cả chúng ta đã sẵn sàng để áp dụng AutoML trên tập dữ liệu của mình. AutoML sẽ chạy trong một khoảng thời gian cố định do chúng tôi thiết lập và cung cấp cho chúng tôi mô hình được tối ưu hóa. Chúng tôi thiết lập AutoML bằng cách sử dụng câu lệnh sau:
aml = H2OAutoML(max_models = 30, max_runtime_secs=300, seed = 1)
Tham số đầu tiên chỉ định số lượng mô hình mà chúng tôi muốn đánh giá và so sánh.
Tham số thứ hai chỉ định thời gian mà thuật toán chạy.
Bây giờ chúng ta gọi phương thức train trên đối tượng AutoML như được hiển thị ở đây -
aml.train(x = features, y = output, training_frame = train)
Chúng tôi chỉ định x là mảng tính năng mà chúng tôi đã tạo trước đó, y làm biến đầu ra để chỉ ra giá trị dự đoán và khung dữ liệu là train tập dữ liệu.
Chạy mã, bạn sẽ phải đợi trong 5 phút (chúng tôi đặt max_runtime_secs thành 300) cho đến khi bạn nhận được kết quả sau:
In bảng xếp hạng
Khi quá trình xử lý AutoML hoàn tất, nó sẽ tạo ra một bảng xếp hạng xếp hạng tất cả 30 thuật toán mà nó đã đánh giá. Để xem 10 bản ghi đầu tiên của bảng thành tích, hãy sử dụng mã sau:
lb = aml.leaderboard
lb.head()
Khi thực thi, đoạn mã trên sẽ tạo ra kết quả sau:
Rõ ràng, thuật toán DeepLearning đã đạt điểm tối đa.
Dự đoán trên dữ liệu thử nghiệm
Bây giờ, bạn có các mô hình được xếp hạng, bạn có thể xem hiệu suất của mô hình được xếp hạng cao nhất trên dữ liệu thử nghiệm của mình. Để làm như vậy, hãy chạy câu lệnh sau:
preds = aml.predict(test)
Quá trình xử lý tiếp tục trong một thời gian và bạn sẽ thấy kết quả sau khi hoàn tất.
Kết quả in
In kết quả dự đoán bằng câu lệnh sau:
print (preds)
Khi thực hiện câu lệnh trên, bạn sẽ thấy kết quả sau:
In bảng xếp hạng cho tất cả
Nếu bạn muốn xem thứ hạng của tất cả các thuật toán đã thử nghiệm, hãy chạy câu lệnh sau:
lb.head(rows = lb.nrows)
Khi thực hiện câu lệnh trên, kết quả sau sẽ được tạo (hiển thị một phần):
Phần kết luận
H2O cung cấp một nền tảng mã nguồn mở dễ sử dụng để áp dụng các thuật toán ML khác nhau trên một tập dữ liệu nhất định. Nó cung cấp một số thuật toán thống kê và ML bao gồm cả học sâu. Trong quá trình thử nghiệm, bạn có thể tinh chỉnh các thông số cho các thuật toán này. Bạn có thể làm như vậy bằng cách sử dụng dòng lệnh hoặc giao diện dựa trên web được cung cấp có tên là Flow. H2O cũng hỗ trợ AutoML cung cấp xếp hạng giữa một số thuật toán dựa trên hiệu suất của chúng. H2O cũng hoạt động tốt trên Dữ liệu lớn. Đây chắc chắn là một lợi ích để Nhà khoa học dữ liệu áp dụng các mô hình Học máy khác nhau trên tập dữ liệu của họ và chọn mô hình tốt nhất để đáp ứng nhu cầu của họ.