Chạy scikit-learning với khối lượng lớn

Nov 03 2020

Tôi cần chạy quy trình Rừng ngẫu nhiên với scikit-learn. Để đào tạo mô hình, tôi có một bảng cơ sở dữ liệu với 10 triệu hàng tính năng. Câu hỏi đặt ra là: cách tốt nhất để tiếp cận điều này là gì, tôi có nên tải vào bộ nhớ 10 triệu hàng, ví dụ với numpy hoặc gấu trúc hay có cách tốt hơn để tải dữ liệu dần dần theo từng khối?

Trả lời

3 vienna_kaggling Nov 03 2020 at 16:26

Có nhiều khả năng từ hoàng hôn, đến các mô hình khác, v.v.

Đây là 2 mục yêu thích của tôi, không để bạn mất tích trong số các khả năng:

  1. www.h5py.org/ "Nó cho phép bạn lưu trữ một lượng lớn dữ liệu số và dễ dàng thao tác dữ liệu đó từ NumPy. Ví dụ: bạn có thể chia thành các tập dữ liệu nhiều terabyte được lưu trữ trên đĩa, như thể chúng là mảng NumPy thực. Hàng nghìn tập dữ liệu có thể được lưu trữ trong một tệp duy nhất, được phân loại và gắn thẻ theo bất kỳ cách nào bạn muốn. "

  2. Hãy thử học trực tuyến với mô hình rừng ngẫu nhiên của Cousin ( light-gbm ). Anh ấy có khả năng học trực tuyến.