Ghép các biểu thức
Tôi có hai mô hình, $m_1$ và $m_2$và tôi muốn tổng hợp chúng thành một mô hình cuối cùng. Tôi muốn có thể cân một hoặc nhiều hơn theo một tìm kiếm lưới. Có hai ý tưởng chính nảy ra trong đầu tôi khi làm như vậy:
- Xác định một nhóm mô hình $m_1 \cdot a + m_2 \cdot (1 - a)$, Ở đâu $0 < a < 1$, tìm $a$ cho điểm tốt nhất.
- Xác định một nhóm mô hình $m_1^a \cdot m_2^{1 - a}$, Ở đâu $0 < a < 1$, tìm $a$ cho điểm tốt nhất.
Tuy nhiên, trong một số trường hợp nhất định, tôi đã thấy những người mẫu hàng đầu trong các cuộc thi Kaggle làm những việc khá khác biệt, chẳng hạn như có một người mẫu cuối cùng$m_1^a + m_2^b$.
Câu hỏi của tôi là, những ưu điểm và nhược điểm của mọi giải pháp là gì? Khi nào chúng hoạt động tốt hơn và khi nào chúng hoạt động kém hơn? Khi nào thì loại nhóm thứ ba phù hợp và có bất kỳ kinh nghiệm nào để điều chỉnh không$a$ và $b$?
Trả lời
Đó là một câu hỏi thực nghiệm. Câu trả lời sẽ thay đổi đối với các mô hình khác nhau và các bộ dữ liệu khác nhau.
Cách tiếp cận tốt nhất sẽ sử dụng xác nhận chéo để xem kỹ thuật kết hợp nào có điểm tốt nhất trên chỉ số đánh giá cho dữ liệu đã cho.
Bạn có thể đặt câu hỏi tương tự với mọi thuật toán Học máy và câu trả lời vẫn sẽ rất giống nhau.
Ưu điểm của hồi quy tuyến tính so với Cây quyết định là gì? Để trả lời điều này, bạn có thể xác định chúng bằng toán học. Trong trường hợp của bạn, định nghĩa toán học có vẻ dễ dàng: trung bình có trọng số hoặc trung bình hình học.
Khi nào thì mô hình nào hoạt động tốt hơn mô hình nào khác? Hãy thử trong quá trình xác nhận chéo.
Đáng buồn thay, phương pháp luận khoa học trong Học máy được thực hiện bằng cách thử và sai. Nói giá trị của một siêu thông số trước đó để phù hợp với mô hình là không đáng tin cậy.
Bạn "chứng minh" rằng một thuật toán hoạt động trong ML khi bạn chạy nó đến một tập hợp các bộ dữ liệu và nó hoạt động tốt hơn những phần còn lại.
Quay trở lại câu hỏi của bạn, những gì xảy ra trong kaggle có xu hướng là điều tiên tiến nhất về kỹ thuật. Vì vậy, nếu nó ở đó, nó đáng để thử.
Tôi đồng ý với Brain. Giải pháp sẽ hoạt động tốt hơn, là giải pháp sẽ phù hợp hơn với dữ liệu của bạn.
Xin lưu ý rằng nếu bạn chỉ có một tham số, bạn có thể lấy giá trị tối ưu thay vì thực hiện tìm kiếm theo lưới. Họ giải pháp của bạn bị hạn chế, vì vậy tôi không mong đợi một khoản lợi nhuận đáng kể nhưng không có lý do gì để không sử dụng nó.