Những rào cản lớn nhất để có được RL trong sản xuất là gì?
Tôi đang nghiên cứu về hiện đại của Học tăng cường và quan điểm của tôi là chúng tôi thấy rất nhiều ứng dụng trong thế giới thực sử dụng các thuật toán học có Giám sát và Không giám sát trong quá trình sản xuất, nhưng tôi không thấy điều tương tự với các thuật toán Học tăng cường.
Những rào cản lớn nhất để có được RL trong sản xuất là gì?
Trả lời
Có một bài báo tương đối gần đây đề cập đến vấn đề này: Những thách thức của việc học tăng cường trong thế giới thực (2019) của Gabriel Dulac-Arnold và cộng sự, đưa ra tất cả những thách thức cần được giải quyết để sản xuất RL đối với các vấn đề của thế giới thực, hiện tại các phương pháp tiếp cận / giải pháp để giải quyết các thách thức và các chỉ số để đánh giá chúng. Tôi sẽ chỉ liệt kê chúng (dựa trên những ghi chú tôi đã ghi vài tuần trước). Bạn nên đọc bài báo để biết thêm chi tiết. Trong mọi trường hợp, đối với những người đã quen thuộc với RL, họ sẽ khá rõ ràng.
- Đào tạo hàng loạt ngoại tuyến và ngoài chính sách
- Một giải pháp hiện tại là lấy mẫu tầm quan trọng
- Học trên hệ thống thực từ các mẫu hạn chế (mẫu không hiệu quả)
- Giải pháp: MAML, sử dụng trình diễn của chuyên gia để khởi động tác nhân, phương pháp tiếp cận dựa trên mô hình
- Trạng thái liên tục chiều cao và không gian hành động
- Giải pháp: AE-DQN, DRRN
- Thỏa mãn các ràng buộc an toàn
- Giải pháp: MDP hạn chế, chiến lược thăm dò an toàn, v.v.
- Khả năng quan sát một phần và tính không cố định
- Giải pháp cho khả năng quan sát một phần: kết hợp lịch sử trong quan sát, mạng nơ-ron lặp lại, v.v.
- Các giải pháp cho tính không cố định: ngẫu nhiên hóa miền hoặc xác định hệ thống
- Các chức năng phần thưởng đa mục tiêu và không xác định
- Giải pháp: CVaR, DQN phân tán
- Khả năng giải thích
- Suy luận thời gian thực
- Sự chậm trễ của hệ thống (xem thêm phần này và câu trả lời này )
Ngoài ra còn có một bài báo liên quan và gần đây hơn Một cuộc điều tra thực nghiệm về những thách thức của việc học tăng cường trong thế giới thực (2020) của Gabriel Dulac-Arnold và cộng sự, và ở đây bạn có mã liên kết với các thí nghiệm.
Tuy nhiên, lưu ý rằng RL (cụ thể là kẻ cướp) đã được sử dụng để giải quyết ít nhất một vấn đề trong thế giới thực [ 1 , 2 ]. Xem thêm câu trả lời này .
Rào cản kỹ thuật: Ít nhất phải có những rào cản lớn thông thường sau:
- Kỹ thuật thử-và-sai làm cho mô hình khó học (quá nhiều), so với dữ liệu được giám sát sẵn sàng sử dụng
- Số bước thời gian (thường tương đương với số hành động của tác nhân trong quỹ đạo) lớn, do đó, việc khám phá bạo lực sẽ không hoạt động vì số lần thử nghiệm để tìm lỗi là theo cấp số nhân, mặc dù phần thưởng âm có thể giúp cắt ngắn cây vũ phu.
- RL trong cuộc sống thực có số lượng tập không giới hạn (đối với mỗi tập, một chuỗi hành động nên được học) và quá trình đào tạo gia tăng ngày càng khó hơn theo thời gian với nhiều dữ liệu được khám phá hơn, trừ khi một số dữ liệu quá khứ và không còn liên quan bị xóa , cũng giống như con người, chúng ta quên đi một phần quá khứ để học thêm, nhớ nhiều hơn hiện tại.
Rào cản kỹ thuật thoạt đầu là rào cản để áp dụng chúng vào hoạt động kinh doanh. Mọi người có thể tạo một số dữ liệu được giám sát theo cách thủ công khá nhanh và do đó, việc học có giám sát thường được chọn trước, không ai muốn thử RL.
Khó tìm nguồn nhân lực hơn: Các kỹ sư AI có kinh nghiệm học tập có giám sát phổ biến hơn và dễ tìm hơn một số; ít công việc hơn với RL, do đó các dự án kinh doanh không được thực hiện dễ dàng nếu sử dụng RL.
Tuy nhiên, theo quan điểm của tôi, RL có rất nhiều hứa hẹn trong tương lai vì các thực thể AI hiện đang ngày càng nhiều hơn.