프로덕션에서 RL을 얻는 데 가장 큰 장벽은 무엇입니까?

Jan 28 2021

저는 강화 학습의 최첨단을 연구하고 있습니다. 제 요점은 프로덕션에서 감독 및 비지도 학습 알고리즘을 사용하여 실제 세계에서 너무 많은 응용 프로그램을 볼 수 있지만 강화 학습 알고리즘에서는 동일한 것을 보지 못한다는 것입니다.

프로덕션에서 RL을 얻는 데 가장 큰 장벽은 무엇입니까?

답변

7 nbro Jan 28 2021 at 18:35

이 문제를 다루는 비교적 최근의 논문이 있습니다 .Gabriel Dulac-Arnold 등 의 실제 강화 학습의 도전 (2019)은 RL을 실제 문제로 생산하기 위해 해결해야하는 모든 문제를 제시합니다. 문제를 해결하기위한 접근 방식 / 솔루션과이를 평가하기위한 메트릭 나는 그것들을 나열 할 것입니다 (몇 주 전에 내가 기록한 메모를 바탕으로). 자세한 내용은 논문을 읽어야합니다. 어쨌든 RL에 익숙한 사람들에게는 매우 분명합니다.

  1. 일괄 오프라인 및 오프 정책 교육
    • 현재 솔루션 중 하나는 중요도 샘플링입니다.
  2. 제한된 샘플에서 실제 시스템 학습 (샘플 비 효율성)
    • 솔루션 : MAML, 전문가 데모를 사용하여 에이전트 부트 스트랩, 모델 기반 접근 방식
  3. 고차원 연속 상태 및 행동 공간
    • 솔루션 : AE-DQN, DRRN
  4. 안전 제약 충족
    • 솔루션 : 제한된 MDP, 안전한 탐색 전략 등
  5. 부분 관측 가능성 및 비정상 성
    • 부분 관측 가능성에 대한 솔루션 : 관측 기록, 반복 신경망 등을 통합합니다.
    • 비정상성에 대한 솔루션 : 도메인 무작위 화 또는 시스템 식별
  6. 불특정 다목적 보상 기능
    • 솔루션 : CVaR, 분배 DQN
  7. 설명 가능성
  8. 실시간 추론
  9. 시스템 지연 ( 이 및 이 답변 참조)

또한 Gabriel Dulac-Arnold 등이 작성한 실제 강화 학습 (2020) 의 과제에 대한보다 최근의 관련 논문 이 있습니다. 여기 에는 실험과 관련된 코드가 있습니다.

그러나 RL (특히 도적)은 이미 하나 이상의 실제 문제를 해결하는 데 사용되고 있습니다 [ 1 , 2 ]. 이 답변 도 참조하십시오 .

4 datdinhquoc Jan 28 2021 at 16:56

기술적 장벽 : 최소한 다음과 같은 상식적인 큰 장벽이 있어야합니다.

  • 시행 착오 기술은 즉시 사용 가능한 감독 데이터에 비해 모델을 배우기 어렵게 만듭니다 (너무 많음).
  • 시간 단계의 수 (보통 궤적에서 에이전트의 작업 수와 같음)가 크므로 오류를 찾기위한 시도 횟수가 기하 급수적이므로 무차별 대입 탐색이 작동하지 않지만 부정적인 보상은 단축에 도움이 될 수 있습니다. 무차별 대입 트리.
  • 실제 RL은 에피소드 수에 제한 이 없으며 (각 에피소드마다 일련의 작업을 학습해야 함) 과거 및 더 이상 관련이없는 일부 데이터가 제거되지 않는 한 더 많은 탐색 데이터를 사용하면 점진적 훈련이 더 어려워지고 더 어려워집니다. 인간과 마찬가지로 우리는 더 많은 것을 배우고 현재를 더 많이 기억하기 위해 과거의 일부를 잊습니다.

기술적 장벽은 처음에는이를 비즈니스에 적용하는 데 장애가됩니다. 사람들은 수동으로 일부 감독 데이터를 다소 빠르게 생성 할 수 있으므로 감독 학습이 일반적으로 먼저 선택되며 아무도 RL을 시도하고 싶지 않습니다.

인적 자원을 찾기가 더 어려워 짐 :지도 학습 경험이있는 AI 엔지니어가 더 인기가 있고 찾기가 더 쉽습니다. RL 작업이 적어 RL을 사용하면 비즈니스 프로젝트를 쉽게 수행 할 수 없습니다.

그러나 내 관점에서 RL은 이제 AI 엔티티가 점점 더 자체적으로 존재하기 때문에 미래에 매우 유망합니다.