อะไรคืออุปสรรคที่ใหญ่ที่สุดในการรับ RL ในการผลิต?

Jan 28 2021

ฉันกำลังศึกษาความทันสมัยของการเรียนรู้แบบเสริมแรงและประเด็นของฉันคือเราเห็นแอปพลิเคชั่นมากมายในโลกแห่งความเป็นจริงโดยใช้อัลกอริทึมการเรียนรู้ภายใต้การดูแลและไม่ได้รับการดูแลในการผลิต แต่ฉันไม่เห็นสิ่งเดียวกันกับอัลกอริธึม Reinforcement Learning

อะไรคืออุปสรรคที่ใหญ่ที่สุดในการรับ RL ในการผลิต?

คำตอบ

7 nbro Jan 28 2021 at 18:35

มีเอกสารล่าสุดที่จัดการกับปัญหานี้: ความท้าทายของการเรียนรู้แบบเสริมกำลังในโลกแห่งความเป็นจริง (2019) โดย Gabriel Dulac-Arnold et al. ซึ่งนำเสนอความท้าทายทั้งหมดที่ต้องได้รับการแก้ไขเพื่อสร้าง RL ให้เป็นปัญหาในโลกแห่งความเป็นจริง แนวทาง / แนวทางในการแก้ปัญหาและตัวชี้วัดในการประเมิน ฉันจะแสดงรายการเท่านั้น (ตามบันทึกที่ฉันได้ทำเมื่อสองสามสัปดาห์ก่อน) คุณควรอ่านเอกสารสำหรับรายละเอียดเพิ่มเติม ไม่ว่าในกรณีใดสำหรับคนที่คุ้นเคยกับ RL พวกเขาจะค่อนข้างชัดเจน

  1. การฝึกอบรมแบบออฟไลน์และนอกนโยบายเป็นกลุ่ม
    • วิธีแก้ปัญหาหนึ่งในปัจจุบันคือการสุ่มตัวอย่างความสำคัญ
  2. การเรียนรู้ในระบบจริงจากกลุ่มตัวอย่างที่ จำกัด (ตัวอย่างไม่มีประสิทธิภาพ)
    • วิธีแก้ปัญหา: MAML ใช้การสาธิตจากผู้เชี่ยวชาญเพื่อบูตเอเจนต์วิธีการตามโมเดล
  3. สถานะต่อเนื่องและช่องว่างการดำเนินการในมิติสูง
    • แนวทางแก้ไข: AE-DQN, DRRN
  4. ตอบสนองข้อ จำกัด ด้านความปลอดภัย
    • แนวทางแก้ไข: MDP ที่ถูก จำกัด กลยุทธ์การสำรวจที่ปลอดภัย ฯลฯ
  5. ความสามารถในการสังเกตบางส่วนและการไม่อยู่นิ่ง
    • แนวทางแก้ไขความสามารถในการสังเกตบางส่วน: รวมประวัติไว้ในการสังเกตเครือข่ายประสาทที่เกิดซ้ำ ฯลฯ
    • การแก้ปัญหาการไม่อยู่นิ่ง: การสุ่มโดเมนหรือการระบุระบบ
  6. ฟังก์ชั่นรางวัลที่ไม่ระบุและหลายวัตถุประสงค์
    • โซลูชั่น: CVaR, Distributional DQN
  7. ความสามารถในการอธิบาย
  8. การอนุมานตามเวลาจริง
  9. ความล่าช้าของระบบ (ดูสิ่งนี้และคำตอบนี้ด้วย )

นอกจากนี้ยังมีบทความล่าสุดและที่เกี่ยวข้องการตรวจสอบเชิงประจักษ์เกี่ยวกับความท้าทายของการเรียนรู้แบบเสริมกำลังในโลกแห่งความเป็นจริง (2020) โดย Gabriel Dulac-Arnold et al และที่นี่คุณมีรหัสที่เกี่ยวข้องกับการทดลอง

อย่างไรก็ตามโปรดทราบว่ามีการใช้ RL (โดยเฉพาะอย่างยิ่งโจร) เพื่อแก้ปัญหาในโลกแห่งความจริงอย่างน้อยหนึ่งปัญหา [ 1 , 2 ] ดูคำตอบนี้ด้วย

4 datdinhquoc Jan 28 2021 at 16:56

อุปสรรคทางเทคนิค: อย่างน้อยควรมีอุปสรรคใหญ่ ๆ เหล่านี้:

  • เทคนิคการลองผิดลองถูกทำให้โมเดลเรียนรู้ได้ยาก (มากเกินไป) เมื่อเทียบกับข้อมูลภายใต้การดูแลที่พร้อมใช้งาน
  • จำนวนขั้นตอนเวลา (ซึ่งโดยปกติจะเท่ากับจำนวนการกระทำของตัวแทนในวิถี) มีมากดังนั้นการสำรวจด้วยกำลังเดรัจฉานจะไม่ทำงานเนื่องจากจำนวนการทดลองเพื่อค้นหาข้อผิดพลาดเป็นเลขชี้กำลังแม้ว่ารางวัลเชิงลบอาจช่วยให้สั้นลงได้ ต้นไม้บังคับเดรัจฉาน
  • RL ในชีวิตจริงใช้เวลาไม่ จำกัด จำนวนตอน (สำหรับแต่ละตอนควรเรียนรู้ลำดับการดำเนินการ) และการฝึกอบรมที่เพิ่มขึ้นจะยากขึ้นและยากขึ้นในเวลาที่มีข้อมูลที่สำรวจมากขึ้นเว้นแต่ข้อมูลในอดีตและไม่เกี่ยวข้องบางส่วนจะถูกลบออก เช่นเดียวกับมนุษย์เราลืมอดีตบางอย่างเพื่อเรียนรู้เพิ่มเติมจดจำปัจจุบันให้มากขึ้น

อุปสรรคทางเทคนิคในตอนแรกเป็นอุปสรรคในการนำไปใช้กับธุรกิจ ผู้คนอาจสร้างข้อมูลที่ได้รับการดูแลด้วยตนเองค่อนข้างรวดเร็วดังนั้นการเรียนรู้ภายใต้การดูแลมักจะเลือกก่อนไม่มีใครต้องการลอง RL

หาทรัพยากรบุคคลได้ยากขึ้น: วิศวกร AI ที่มีประสบการณ์ในการเรียนรู้ภายใต้การดูแลเป็นที่นิยมมากกว่าและหาได้ง่ายกว่า ทำงานกับ RL น้อยลงดังนั้นโครงการทางธุรกิจจึงไม่สามารถดำเนินการได้อย่างง่ายดายหากใช้ RL

อย่างไรก็ตามจากมุมมองของฉัน RL มีแนวโน้มอย่างมากในอนาคตเนื่องจากตอนนี้หน่วยงาน AI มีมากขึ้นด้วยตัวของมันเอง