Jakie są największe przeszkody w uzyskaniu RL w produkcji?

Jan 28 2021

Studiuję stan techniki uczenia się ze wzmocnieniem i chodzi mi o to, że widzimy tak wiele aplikacji w prawdziwym świecie wykorzystujących algorytmy uczenia nadzorowanego i nienadzorowanego w środowisku produkcyjnym, ale nie widzę tego samego w algorytmach uczenia się ze wzmocnieniem.

Jakie są największe przeszkody w uzyskaniu RL w produkcji?

Odpowiedzi

7 nbro Jan 28 2021 at 18:35

Istnieje stosunkowo nowy artykuł, który porusza tę kwestię: Challenges of real wzmacnianie learning (2019) Gabriel Dulac-Arnold et al. podejścia / rozwiązania do rozwiązywania problemów i metryki do ich oceny. Wymienię je tylko (na podstawie notatek, które zrobiłem kilka tygodni temu). Aby uzyskać więcej informacji, przeczytaj artykuł. W każdym razie dla osób zaznajomionych z RL będą one dość oczywiste.

  1. Szkolenia grupowe off-line i off-policy
    • Jednym z aktualnych rozwiązań jest pobieranie próbek ważnych
  2. Uczenie się na rzeczywistym systemie na podstawie ograniczonych próbek (nieefektywność próbki)
    • Rozwiązania: MAML, użyj demonstracji ekspertów do załadowania agenta, podejścia oparte na modelach
  3. Wysokowymiarowe ciągłe przestrzenie stanu i akcji
    • Rozwiązania: AE-DQN, DRRN
  4. Spełnianie ograniczeń bezpieczeństwa
    • Rozwiązania: ograniczony MDP, bezpieczne strategie eksploracji itp.
  5. Częściowa obserwowalność i niestacjonarność
    • Rozwiązania dotyczące częściowej obserwowalności: włącz historię do obserwacji, powtarzające się sieci neuronowe itp.
    • Rozwiązania dla niestacjonarności: randomizacja domeny lub identyfikacja systemu
  6. Nieokreślone i wielofunkcyjne funkcje nagród
    • Rozwiązania: CVaR, Distributional DQN
  7. Wytłumaczalność
  8. Wnioskowanie w czasie rzeczywistym
  9. Opóźnienia systemu (zobacz także tę i tę odpowiedź)

Istnieje również nowszy i pokrewny artykuł. Badanie empiryczne wyzwań związanych z uczeniem się ze wzmocnieniem w świecie rzeczywistym (2020) autorstwa Gabriela Dulac-Arnolda i in., A tutaj masz powiązany kod z eksperymentami.

Zwróć jednak uwagę, że RL (w szczególności bandyci) jest już używany do rozwiązania przynajmniej jednego problemu w świecie rzeczywistym [ 1 , 2 ]. Zobacz także tę odpowiedź.

4 datdinhquoc Jan 28 2021 at 16:56

Bariery techniczne: Powinny istnieć przynajmniej te duże bariery zdroworozsądkowe:

  • Technika prób i błędów sprawia, że ​​model jest trudny do nauczenia (zbyt wiele) w porównaniu z gotowymi do użycia nadzorowanymi danymi
  • Liczba kroków czasowych (która zwykle jest równa liczbie działań agenta na trajektorii) jest duża, dlatego eksploracja siłowa nie zadziała, ponieważ liczba prób znalezienia błędów jest wykładnicza, chociaż negatywne nagrody mogą pomóc w skróceniu drzewo siłowe.
  • RL w prawdziwym życiu zajmuje nieograniczoną liczbę epizodów (dla każdego odcinka należy nauczyć się sekwencji działań), a trening przyrostowy jest coraz trudniejszy w czasie z bardziej zbadanymi danymi, chyba że niektóre przeszłe i nie związane z nimi dane zostaną usunięte , podobnie jak ludzie, zapominamy o przeszłości, aby dowiedzieć się więcej, zapamiętać więcej teraźniejszości.

Bariery techniczne są na początku barierami w ich stosowaniu w biznesie. Ludzie mogą dość szybko tworzyć nadzorowane dane ręcznie, dlatego też uczenie nadzorowane jest zwykle wybierane jako pierwsze, nikt nie chce wypróbować RL.

Trudniej znaleźć zasoby ludzkie: inżynierowie AI z doświadczeniem w nauczaniu nadzorowanym są bardziej popularni i łatwiej je znaleźć; mniej pracy z RL, dlatego projekty biznesowe nie są łatwe do wykonania przy użyciu RL.

Jednak z mojego punktu widzenia RL jest bardzo obiecująca w przyszłości, ponieważ podmioty AI są teraz coraz bardziej samodzielne.