Was sind die größten Hindernisse, um RL in Produktion zu bringen?

Jan 28 2021

Ich studiere den Stand der Technik des Reinforcement Learning und mein Punkt ist, dass wir in der realen Welt so viele Anwendungen mit überwachten und unbeaufsichtigten Lernalgorithmen in der Produktion sehen, aber ich sehe nicht dasselbe mit Reinforcement Learning-Algorithmen.

Was sind die größten Hindernisse, um RL in Produktion zu bringen?

Antworten

7 nbro Jan 28 2021 at 18:35

Es gibt ein relativ neues Papier, das sich mit diesem Thema befasst: Herausforderungen des realen Verstärkungslernens (2019) von Gabriel Dulac-Arnold et al., Das alle Herausforderungen aufzeigt, die angegangen werden müssen, um RL für Probleme der realen Welt zu produzieren Ansätze / Lösungen zur Lösung der Herausforderungen und Metriken zur Bewertung dieser Herausforderungen. Ich werde sie nur auflisten (basierend auf den Notizen, die ich vor einigen Wochen gemacht habe). Sie sollten das Papier für weitere Details lesen. In jedem Fall sind sie für Personen, die mit RL vertraut sind, ziemlich offensichtlich.

  1. Batch-Offline- und Off-Policy-Training
    • Eine aktuelle Lösung ist die Wichtigkeitsabtastung
  2. Lernen auf dem realen System aus begrenzten Stichproben (Ineffizienz der Stichproben)
    • Lösungen: MAML, verwenden Sie Expertendemonstrationen, um die modellbasierten Ansätze des Agenten zu booten
  3. Hochdimensionale kontinuierliche Zustands- und Aktionsräume
    • Lösungen: AE-DQN, DRRN
  4. Sicherheitsanforderungen erfüllen
    • Lösungen: eingeschränktes MDP, sichere Explorationsstrategien usw.
  5. Teilbeobachtbarkeit und Nichtstationarität
    • Lösungen für die teilweise Beobachtbarkeit: Einbeziehen der Geschichte in die Beobachtung, wiederkehrende neuronale Netze usw.
    • Lösungen für Nichtstationarität: Domain-Randomisierung oder Systemidentifikation
  6. Nicht spezifizierte und mehrzielige Belohnungsfunktionen
    • Lösungen: CVaR, Distributions-DQN
  7. Erklärbarkeit
  8. Echtzeit-Inferenz
  9. Systemverzögerungen (siehe auch diese und diese Antworten)

Es gibt auch ein neueres und verwandtes Papier. Eine empirische Untersuchung der Herausforderungen des realen Verstärkungslernens (2020) von Gabriel Dulac-Arnold et al., Und hier haben Sie den zugehörigen Code für die Experimente.

Beachten Sie jedoch, dass RL (insbesondere Banditen) bereits zur Lösung mindestens eines realen Problems verwendet wird [ 1 , 2 ]. Siehe auch diese Antwort.

4 datdinhquoc Jan 28 2021 at 16:56

Technische Hindernisse: Es sollten mindestens diese großen Hindernisse mit gesundem Menschenverstand vorhanden sein:

  • Durch die Trial-and-Error- Technik ist das Modell im Vergleich zu gebrauchsfertigen überwachten Daten schwer zu erlernen (zu viele)
  • Die Anzahl der Zeitschritte (die normalerweise der Anzahl der Aktionen des Agenten in der Flugbahn entspricht) ist groß. Daher funktioniert die Brute-Force-Erkundung nicht, da die Anzahl der Versuche, Fehler zu finden, exponentiell ist, obwohl negative Belohnungen dazu beitragen können, die Zeit zu verkürzen der Brute-Force-Baum.
  • Real-Life-RL benötigt eine unbegrenzte Anzahl von Episoden (für jede Episode sollte eine Abfolge von Aktionen gelernt werden), und das inkrementelle Training wird mit mehr erforschten Daten immer schwieriger, es sei denn, einige frühere und nicht mehr verwandte Daten werden entfernt Genau wie Menschen vergessen wir einen Teil der Vergangenheit, um mehr zu lernen und uns mehr an die Gegenwart zu erinnern.

Die technischen Hindernisse sind zunächst die Hindernisse für ihre Anwendung auf Unternehmen. Menschen können einige überwachte Daten ziemlich schnell manuell erstellen, und daher wird überwachtes Lernen normalerweise zuerst ausgewählt, niemand möchte RL ausprobieren.

Schwieriger, Humanressourcen zu finden: KI-Ingenieure mit Erfahrungen im überwachten Lernen sind beliebter und leichter zu finden. weniger Arbeit mit RL, daher sind Geschäftsprojekte mit RL nicht einfach durchzuführen.

Aus meiner Sicht ist RL jedoch in Zukunft sehr vielversprechend, da KI-Einheiten jetzt immer mehr auf sich allein gestellt sind.