Quali sono i maggiori ostacoli per ottenere RL in produzione?
Sto studiando lo stato dell'arte del Reinforcement Learning e il punto è che vediamo così tante applicazioni nel mondo reale che utilizzano algoritmi di apprendimento supervisionato e non supervisionato in produzione, ma non vedo la stessa cosa con gli algoritmi di apprendimento per rinforzo.
Quali sono i maggiori ostacoli per ottenere RL in produzione?
Risposte
C'è un documento relativamente recente che affronta questo problema: Challenges of real-world reinforcement learning (2019) di Gabriel Dulac-Arnold et al., Che presenta tutte le sfide che devono essere affrontate per produrre RL ai problemi del mondo reale, l'attuale approcci / soluzioni per risolvere le sfide e metriche per valutarle. Li elencherò solo (in base agli appunti che avevo preso qualche settimana fa). Dovresti leggere il documento per maggiori dettagli. In ogni caso, per le persone che hanno familiarità con RL, saranno abbastanza ovvie.
- Formazione in batch off-line e off-policy
- Una soluzione attuale è il campionamento dell'importanza
- Apprendimento sul sistema reale da campioni limitati (inefficienza del campione)
- Soluzioni: MAML, utilizzare dimostrazioni di esperti per eseguire il bootstrap dell'agente, approcci basati sul modello
- Spazi di stato e di azione continui ad alta dimensione
- Soluzioni: AE-DQN, DRRN
- Soddisfare i vincoli di sicurezza
- Soluzioni: MDP vincolato, strategie di esplorazione sicura, ecc.
- Osservabilità parziale e non stazionarietà
- Soluzioni all'osservabilità parziale: incorporare la storia nell'osservazione, reti neurali ricorrenti, ecc.
- Soluzioni alla non stazionarietà: randomizzazione del dominio o identificazione del sistema
- Funzioni di ricompensa non specificate e multi-obiettivo
- Soluzioni: CVaR, Distributional DQN
- Spiegabilità
- Inferenza in tempo reale
- Ritardi del sistema (vedi anche questa e questa risposte)
C'è anche un documento più recente e correlato Un'indagine empirica delle sfide dell'apprendimento per rinforzo nel mondo reale (2020) di Gabriel Dulac-Arnold et al, e qui hai il codice associato agli esperimenti.
Tuttavia, si noti che RL (in particolare, banditi) è già utilizzato per risolvere almeno un problema del mondo reale [ 1 , 2 ]. Vedi anche questa risposta.
Barriere tecniche: dovrebbero esserci almeno queste grandi barriere di buon senso:
- La tecnica di prova ed errore rende il modello difficile da apprendere (troppi), rispetto ai dati supervisionati pronti per l'uso
- Il numero di passaggi temporali (che di solito è uguale al numero di azioni dell'agente nella traiettoria) è ampio, quindi l'esplorazione della forza bruta non funzionerà poiché il numero di prove per trovare errori è esponenziale, sebbene i premi negativi possano aiutare a tagliare corto l'albero della forza bruta.
- RL nella vita reale richiede un numero illimitato di episodi (per ogni episodio, è necessario apprendere una sequenza di azioni) e l'addestramento incrementale è sempre più difficile nel tempo con dati più esplorati, a meno che alcuni dati passati e non più correlati vengano rimossi , proprio come gli umani, dimentichiamo un po 'del passato per imparare di più, ricordare di più il presente.
Le barriere tecniche sono in un primo momento le barriere per applicarle alle imprese. Le persone possono produrre alcuni dati supervisionati manualmente piuttosto rapidamente, quindi l'apprendimento supervisionato viene solitamente scelto per primo, nessuno desidera provare RL.
Più difficile trovare risorse umane: gli ingegneri di intelligenza artificiale con esperienza nell'apprendimento supervisionato sono più popolari e più facili da trovare; meno lavoro con RL, quindi i progetti aziendali non vengono eseguiti facilmente se si utilizza RL.
Tuttavia, dal mio punto di vista, RL è molto promettente in futuro poiché le entità AI sono ora sempre più sole.