Una teoria sull'approccio di Tesla all'apprendimento dell'imitazione

Jan 09 2021
Copiare il comportamento dei conducenti utilizzando reti neurali
Come può Tesla sfruttare al meglio la sua flotta di circa 600.000 auto dotate di hardware "Full Self-Driving"? Più specificamente, come può sfruttare questa flotta per l'apprendimento dell'imitazione: addestrare le reti neurali per emulare il comportamento umano. La semplice raccolta di tutti i dati da tutte le auto tutto il tempo non sarebbe utile.
Tesla Model 3. Foto di Taun Stewart.

Come può Tesla sfruttare al meglio la sua flotta di circa 600.000 auto dotate di hardware "Full Self-Driving"? Più specificamente, come può sfruttare questa flotta per l' apprendimento dell'imitazione : addestrare le reti neurali per emulare il comportamento umano. La semplice raccolta di tutti i dati da tutte le auto per tutto il tempo non sarebbe utile. Dopo un certo punto, le reti neurali domineranno seguendo le linee di corsia su tratti rettilinei di autostrada. Aggiungere altri esempi di ciò alla pila non fa altro che annacquare il set di dati e spingere le reti neurali a pensare che dovrebbero andare avanti. Dobbiamo restringere ciò che raccogliamo.

Esistono diversi modi per attivare un caricamento. Quando un conducente frena forte o fa sobbalzare la ruota. Quando una rete neurale rileva un certo tipo di oggetto come un cavallo o un certo tipo di scena come una zona di costruzione. Un'altra idea è quella di addestrare le reti neurali a guidare attraverso l'imitazione dell'apprendimento e quindi eseguirle passivamente in macchina ogni volta che un essere umano guida. Ogni volta che l'output delle reti neurali è un'azione diversa da ciò che ha effettivamente fatto il driver umano, attiva un caricamento. Elon Musk ha accennato alla capacità di Tesla di eseguire passivamente il software di guida autonoma nelle auto, definendolo "modalità ombra". Lo scopo dichiarato della modalità shadow è confrontare l'output del software con l'azione umana. Quindi, la scelta dei dati da raccogliere per l'apprendimento dell'imitazione sembra un'applicazione perfetta per la modalità ombra.

Questa idea è simile a ciò che Tesla fa per raccogliere dati per le sue reti di previsione del comportamento. Vale a dire, il suo rilevatore di accensione:

Il rilevatore di accensione prevede cosa farà un'auto. Quando l'auto fa qualcosa di diverso da quanto previsto dal rilevatore di intervento, l'esempio viene caricato per addestrare ulteriormente il rilevatore di intervento.

La previsione del comportamento e la generazione del comportamento - a cui l'apprendimento dell'imitazione è un approccio - sono due facce della stessa medaglia. Le reti di previsione del comportamento prevedono cosa faranno i conducenti attorno alla Tesla. Le reti di imitazione prevedono cosa farà il guidatore all'interno della Tesla. In entrambi i casi, si applica lo stesso principio: quando le reti fanno una previsione errata, carica i dati e si allenano su quell'esempio.

Tesla può - in teoria - testare passivamente quanto spesso le reti di imitazione e i conducenti umani non sono d'accordo. Una volta che i disaccordi sono al di sotto di una certa soglia di sicurezza, le reti di imitazione possono passare al funzionamento di una funzione di pilota automatico come le svolte a destra automatiche. Una volta che ciò accade, è possibile utilizzare gli interventi del pilota automatico per attivare i caricamenti. Questo potrebbe essere ciò che Elon intende quando dice "visualizza tutti gli input come errori":

Quando il conducente umano subentra all'Autopilot, dimostra prontamente cosa dovrebbe fare l'Autopilot, facendolo. I fallimenti di imitazione generano così nuovi esempi di addestramento. È lo stesso principio del rilevatore di cut-in: i casi di guasto sono gli esempi di addestramento.

La flotta di Tesla sta guidando qualcosa nell'ordine di 20 milioni di miglia (32 milioni di chilometri) ogni giorno. La modalità Shadow e gli interventi del pilota automatico sono due potenziali modi per curare automaticamente i dati della flotta e caricare solo gli esempi più utili. Se le coppie stato-azione per l'apprendimento dell'imitazione sono l'output della rete di visione (lo stato) e il percorso dell'auto determinato dal guidatore (l'azione), anche i dati vengono etichettati automaticamente. Pertanto, la pipeline di machine learning può essere automatizzata dalla raccolta dei dati all'addestramento della rete neurale. L'automazione consente a Tesla di sfruttare qualcosa come 250 volte più dati di tutti i suoi concorrenti messi insieme senza utilizzare una quantità proporzionalmente maggiore di lavoro umano.

Il collo di bottiglia più ovvio a questo approccio (in parte ipotetico) all'apprendimento dell'imitazione è la risoluzione della visione artificiale. Questo è qualcosa su cui il team di visione artificiale di Tesla, guidato da Andrej Karpathy, sta lavorando attivamente. Karpathy ei suoi colleghi stanno sviluppando una grande rete multi-task che non è ancora stata distribuita alle auto di produzione (per quanto ne so). L'ultima volta che abbiamo sentito, viene utilizzato solo il 5-10% del nuovo hardware di elaborazione di Tesla. In precedenza, Karpathy ha espresso entusiasmo per l'implementazione di nuove reti neurali più grandi che non potevano adattarsi al vecchio hardware. Non li abbiamo ancora visti.

Questo è un processo che può essere rallentato in più punti: il lavoro di sviluppo della rete neurale da parte di Karpathy e del team, il lavoro di etichettatura dei dati da parte degli annotatori umani di Tesla, lo sviluppo del software di etichettatura dei dati, i percorsi di addestramento della rete neurale (che è un compromesso tra denaro e tempo) e testare sul campo la nuova rete di visione sulle auto. La cronologia di Elon suggerirebbe che vedremo la nuova rete di visione nelle auto di produzione entro la fine dell'anno, ma questo processo è difficile da prevedere ed Elon spesso salta la pistola. Il punto importante è che si tratta di un collo di bottiglia abbastanza binario: o viene distribuita la rete di visione più grande e più intensiva dal punto di vista computazionale o non lo è. Quando viene implementato, l'apprendimento dell'imitazione può iniziare sul serio. Lo stesso con la previsione del comportamento, che segue la stessa pipeline di machine learning automatizzato dell'apprendimento dell'imitazione. La previsione del comportamento è solo il rovescio della medaglia della generazione del comportamento. La previsione del comportamento prevede il comportamento degli altri conducenti. La generazione del comportamento prevede il comportamento dei conducenti Tesla.

L'apprendimento dell'imitazione e la previsione del comportamento saranno ancora rallentati dallo sviluppo della rete neurale, dai corsi di formazione e dai test sul campo, ma non dall'etichettatura. Deve essere scritto anche un software non di apprendimento profondo, come il software di controllo che traduce i comportamenti di alto livello in comandi dell'attuatore (cioè frenata, accelerazione e sterzo). Questi fattori di rallentamento rendono difficile prevedere quando vedremo Tesla fare l'imitazione dell'apprendimento nella sua massima estensione. Supponendo che Tesla sia stata in grado di reclutare ricercatori e ingegneri del deep learning ai vertici dei loro campi a livello globale, allora quando l'apprendimento dell'imitazione è in pieno vigore, le prestazioni del software di Tesla saranno limitate solo dai principi fondamentali dell'apprendimento profondo (come esiste oggi ). In questo senso, il lavoro di Tesla sull'imitazione dell'apprendimento sarà un test scientifico dei principi fondamentali dell'apprendimento profondo. Sarà un risultato empirico che non potrà essere ottenuto da nessuna istituzione accademica o laboratorio aziendale. Come altri esperimenti, il risultato non può essere previsto con certezza.

Nel 2021, se tutto il lavoro attualmente in corso viene svolto e l'apprendimento dell'imitazione è in pieno vigore, allora possiamo iniziare a trarre conclusioni fondamentali sull'apprendimento profondo (come esiste oggi) dalle prestazioni della produzione di Tesla in natura. Fino a quando quel lavoro non sarà finito, non sapremo se l'approccio di Tesla fondamentalmente non funziona o se non è stato ancora provato sul serio.

L'apprendimento dell'imitazione potrebbe fallire o potrebbe rivelarsi che l'apprendimento supervisionato profondo (come lo conosciamo) non è sufficiente per risolvere i compiti di visione artificiale 3D necessari per la guida. Forse abbiamo bisogno di architetture di rete neurale fondamentalmente nuove e innovative, o forse, come propone Yann LeCun, abbiamo bisogno di passare all'apprendimento autogestito. Forse l'apprendimento end-to-end è la risposta. Ha funzionato per Quake!

L'apprendimento dell'imitazione potrebbe fallire per una serie di motivi. Forse si verificano situazioni completamente nuove così spesso che non è possibile imparare da esse prima che confondano un'auto con il pilota automatico. Forse invece di riflettere la piena diversità e complessità delle manovre di guida, le reti di imitazione regrediranno alla media e faranno semplicemente la media delle dimostrazioni su cui sono addestrate. Forse l'apprendimento dell'imitazione non sarà in grado di ottenere il suo tasso di errore al di sotto di una soglia accettabile per una guida sicura.

Oppure potrebbe rivelarsi che, man mano che la flotta di Tesla cresce fino a 1 milione di auto e oltre, l'aumento di 1000 volte dei dati di addestramento fa funzionare le tecniche all'avanguardia esistenti, forse insieme a qualche innovazione incrementale da parte dei ricercatori e ingegneri di Tesla. Molti successi di deep learning non si sarebbero verificati con 1/1000 dei dati di addestramento. Risolvere i problemi con dati scarsi è AGI o qualcosa che si avvicina. Risolvere i problemi con dati di grandi dimensioni è un apprendimento profondo.

Casi di fallimento umano - incidenti - si verificano circa ogni 500.000 miglia (800.000 chilometri). Con 20 milioni di miglia (32 milioni di chilometri) di guida umana, avresti circa 40 esempi di incidenti. Con 20 miliardi di miglia, avresti circa 40.000 esempi. Sembra più una scala di apprendimento profondo. Se il tasso di incidenti umani è indicativo del tasso di casi limite rari e della scala complessiva necessaria per catturare l'intera diversità e complessità della guida, allora miliardi di miglia - e non milioni - sono la scala giusta. A 20 milioni di miglia al giorno, l'attuale flotta di Tesla viaggia a una velocità compresa tra 7 e 8 miliardi di miglia all'anno. (Questo prima di contare le nuove auto che verranno aggiunte alla flotta.)

Se l'approccio di Tesla avrà successo, non avremo solo auto a guida autonoma. Sapremo anche che la scala fa funzionare le tecniche esistenti per i robot. Potrebbe non essere così facile convincere gli esseri umani a far funzionare robot diversi dalle automobili per milioni di ore, ma una volta che il percorso tecnico sarà dimostrato, forse l'economia si risolverà. A $ 15 / ora, 100 milioni di ore di dimostrazioni equivalgono a $ 1,5 miliardi, meno di quanto spende Cruise in due anni. Forse fabbriche, miniere, fattorie, cantieri, magazzini, negozi e ristoranti potrebbero utilizzare robot che rendono utile questo tipo di spesa in ricerca e sviluppo.

Se l'approccio di Tesla fallisce, esiste un piano B. Tesla sta sviluppando un computer di addestramento per reti neurali denominato Dojo. La sua destinazione d'uso non è chiara, ma può essere intesa per l'apprendimento auto-supervisionato o l' apprendimento end-to-end . Si tratta di approcci più all'avanguardia rispetto all'attuale approccio di Tesla all'apprendimento supervisionato per la visione artificiale. L'apprendimento autogestito potrebbe superare l'apprendimento supervisionato sfruttando ordini di grandezza in più di dati video senza la necessità di etichettatura umana. L'apprendimento end-to-end eliminerebbe le astrazioni create dall'uomo come i confini che attualmente si trovano tra la visione artificiale e l'apprendimento dell'imitazione. Potrebbe assumere la forma di apprendimento di imitazione end-to-end, apprendimento di rinforzo end-to-end o entrambi. Ripiegare sul piano B probabilmente ritarderebbe la tempistica di Tesla per i robotaxis di anni e il piano B non è garantito che funzioni. Ma significherebbe che il fallimento non è la fine della linea.