Il linguaggio delle modifiche

Dec 08 2022
un breve studio sui linguaggi delle descrizioni e delle modifiche
Immagina di descrivere un compito che il tuo amico deve eseguire. È improbabile che lo facciano bene al primo tentativo.

Immagina di descrivere un compito che il tuo amico deve eseguire. È improbabile che lo facciano bene al primo tentativo. Spesso sono necessarie ulteriori comunicazioni per modificare e migliorare quanto fatto finora.

A Neurips 2022, ho condotto un piccolo studio per avere un'idea di quanto segue:

D1 : Quanto è prezioso il processo di modifica?

D2 : Le lingue di modifica e descrizione sono diverse?

immagine telefonica

Ho scelto il compito di rappresentazione del telefono. Data un'immagine iniziale, un gruppo di persone alternativamente la descrive (utilizzando parole), quindi ridisegna l'immagine in base alla descrizione.

Person1 vede l'immagine della generazione precedente e ne fornisce una descrizione. Person2 vede solo la descrizione e tenta di recuperare l'immagine originale.

Questo continua per diverse iterazioni. Come puoi vedere, il linguaggio è descrittivo e mira a far recuperare al disegnatore l'immagine originale in 1 scatto.

pictionary telefono con modifiche

Cosa succede se consentiamo un ulteriore passaggio di modifica per correggere alcuni degli errori? Assomiglia a questo:

Person1 utilizza un linguaggio descrittivo in modo che Person2 possa generare un'immagine da zero. Person3 utilizza un linguaggio di modifica in modo che Person4 possa alterare un'immagine esistente.

Idealmente, Person1 e Person3 sono la stessa persona — il "programmatore", e Person2 e Person4 sono la stessa persona — l'"interprete". Ho separato queste persone per evitare di dover accoppiare un programmatore con un interprete nella stessa iterazione.

Tutti i dati raccolti possono essere consultati su questo sito Web (alcune immagini potrebbero non caricarsi immediatamente, basta fare clic sui pulsanti per forzarne il ricaricamento).

D1: Quanto è importante il processo di modifica?

Ecco come l'immagine originale cambia nel tempo date solo le descrizioni

Come puoi vedere, ci siamo rapidamente trasformati in un rettangolo e un cerchio.

Ecco sia le descrizioni che le modifiche

Come possiamo vedere, con la modifica, siamo riusciti a conservare più dettagli e arriviamo a un disegno simile a un orsacchiotto.

Concludiamo che il processo di modifica è importante.

D2: Le lingue per la descrizione e la modifica sono diverse?

Le lingue di descrizione e modifica sono diverse? Per prima cosa ho trascritto tutte le lingue utilizzate in forma di testo .

Quindi, possiamo utilizzare l'apprendimento di pochi colpi di gpt-3 per vedere se è in grado di distinguere in modo affidabile il linguaggio descrittivo dal linguaggio di modifica. Ho utilizzato i testi delle prime 2 generazioni come prompt e valutato sulle restanti 9 generazioni.

Per le descrizioni, otteniamo un'identificazione corretta 9/9 volte. Per le modifiche, otteniamo una corretta identificazione 7/9 volte.

Concludiamo che i linguaggi di descrizione e modifica sono diversi.

Alcune osservazioni logistiche

Questo studio consiste in circa 12 generazioni di 2 condizioni, una senza modifiche (2 partecipanti) e una con modifiche (4 partecipanti). (2+4)*12 o circa 70 partecipanti in totale. Ogni punto dati richiede circa 4 minuti per essere raccolto (1 minuto di spiegazione dell'attività e 2-3 minuti di attesa per generare la risposta), per un totale di circa 5 ore di tempo. Questo post sul blog e il sito Web interattivo associato e lo studio gpt3 hanno richiesto circa 10 ore, per un totale di 15 ore di lavoro.

Sono contento di poter raccogliere i dati presso neurips, dove la qualità dei dati è elevata, gli annotatori hanno compreso bene il compito e non devo creare un sito Web e ospitarlo su Prolific.

Conclusione

La modifica è preziosa : senza di essa, il nostro disegno di una persona si trasforma solo in un rettangolo e un cerchio. Il linguaggio della modifica è diverso da quello della descrizione : gpt3 può distinguere in modo affidabile l'uno dall'altro.

Gli attuali modelli di base come clip e diffusione stabile vengono addestrati utilizzando dati descrittivi come coppie immagine-didascalia. Di conseguenza, mentre possono generare risultati impressionanti in 1 colpo, è difficile interagire ulteriormente con loro per modificare e perfezionare l'output corrente.

Dovremmo raccogliere più set di dati di modifiche, in cui l'oratore usa il linguaggio per dire all'ascoltatore come modificare e migliorare un output esistente. Ci sono già diversi sforzi in questa direzione, soprattutto nel campo delle modifiche al testo e al codice, il che è un inizio promettente.

— evan 2022–12–05

ps un enorme grazie a tutti coloro che hanno partecipato a questo studio, è atipico che qualcuno ti avvicini a una conferenza e ti chieda dei disegni, ma tu sei stato così gentile con me e hai sopportato. questo blog è scritto per te.