A Linguagem das Modificações
Imagine descrever uma tarefa para seu amigo realizar. É improvável que eles acertem na primeira tentativa. Muitas vezes, comunicações adicionais são necessárias para modificar e melhorar o que está sendo feito até agora.
No Neurips 2022, realizei um pequeno estudo para ter uma noção do seguinte:
Q1 : Qual é o valor do processo de modificação?
Q2 : Os idiomas de modificação e descrição são diferentes?
imagem de telefone
Eu escolhi a tarefa do telefone-pictionary. Dada uma imagem inicial, um grupo de pessoas a descreve alternativamente (usando palavras), redesenhando a imagem com base na descrição.
Isso continua por várias iterações. Como você pode ver, a linguagem é descritiva e visa fazer com que o desenhista recupere a imagem original em 1 tiro.
pictionary telefone com modificações
E se permitirmos uma etapa adicional de modificação para corrigir alguns dos erros? Parece algo assim:
Idealmente, Person1 e Person3 são a mesma pessoa — o “programador”, e Person2 e Person4 são a mesma pessoa — o “intérprete”. Separei essas pessoas para evitar ter que emparelhar um programador com um interpretador na mesma iteração.
Todos os dados coletados podem ser navegados neste site (algumas imagens podem não carregar imediatamente, basta clicar nos botões para forçar o recarregamento).
Q1: Qual a importância do processo de modificação?
Veja como a imagem original muda ao longo do tempo, dadas apenas descrições
Como você pode ver, rapidamente evoluímos para apenas um retângulo e um círculo.
Aqui está com as descrições e modificações
Como podemos ver, com modificações, conseguimos reter mais detalhes e chegamos a um desenho parecido com um ursinho de pelúcia.
Concluímos que o processo de modificação é importante.
Q2: Os idiomas para descrição e modificação são diferentes?
As linguagens de descrição e modificação são diferentes? Primeiro transcrevi todas as línguas usadas para formar texto .
Em seguida, podemos usar o aprendizado de poucos tiros do gpt-3 para ver se ele pode distinguir com segurança a linguagem descritiva da linguagem de modificação. Usei os textos das 2 primeiras gerações como prompt e avaliei nas 9 gerações restantes.
Para descrições, obtemos uma identificação correta 9/9 vezes. Para modificações, obtemos uma identificação correta 7/9 vezes.
Concluímos que as linguagens de descrição e modificação são diferentes.
Algumas observações logísticas
Este estudo consiste em aproximadamente 12 gerações de 2 condições, uma sem modificações (2 participantes) e outra com modificações (4 participantes). (2+4)*12 ou aproximadamente 70 participantes no total. Cada ponto de dados leva aproximadamente 4 minutos para ser coletado (1 minuto de explicação da tarefa e 2 a 3 minutos de espera para gerar a resposta), totalizando aproximadamente 5 horas. Esta postagem no blog e o site interativo associado e o estudo gpt3 levaram cerca de 10 horas, totalizando 15 horas de trabalho.
Estou feliz por fazer a coleta de dados no neurips, onde a qualidade dos dados é alta, os anotadores entenderam bem a tarefa e não preciso criar um site e hospedá-lo no prolific.
Conclusão
A modificação é valiosa - sem ela, nosso desenho de uma pessoa se transforma em apenas um retângulo e um círculo. A linguagem da modificação é diferente daquela da descrição — o gpt3 pode diferenciar com segurança um do outro.
Os modelos básicos atuais, como clipe e difusão estável, são treinados usando dados descritivos, como pares de legenda de imagem. Conseqüentemente, enquanto eles podem gerar resultados impressionantes de uma só vez, é difícil interagir com eles ainda mais para modificar e refinar a saída atual.
Deveríamos estar coletando mais conjuntos de dados de modificações, onde o falante usa a linguagem para dizer ao ouvinte como modificar e melhorar uma saída existente. Já existem vários esforços nessa direção, principalmente no domínio de edição de texto e código, o que é um começo promissor.
- evan 2022–12–05
ps um grande obrigado a todos que participaram deste estudo, é atípico alguém abordar você em uma conferência e pedir desenhos, mas você foi tão gentil comigo e aguentou isso. este blog foi escrito para você.





































![O que é uma lista vinculada, afinal? [Parte 1]](https://post.nghiatu.com/assets/images/m/max/724/1*Xokk6XOjWyIGCBujkJsCzQ.jpeg)