El lenguaje de las modificaciones
Imagina describir una tarea para que la realice tu amigo. Es poco probable que lo hagan bien en el primer intento. A menudo, se necesitan comunicaciones adicionales para modificar y mejorar lo que se está haciendo hasta ahora.
En Neurips 2022, realicé un pequeño estudio para tener una idea de lo siguiente:
P1 : ¿Qué tan valioso es el proceso de modificación?
P2 : ¿Son diferentes los idiomas de modificación y descripción?
pica de telefono
Elegí la tarea del pictionario telefónico. Dada una imagen de inicio, un grupo de personas la describe alternativamente (usando palabras) y luego vuelve a dibujar la imagen en función de la descripción.
Esto continúa durante varias iteraciones. Como ves, el lenguaje es descriptivo y pretende que el dibujante recupere la imagen original en 1 toma.
pictionary de teléfono con modificaciones
¿Qué pasa si permitimos un paso adicional de modificación para corregir algunos de los errores? Se ve algo como esto:
Idealmente, Person1 y Person3 son la misma persona, el "programador", y Person2 y Person4 son la misma persona, el "intérprete". Hice que estas personas se separaran para evitar tener que emparejar un programador con un intérprete en la misma iteración.
Todos los datos recopilados se pueden explorar en este sitio web (es posible que algunas imágenes no se carguen de inmediato, simplemente haga clic en los botones para forzar la recarga).
P1: ¿Qué tan importante es el proceso de modificación?
Así es como la imagen original cambia con el tiempo dadas solo descripciones
Como puede ver, rápidamente nos convertimos en un rectángulo y un círculo.
Aquí está con descripciones y modificaciones.
Como podemos ver, con la modificación, pudimos retener más detalles y llegamos a un dibujo parecido a un osito de peluche.
Concluimos que el proceso de modificación es importante.
P2: ¿Son diferentes los idiomas para la descripción y la modificación?
¿Son diferentes los lenguajes de descripción y modificación? Primero transcribí todos los idiomas utilizados para formar texto .
Luego, podemos usar el aprendizaje de pocos disparos de gpt-3 para ver si puede distinguir de manera confiable el lenguaje descriptivo del lenguaje de modificación. Usé los textos de las primeras 2 generaciones como guía y evalué las 9 generaciones restantes.
Para las descripciones, obtenemos una identificación correcta 9/9 veces. Para modificaciones, obtenemos una identificación correcta 7/9 veces.
Concluimos que los lenguajes de descripción y modificación son diferentes.
Algunas observaciones logísticas
Este estudio consta de aproximadamente 12 generaciones de 2 condiciones, una sin modificaciones (2 participantes) y otra con modificaciones (4 participantes). (2+4)*12 o aproximadamente 70 participantes en total. Cada punto de datos tarda aproximadamente 4 minutos en recopilarse (1 minuto de explicación de la tarea y 2 o 3 minutos de espera para que generen la respuesta), para un total de aproximadamente 5 horas de tiempo. Esta publicación de blog y el sitio web interactivo asociado y el estudio gpt3 tomaron alrededor de 10 horas, para un total de 15 horas de trabajo.
Me alegro de poder hacer la recopilación de datos en neurips, donde la calidad de los datos es alta, los anotadores entendieron bien la tarea y no tengo que hacer girar un sitio web y alojarlo en Prolific.
Conclusión
La modificación es valiosa : sin ella, nuestro dibujo de una persona se convierte en solo un rectángulo y un círculo. El lenguaje de modificación es diferente al de la descripción : gpt3 puede diferenciar uno de otro de manera confiable.
Los modelos básicos actuales, como el clip y la difusión estable, se entrenan utilizando datos descriptivos, como pares de imágenes y leyendas. En consecuencia, si bien pueden generar resultados impresionantes en un disparo, es difícil interactuar más con ellos para modificar y refinar la salida actual.
Deberíamos recopilar más conjuntos de datos de modificaciones, donde el hablante usa el lenguaje para decirle al oyente cómo modificar y mejorar una salida existente. Ya hay varios esfuerzos en esta dirección, principalmente en el dominio de las ediciones de texto y código, lo cual es un comienzo prometedor.
— Evan 2022–12–05
pd: muchas gracias a todos los que participaron en este estudio, es atípico que alguien se te acerque en una conferencia y te pida dibujos, pero fuiste muy amable conmigo y aguantaste. Este blog está escrito para ti.

![¿Qué es una lista vinculada, de todos modos? [Parte 1]](https://post.nghiatu.com/assets/images/m/max/724/1*Xokk6XOjWyIGCBujkJsCzQ.jpeg)



































