Die Sprache der Modifikationen

Dec 08 2022
eine kurze Studie über die Sprachen der Beschreibungen und Modifikationen
Stellen Sie sich vor, Sie beschreiben eine Aufgabe, die Ihr Freund ausführen soll. Es ist unwahrscheinlich, dass sie es gleich beim ersten Versuch schaffen.

Stellen Sie sich vor, Sie beschreiben eine Aufgabe, die Ihr Freund ausführen soll. Es ist unwahrscheinlich, dass sie es gleich beim ersten Versuch schaffen. Häufig sind zusätzliche Mitteilungen erforderlich, um die bisherigen Maßnahmen zu ändern und zu verbessern .

Auf der Neurips 2022 habe ich eine kleine Studie durchgeführt, um ein Gefühl für Folgendes zu bekommen:

Q1 : Wie wertvoll ist der Änderungsprozess?

Q2 : Unterscheiden sich die Modifikations- und Beschreibungssprachen?

Telefon bildhaft

Ich habe mich für die telefonisch-bildliche Aufgabe entschieden. Wenn ein Startbild gegeben ist, beschreibt eine Gruppe von Personen es alternativ (unter Verwendung von Wörtern) und zeichnet dann das Bild basierend auf der Beschreibung neu.

Person1 sieht das Bild der vorherigen Generation und gibt eine Beschreibung. Person2 sieht nur die Beschreibung und versucht, das Originalbild wiederherzustellen.

Dies wird für mehrere Iterationen fortgesetzt. Wie Sie sehen können, ist die Sprache beschreibend und zielt darauf ab, dass der Zeichner das Originalbild in einer Aufnahme wiederherstellt.

Telefonbild mit Modifikationen

Was wäre, wenn wir einen zusätzlichen Modifikationsschritt zulassen, um einige der Fehler zu korrigieren? Es sieht in etwa so aus:

Person1 verwendet eine beschreibende Sprache, damit Person2 ein Bild von Grund auf neu erstellen kann. Person3 verwendet eine Modifikationssprache, damit Person4 ein vorhandenes Bild ändern kann.

Idealerweise sind Person1 und Person3 dieselbe Person – der „Programmierer“ und Person2 und Person4 sind dieselbe Person – der „Interpreter“. Ich habe diese Leute getrennt, um zu vermeiden, dass ein Programmierer mit einem Interpreter in derselben Iteration gekoppelt werden muss.

Alle gesammelten Daten können auf dieser Website durchsucht werden (einige Bilder werden möglicherweise nicht sofort geladen, klicken Sie einfach auf die Schaltflächen, um ein erneutes Laden zu erzwingen).

F1: Wie wichtig ist der Änderungsprozess?

So ändert sich das Originalbild im Laufe der Zeit, wenn nur Beschreibungen angegeben werden

Wie Sie sehen können, entwickelten wir uns schnell zu einem Rechteck und einem Kreis.

Hier ist mit Beschreibungen und Modifikationen

Wie wir sehen können, konnten wir mit der Modifikation mehr Details beibehalten und gelangen zu einer teddybärähnlichen Zeichnung.

Wir schließen daraus, dass der Prozess der Modifikation wichtig ist.

F2: Unterscheiden sich die Sprachen für Beschreibung und Änderung?

Unterscheiden sich Beschreibungs- und Modifikationssprache? Ich habe zunächst alle verwendeten Sprachen in Textform transkribiert .

Dann können wir das Lernen mit wenigen Schüssen von gpt-3 verwenden, um zu sehen, ob es zuverlässig zwischen beschreibender Sprache und Modifikationssprache unterscheiden kann. Ich habe die Texte der ersten 2 Generationen als Eingabeaufforderung verwendet und die verbleibenden 9 Generationen ausgewertet.

Bei Beschreibungen erhalten wir 9/9 Mal eine korrekte Identifikation. Bei Modifikationen erhalten wir 7/9 Mal eine korrekte Identifikation.

Wir schließen daraus, dass die Sprachen der Beschreibung und Modifikation unterschiedlich sind.

Ein paar logistische Bemerkungen

Diese Studie besteht aus etwa 12 Generationen mit 2 Bedingungen, eine ohne Modifikationen (2 Teilnehmer) und eine mit Modifikationen (4 Teilnehmer). (2+4)*12 oder ungefähr 70 Teilnehmer insgesamt. Das Sammeln jedes Datenpunkts dauert ungefähr 4 Minuten (1 Minute Erklärung der Aufgabe und 2–3 Minuten Warten auf die Generierung der Antwort), was insgesamt ungefähr 5 Stunden Zeit bedeutet. Dieser Blogbeitrag und die dazugehörige interaktive Website und gpt3-Studie haben ungefähr 10 Stunden gedauert, also insgesamt 15 Stunden Arbeit.

Ich bin froh, dass ich die Datenerfassung bei neurips machen darf, wo die Datenqualität hoch ist, die Annotatoren die Aufgabe gut verstanden haben und ich keine Website erstellen und auf Prolific hosten muss.

Fazit

Die Modifikation ist wertvoll – ohne sie verwandelt sich unsere Zeichnung einer Person nur in ein Rechteck und einen Kreis. Die Sprache der Modifikation unterscheidet sich von der der Beschreibung – gpt3 kann sie zuverlässig voneinander unterscheiden.

Aktuelle grundlegende Modelle wie Clip und Stable-Diffusion werden mit deskriptiven Daten wie Bild-Beschriftungs-Paaren trainiert. Folglich können sie zwar in einem Schuss beeindruckende Ergebnisse erzielen, es ist jedoch schwierig, weiter mit ihnen zu interagieren, um die aktuelle Ausgabe zu modifizieren und zu verfeinern.

Wir sollten mehr Datensätze von Änderungen sammeln, bei denen der Sprecher dem Zuhörer mit Sprache sagt, wie er eine vorhandene Ausgabe ändern und verbessern kann. Es gibt bereits mehrere Bemühungen in diese Richtung, hauptsächlich im Bereich der Text- und Codebearbeitung, was ein vielversprechender Anfang ist.

— 2022–12–05

PS: Ein großes Dankeschön an alle, die an dieser Studie teilgenommen haben. Es ist untypisch, dass jemand auf einer Konferenz auf Sie zukommt und Sie um Zeichnungen bittet, aber Sie waren so nett zu mir und haben sich damit abgefunden. Dieser Blog ist für Sie geschrieben.