Język modyfikacji

Dec 08 2022
krótkie studium na temat języków opisów i modyfikacji
Wyobraź sobie, że opisujesz zadanie, które ma wykonać twój przyjaciel. Jest mało prawdopodobne, że uda im się to za pierwszym podejściem.

Wyobraź sobie , że opisujesz zadanie, które ma wykonać twój przyjaciel. Jest mało prawdopodobne, że uda im się to za pierwszym podejściem. Często potrzebna jest dodatkowa komunikacja, aby zmodyfikować i ulepszyć to, co zostało zrobione do tej pory.

Na Neurips 2022 przeprowadziłem małe badanie, aby dowiedzieć się, co następuje:

P1 : Jak cenny jest proces modyfikacji?

Q2 : Czy języki modyfikacji i opisu są różne?

słownik telefoniczny

Wybrałam zadanie telefoniczno-graficzne. Otrzymując obraz startowy, grupa ludzi alternatywnie opisuje go (używając słów), a następnie ponownie rysuje obraz na podstawie opisu.

Osoba1 widzi obraz z poprzedniej generacji i podaje opis. Osoba2 widzi tylko opis i próbuje odzyskać oryginalny obraz.

Trwa to przez kilka iteracji. Jak widać, język jest opisowy i ma na celu odzyskanie przez szufladę oryginalnego obrazu w 1 ujęciu.

ilustrator telefoniczny z modyfikacjami

Co jeśli pozwolimy na dodatkowy krok modyfikacji, aby poprawić niektóre błędy? Wygląda to mniej więcej tak:

Osoba1 używa języka opisowego, dzięki czemu Osoba2 może wygenerować obraz od podstaw. Person3 używa języka modyfikacji, więc Person4 może zmienić istniejący obraz.

W idealnym przypadku Osoba1 i Osoba3 to ta sama osoba — „programista”, a Osoba2 i Osoba4 to ta sama osoba — „tłumacz”. Rozdzieliłem tych ludzi, aby uniknąć konieczności parowania programisty z tłumaczem w tej samej iteracji.

Wszystkie zebrane dane można przeglądać na tej stronie (niektóre obrazy mogą nie ładować się od razu, wystarczy kliknąć przyciski, aby wymusić ponowne załadowanie).

P1: Jak ważny jest proces modyfikacji?

Oto, jak oryginalny obraz zmienia się w czasie, biorąc pod uwagę tylko opisy

Jak widać, szybko przekształciliśmy się w prostokąt i koło.

Oto zarówno opisy, jak i modyfikacje

Jak widać, dzięki modyfikacjom udało nam się zachować więcej szczegółów i otrzymaliśmy rysunek przypominający pluszowego misia.

Dochodzimy do wniosku, że proces modyfikacji jest ważny.

P2: Czy języki opisu i modyfikacji są różne?

Czy języki opisu i modyfikacji są różne? Najpierw dokonałem transkrypcji wszystkich języków używanych do tworzenia tekstu .

Następnie możemy użyć kilkukrotnego uczenia gpt-3, aby sprawdzić, czy potrafi wiarygodnie odróżnić język opisowy od języka modyfikacji. Użyłem tekstów pierwszych 2 pokoleń jako podpowiedzi i oceniłem pozostałe 9 pokoleń.

W przypadku opisów otrzymujemy poprawną identyfikację 9/9 razy. W przypadku modyfikacji otrzymujemy poprawną identyfikację 7/9 razy.

Dochodzimy do wniosku, że języki opisu i modyfikacji są różne.

Kilka uwag logistycznych

To badanie składa się z około 12 pokoleń 2 warunków, jednego bez modyfikacji (2 uczestników) i jednego z modyfikacjami (4 uczestników). (2+4)*12 lub łącznie około 70 uczestników. Zebranie każdego punktu danych zajmuje około 4 minut (1 minuta wyjaśnienia zadania i 2–3 minuty oczekiwania na wygenerowanie odpowiedzi), co daje w sumie około 5 godzin. Ten wpis na blogu i powiązana z nim interaktywna strona internetowa oraz badanie gpt3 zajęły około 10 godzin, co daje w sumie 15 godzin pracy.

Cieszę się, że mogę zbierać dane w neurips, gdzie jakość danych jest wysoka, adnotatorzy dobrze zrozumieli zadanie i nie muszę zakładać strony internetowej i hostować jej na płodnym.

Wniosek

Modyfikacja jest cenna — bez niej nasz rysunek osoby zmienia się w prostokąt i koło. Język modyfikacji jest inny niż język opisu — gpt3 może niezawodnie odróżniać je od siebie.

Obecne podstawowe modele, takie jak klip i stabilna dyfuzja, są szkolone przy użyciu danych opisowych, takich jak pary podpisów obrazów. W związku z tym, chociaż mogą generować imponujące wyniki w jednym ujęciu, trudno jest z nimi dalej wchodzić w interakcję w celu modyfikowania i udoskonalania bieżącego wyjścia.

Powinniśmy gromadzić więcej zestawów danych o modyfikacjach, w których mówca używa języka, aby powiedzieć słuchaczowi, jak zmodyfikować i ulepszyć istniejący wynik. Jest już kilka wysiłków w tym kierunku, głównie w dziedzinie edycji tekstu i kodu, co jest obiecującym początkiem.

— evan 2022–12–05

ps ogromne podziękowania dla wszystkich, którzy wzięli udział w tym badaniu, to nietypowe, żeby ktoś podszedł do ciebie na konferencji i poprosił o rysunki, ale byłeś dla mnie taki miły i zniosłeś to. ten blog jest napisany dla Ciebie.