Język modyfikacji
Wyobraź sobie , że opisujesz zadanie, które ma wykonać twój przyjaciel. Jest mało prawdopodobne, że uda im się to za pierwszym podejściem. Często potrzebna jest dodatkowa komunikacja, aby zmodyfikować i ulepszyć to, co zostało zrobione do tej pory.
Na Neurips 2022 przeprowadziłem małe badanie, aby dowiedzieć się, co następuje:
P1 : Jak cenny jest proces modyfikacji?
Q2 : Czy języki modyfikacji i opisu są różne?
słownik telefoniczny
Wybrałam zadanie telefoniczno-graficzne. Otrzymując obraz startowy, grupa ludzi alternatywnie opisuje go (używając słów), a następnie ponownie rysuje obraz na podstawie opisu.
Trwa to przez kilka iteracji. Jak widać, język jest opisowy i ma na celu odzyskanie przez szufladę oryginalnego obrazu w 1 ujęciu.
ilustrator telefoniczny z modyfikacjami
Co jeśli pozwolimy na dodatkowy krok modyfikacji, aby poprawić niektóre błędy? Wygląda to mniej więcej tak:
W idealnym przypadku Osoba1 i Osoba3 to ta sama osoba — „programista”, a Osoba2 i Osoba4 to ta sama osoba — „tłumacz”. Rozdzieliłem tych ludzi, aby uniknąć konieczności parowania programisty z tłumaczem w tej samej iteracji.
Wszystkie zebrane dane można przeglądać na tej stronie (niektóre obrazy mogą nie ładować się od razu, wystarczy kliknąć przyciski, aby wymusić ponowne załadowanie).
P1: Jak ważny jest proces modyfikacji?
Oto, jak oryginalny obraz zmienia się w czasie, biorąc pod uwagę tylko opisy
Jak widać, szybko przekształciliśmy się w prostokąt i koło.
Oto zarówno opisy, jak i modyfikacje
Jak widać, dzięki modyfikacjom udało nam się zachować więcej szczegółów i otrzymaliśmy rysunek przypominający pluszowego misia.
Dochodzimy do wniosku, że proces modyfikacji jest ważny.
P2: Czy języki opisu i modyfikacji są różne?
Czy języki opisu i modyfikacji są różne? Najpierw dokonałem transkrypcji wszystkich języków używanych do tworzenia tekstu .
Następnie możemy użyć kilkukrotnego uczenia gpt-3, aby sprawdzić, czy potrafi wiarygodnie odróżnić język opisowy od języka modyfikacji. Użyłem tekstów pierwszych 2 pokoleń jako podpowiedzi i oceniłem pozostałe 9 pokoleń.
W przypadku opisów otrzymujemy poprawną identyfikację 9/9 razy. W przypadku modyfikacji otrzymujemy poprawną identyfikację 7/9 razy.
Dochodzimy do wniosku, że języki opisu i modyfikacji są różne.
Kilka uwag logistycznych
To badanie składa się z około 12 pokoleń 2 warunków, jednego bez modyfikacji (2 uczestników) i jednego z modyfikacjami (4 uczestników). (2+4)*12 lub łącznie około 70 uczestników. Zebranie każdego punktu danych zajmuje około 4 minut (1 minuta wyjaśnienia zadania i 2–3 minuty oczekiwania na wygenerowanie odpowiedzi), co daje w sumie około 5 godzin. Ten wpis na blogu i powiązana z nim interaktywna strona internetowa oraz badanie gpt3 zajęły około 10 godzin, co daje w sumie 15 godzin pracy.
Cieszę się, że mogę zbierać dane w neurips, gdzie jakość danych jest wysoka, adnotatorzy dobrze zrozumieli zadanie i nie muszę zakładać strony internetowej i hostować jej na płodnym.
Wniosek
Modyfikacja jest cenna — bez niej nasz rysunek osoby zmienia się w prostokąt i koło. Język modyfikacji jest inny niż język opisu — gpt3 może niezawodnie odróżniać je od siebie.
Obecne podstawowe modele, takie jak klip i stabilna dyfuzja, są szkolone przy użyciu danych opisowych, takich jak pary podpisów obrazów. W związku z tym, chociaż mogą generować imponujące wyniki w jednym ujęciu, trudno jest z nimi dalej wchodzić w interakcję w celu modyfikowania i udoskonalania bieżącego wyjścia.
Powinniśmy gromadzić więcej zestawów danych o modyfikacjach, w których mówca używa języka, aby powiedzieć słuchaczowi, jak zmodyfikować i ulepszyć istniejący wynik. Jest już kilka wysiłków w tym kierunku, głównie w dziedzinie edycji tekstu i kodu, co jest obiecującym początkiem.
— evan 2022–12–05
ps ogromne podziękowania dla wszystkich, którzy wzięli udział w tym badaniu, to nietypowe, żeby ktoś podszedł do ciebie na konferencji i poprosił o rysunki, ale byłeś dla mnie taki miły i zniosłeś to. ten blog jest napisany dla Ciebie.

![Czym w ogóle jest lista połączona? [Część 1]](https://post.nghiatu.com/assets/images/m/max/724/1*Xokk6XOjWyIGCBujkJsCzQ.jpeg)



































