Nowe media, stare problemy: stereotypy rasowe w generowaniu obrazów AI
Podobnie jak wielu ludzi, spędziłem kilka ostatnich miesięcy, bawiąc się nową falą narzędzi sztucznej inteligencji zorientowanych na konsumenta (które nazywam „bez recepty”), takich jak ChatGPT. Jako artysta byłem szczególnie zafascynowany generatorami obrazów opartymi na sztucznej inteligencji, takimi jak Dall-E, Midjourney i Stable Diffusion, które w ciągu zaledwie roku przeszły od fantazji do fotorealizmu.
Ponieważ modele te są szkolone na istniejących obrazach, oferują rodzaj metanarracji na temat sposobu, w jaki tworzymy, konsumujemy i analizujemy obrazy jako społeczeństwo — podkreślając wzorce, postrzeganie i uprzedzenia w interesujący sposób.
Na przykład generowałem obrazy członków Kongresu w Midjourney — nie konkretnych członków, ale to, jak według AI wyglądałby członek Kongresu. Zrobiłem to częściowo jako refleksję nad moją frustracją z powodu wieku Kongresu i ich oderwania od wpływu nowych technologii , ale pod wieloma względami te obrazy są idealnym zbiorem danych do pracy: jest ich wiele i prawie identyczny stylowo — zarówno pod względem składu, jak i tematyki. Oznacza to, że wyniki mogą być dość przewidywalne.
Początkowo miało to charakter czysto humorystyczny — subtelna zmiana polegająca na zmuszaniu ich do trzymania przedmiotu, takiego jak kot czy kamień, szybko czyni te utylitarne portrety absurdalnymi (niestety „trzymanie broni” nie wygląda tak absurdalnie).
Kiedy je generowałem, szybko zauważyłem, że otrzymuję głównie białych mężczyzn. Jeśli możemy myśleć o sztucznej inteligencji w dużej mierze jako o podsumowaniu istniejących mediów, nie powinno to być zaskakujące: podczas gdy ostatnie dwa kongresy były najbardziej zróżnicowane w historii , nadal są to głównie biali mężczyźni. Jeśli sztuczna inteligencja ma odzwierciedlać rzeczywistość, powinniśmy oczekiwać, że około 25% generowanych przez nią obrazów członków kongresu będzie przedstawiać kobiety lub mniejszości rasowe – znacznie więcej niż to, co zwracał model.
Okazuje się, że zróżnicowanie reprezentacji jest uwarunkowane dodatkowym kontekstem umieszczonym w zachęcie. Na przykład niektóre konteksty są określane płciowo w oczywisty sposób, jak np. „trzymanie torebki”, które zwraca prawie wyłącznie obrazy kobiet. Ale niektóre są określane płciowo w mniej oczywisty sposób. Termin „kongresman” wygenerował więcej kobiet niż „członek kongresu”, co sugeruje, że termin ten jest częściej używany przez kobiety niż mężczyzn.
Ale spośród wszystkich podpowiedzi, które wypróbowałem, Czarni byli w większości nieobecni, mimo że stanowią największą mniejszość rasową w Kongresie. Najbardziej spójny sposób Midjourney na generowanie czarnych członków Kongresu? Poproś go, aby trzymał wiadra ze smażonym kurczakiem. Innym sposobem było poproszenie ich o założenie koszulki do koszykówki (co ciekawe, na większości zdjęć nie było koszulek do koszykówki).
To nie jedyna stronniczość, jaką znalazłem: inne podpowiedzi, takie jak „międzyrasowa para”, zwracają prawie wyłącznie obrazy czarnego mężczyzny z białą kobietą. Natychmiastowa „para gejów” zwraca prawie wyłącznie zdjęcia dwóch młodych białych mężczyzn („ chłopaków bliźniaków ”, jak się ich nazywa).
Oczywiście te modele odzwierciedlają podane dane, więc oczywiste jest, że istniejące stereotypy i uprzedzenia zostaną odzwierciedlone. Możliwe, że te modele są generowane na starszych obrazach, z wyłączeniem nowszych i bardziej zróżnicowanych kongresów. Problem polega jednak na tym, że obrazy te istnieją w teraźniejszości i często są postrzegane jako przyszłość .
Jak mówi Safiya Umoja Noble , której przełomowa książka Algorithms of Oppression pokazuje, jak tak zwane „neutralne” wyszukiwarki utrwalają stereotypy rasowe :
„Zarządzanie wiedzą odzwierciedla te same uprzedzenia społeczne, które istnieją w społeczeństwie, ponieważ istoty ludzkie znajdują się w epicentrum zbierania informacji. Te praktyki z przeszłości są częścią teraźniejszości i tylko zaangażowane i przedłużające się inwestycje w naprawę zasobów wiedzy w celu odzwierciedlenia i odnowienia wszystkich społeczności mogą spowodować zwrot w kierunku równości i integracji w przyszłości. Obejmuje to pogodzenie się z naszą brutalną przeszłością, a nie jej zaciemnianie lub minimalizowanie. W ten sposób musimy jeszcze w pełni skonfrontować się z naszą historią i odtworzyć biblioteki i muzea w kierunku pojednania i zadośćuczynienia”.
To, że ktoś, nawet na najwyższych szczeblach władzy, wciąż może zostać zredukowany do stereotypu opartego na kolorze skóry, należy postrzegać jako porażkę modelu — model, który moim zdaniem powinien być uważany za aspiracyjny, a nie tylko odzwierciedlający teraźniejszość .
Siła obrazów generatywnych nie polega na tym, że mogą one zastąpić istniejące narzędzia do tworzenia obrazów, takie jak aparat, ale na tym, że mogą tworzyć nowe typy obrazów. Pozwolą nam wyobrazić sobie nową przyszłość i nowe sposoby bycia. Ale kiedy te modele zaczną się szkolić – tworząc generowane obrazy na podstawie wygenerowanych obrazów – wszelkie istniejące uprzedzenia w modelu utworzą pętlę sprzężenia zwrotnego, utrwalając wady społeczne, które należy porzucić.
Bez wiedzy o tym, jak te modele były szkolone, a nawet jak działają, nie ma sposobu, aby zrozumieć, dlaczego tak się dzieje, ani co należy zmienić, aby powstrzymać utrwalanie się stereotypów. W warunkach świadczenia usługi Midjourney mówią „nie jesteśmy demokracją”. Może powinny być.
Ryan Aasen jest artystą, edukatorem i badaczem szeroko zainteresowanym polityką technologii medialnych. Prowadził kursy sztuki, projektowania i technologii na MIT, Parsons School of Design i Stevens Institute of Technology. Śledź go na Instagramie, aby uzyskać więcej przesłuchań technicznych.