Nuovi media, vecchi problemi: stereotipi razziali nella generazione di immagini AI

May 09 2023
Come molte persone, ho passato gli ultimi mesi a giocare con la nuova ondata di strumenti AI orientati al consumatore (quelli che io chiamo "da banco") come ChatGPT. Come artista, sono stato particolarmente affascinato dai generatori di immagini AI come Dall-E, Midjourney e Stable Diffusion, che sono passati dal fantasy al fotorealismo in appena un anno.

Come molte persone, ho passato gli ultimi mesi a giocare con la nuova ondata di strumenti AI orientati al consumatore (quelli che io chiamo "da banco") come ChatGPT. Come artista, sono stato particolarmente affascinato dai generatori di immagini AI come Dall-E, Midjourney e Stable Diffusion, che sono passati dal fantasy al fotorealismo in appena un anno.

Poiché questi modelli sono addestrati su immagini esistenti, offrono una sorta di meta-narrativa sul modo in cui creiamo, consumiamo e analizziamo le immagini come società, evidenziando modelli, percezioni e pregiudizi in modi interessanti.

Ad esempio, stavo generando immagini di membri del Congresso in Midjourney, non membri specifici, ma come AI pensava che sarebbe stato un membro del Congresso. L'ho fatto in parte per riflettere sulla mia frustrazione per l'età del Congresso e la loro disconnessione dagli impatti delle nuove tecnologie , ma per molti versi queste immagini sono un set di dati perfetto con cui lavorare: ce ne sono molte e sono quasi identico nello stile, sia nella composizione che nel soggetto. Ciò significa che i risultati possono essere abbastanza prevedibili.

Inizialmente era puramente umoristico: il sottile cambiamento di far loro tenere in mano un oggetto come un gatto o una roccia rende rapidamente assurdi questi ritratti utilitaristici (purtroppo "tenere in mano una pistola" non sembra così assurdo).

“fotografia ufficiale di un membro del congresso con in mano un gatto, fotorealistica”
“fotografia ufficiale di un membro del congresso con in mano un masso/mattone, fotorealistica”
“fotografia ufficiale di un membro del congresso con in mano una pistola, fotorealistica”

Mentre li stavo generando, ho subito notato che stavo ottenendo principalmente uomini dall'aspetto bianco. Se possiamo pensare all'intelligenza artificiale in gran parte come un riassunto dei media esistenti, ciò non dovrebbe sorprendere: mentre gli ultimi due congressi sono stati i più diversi di sempre , sono ancora per lo più uomini bianchi. Se l'IA intende riflettere una realtà, dovremmo aspettarci che circa il 25% delle immagini che genera dei membri del Congresso siano di donne o minoranze razziali, molto più alte di quelle che il modello stava restituendo.

Si scopre che la diversità della rappresentazione dipende da qualsiasi contesto aggiuntivo inserito nel prompt. Ad esempio, alcuni contesti sono di genere in modi ovvi, come "tenere in mano una borsa", che restituisce quasi esclusivamente immagini di donne. Ma alcuni sono di genere in modi meno ovvi. Il termine "deputato" ha generato più donne che "membro del congresso", suggerendo che è più probabile che il termine venga utilizzato dalle donne rispetto agli uomini.

"Fotografia ufficiale di un membro del congresso con in mano una borsa, fotorealistica"
"Fotografia ufficiale di un deputato, fotorealistica"

Ma tra tutti i suggerimenti che ho provato, i neri erano in gran parte assenti, anche se sono la più grande minoranza razziale al Congresso. Il modo più coerente per Midjourney di generare membri neri del Congresso? Chiedigli di fargli tenere secchi di pollo fritto. Un altro modo era chiedere loro di indossare una maglia da basket (curiosamente le maglie da basket non erano nemmeno nella maggior parte delle foto).

“ fotografia ufficiale di un membro del congresso con in mano un secchio di pollo fritto, fotorealistica”
“fotografia ufficiale di un membro del congresso che indossa una maglia da basket, fotorealistica”

Questo non è l'unico pregiudizio che ho trovato: altri suggerimenti, come "coppia interrazziale", restituiscono quasi esclusivamente immagini di un uomo nero con una donna bianca. Il prompt "coppia gay" restituisce quasi esclusivamente immagini di due giovani uomini bianchi (" fidanzati gemelli ", come vengono chiamati).

"coppia interrazziale"
“coppia gay” in una varietà di contesti

Ovviamente questi modelli riflettono i dati che vengono forniti, quindi è ovvio che si rifletteranno gli stereotipi e i pregiudizi esistenti. Potrebbe essere che questi modelli siano generati su immagini più vecchie, escludendo i congressi più recenti e diversificati. Il problema, tuttavia, è che queste immagini esistono nel presente e sono spesso pensate come il futuro .

Come afferma Safiya Umoja Noble , il cui libro fondamentale Algorithms of Oppression mostra come i cosiddetti motori di ricerca “neutrali” perpetuino gli stereotipi razziali :

“La gestione della conoscenza riflette gli stessi pregiudizi sociali che esistono nella società, perché gli esseri umani sono l'epicentro della cura delle informazioni. Queste pratiche del passato fanno parte del presente e solo investimenti impegnati e prolungati nella riparazione dei depositi di conoscenza per riflettere e rinnovare tutte le comunità possono causare uno spostamento verso l'uguaglianza e l'inclusione in futuro. Ciò include riconciliare il nostro passato brutale piuttosto che oscurarlo o minimizzarlo. In questo modo, dobbiamo ancora affrontare pienamente le nostre storie e ricostituire biblioteche e musei verso la riconciliazione e la riparazione”.

Il fatto che qualcuno, anche ai più alti livelli di governo, possa ancora essere ridotto a uno stereotipo basato sul colore della pelle dovrebbe essere visto come un fallimento del modello - un modello che credo dovrebbe essere pensato come ambizioso e non semplicemente come un riflesso del presente .

La forza delle immagini generative non è che possono sostituire gli strumenti esistenti per la creazione di immagini come la fotocamera, ma che possono creare nuovi tipi di immagini. Ci permetteranno di immaginare nuovi futuri e nuovi modi di essere. Ma quando questi modelli iniziano ad addestrarsi da soli, creando immagini generate sulla base di immagini generate, qualsiasi pregiudizio esistente nel modello creerà un ciclo di feedback, perpetuando i difetti della società che dovrebbero essere abbandonati.

Senza sapere come questi modelli sono stati addestrati, o anche come funzionano, non c'è modo di capire perché questo sta accadendo, o cosa deve cambiare per fermare la perpetuazione degli stereotipi. Nei termini di servizio di Midjourney dicono "non siamo una democrazia". Forse dovrebbero esserlo.

Ryan Aasen è un artista, educatore e ricercatore ampiamente interessato alla politica delle tecnologie dei media. Ha tenuto corsi di arte, design e tecnologia al MIT, alla Parsons School of Design e allo Stevens Institute of Technology. Seguilo su Instagram per ulteriori interrogatori tecnici.