Novas mídias, velhos problemas: estereótipos raciais na geração de imagens por IA

May 09 2023
Como muitas pessoas, passei os últimos meses brincando com a nova onda de ferramentas de IA voltadas para o consumidor (o que chamo de “sem receita”), como o ChatGPT. Como artista, fiquei especialmente fascinado por geradores de imagem de IA, como Dall-E, Midjourney e Stable Diffusion, que passaram da fantasia ao fotorrealismo em apenas um ano.

Como muitas pessoas, passei os últimos meses brincando com a nova onda de ferramentas de IA voltadas para o consumidor (o que chamo de “sem receita”), como o ChatGPT. Como artista, fiquei especialmente fascinado por geradores de imagem de IA, como Dall-E, Midjourney e Stable Diffusion, que passaram da fantasia ao fotorrealismo em apenas um ano.

Como esses modelos são treinados em imagens existentes, eles oferecem uma espécie de metanarrativa sobre a maneira como criamos, consumimos e analisamos imagens como uma sociedade — destacando padrões, percepções e preconceitos de maneiras interessantes.

Por exemplo, eu estava gerando imagens de membros do Congresso no meio da jornada - não membros específicos, mas como a IA pensava que um membro do Congresso seria. Fiz isso em parte como uma reflexão sobre minha frustração com a era do Congresso e sua desconexão dos impactos das novas tecnologias , mas de várias maneiras essas imagens são um conjunto de dados perfeito para trabalhar: há muitas delas e são quase idênticos em estilo - tanto na composição quanto no assunto. Isso significa que os resultados podem ser bastante previsíveis.

Inicialmente era puramente humorístico — a mudança sutil de fazê-los segurar um objeto como um gato ou uma pedra rapidamente torna absurdos esses retratos utilitários (infelizmente “segurar uma arma” não parece tão absurdo).

“fotografia oficial de um membro do congresso segurando um gato, fotorrealista”
“fotografia oficial de um membro do congresso segurando uma pedra/tijolo, fotorrealista”
“fotografia oficial de um membro do congresso segurando uma arma, fotorrealista”

Enquanto os gerava, percebi rapidamente que estava recebendo principalmente homens de aparência branca. Se pudermos pensar na IA em grande parte como um resumo da mídia existente, isso não deveria ser surpreendente: embora os dois últimos congressos tenham sido os mais diversos de todos os tempos , eles ainda são em sua maioria homens brancos. Se a IA pretende refletir uma realidade, devemos esperar que cerca de 25% das imagens que ela gera de membros do congresso sejam de mulheres ou minorias raciais – muito mais do que o modelo estava retornando.

Acontece que a diversidade de representação depende de qualquer contexto adicional colocado no prompt. Por exemplo, alguns contextos têm gênero de maneiras óbvias, como “segurar uma bolsa”, que retorna quase exclusivamente imagens de mulheres. Mas alguns têm gênero de maneiras menos óbvias. O termo “congressista” gerou mais mulheres do que “membro do congresso”, sugerindo que o termo é mais provável de ser usado por mulheres do que por homens.

“ fotografia oficial de um congressista segurando uma bolsa, fotorrealista”
“ fotografia oficial de um congressista, fotorrealista”

Mas, de todas as sugestões que tentei, os negros estavam ausentes, embora sejam a maior minoria racial no Congresso. A maneira mais consistente de Midjourney gerar membros negros no Congresso? Peça-lhe para fazê-los segurar baldes de frango frito. Outra forma era pedir que vestissem uma camisa de basquete (curiosamente, camisas de basquete nem estavam na maioria das fotos).

“ fotografia oficial de um membro do congresso segurando um balde de frango frito, fotorrealista”
“fotografia oficial de um membro do congresso vestindo uma camisa de basquete, fotorrealista”

Este não é o único viés que encontrei: outros prompts, como “casal interracial”, retornam quase exclusivamente imagens de um homem negro com uma mulher branca. O prompt “casal gay” retorna quase exclusivamente imagens de dois jovens brancos (“ namorados gêmeos ”, como são chamados).

“casal inter-racial”
“casal gay” em uma variedade de contextos

É claro que esses modelos refletem os dados que recebem e, portanto, é óbvio que os estereótipos e preconceitos existentes serão refletidos. Pode ser que esses modelos sejam gerados em imagens mais antigas, excluindo os congressos mais recentes e mais diversos. O problema, porém, é que essas imagens existem no presente e muitas vezes são pensadas como o futuro .

Como Safiya Umoja Noble , cujo livro de referência Algorithms of Oppression mostra como os chamados mecanismos de busca “neutros” perpetuam os estereótipos raciais, diz :

“A gestão do conhecimento reflete os mesmos vieses sociais que existem na sociedade, porque os seres humanos estão no epicentro da curadoria da informação. Essas práticas do passado fazem parte do presente, e apenas investimentos comprometidos e prolongados na reparação de estoques de conhecimento para refletir e atualizar todas as comunidades podem causar uma mudança em direção à igualdade e inclusão no futuro. Isso inclui reconciliar nosso passado brutal em vez de obscurecê-lo ou minimizá-lo. Dessa forma, ainda temos que confrontar totalmente nossas histórias e reconstituir bibliotecas e museus em direção à reconciliação e reparação”.

Que alguém, mesmo nos níveis mais altos do governo, ainda possa ser reduzido a um estereótipo baseado em sua cor de pele deve ser visto como uma falha do modelo - um modelo que acredito deve ser pensado como uma aspiração e não apenas um reflexo do presente .

A força das imagens generativas não é que elas podem substituir as ferramentas de criação de imagens existentes, como a câmera, mas podem criar novos tipos de imagens. Eles nos permitirão imaginar novos futuros e novas formas de ser. Mas, quando esses modelos começam a se treinar – criando imagens geradas com base em imagens geradas – qualquer viés existente no modelo criará um ciclo de feedback, perpetuando falhas sociais que devem ser abandonadas.

Sem saber como esses modelos foram formados, ou mesmo como funcionam, não há como entender por que isso está acontecendo, ou o que precisa mudar para impedir a perpetuação de estereótipos. Nos termos de serviço da Midjourney, eles dizem “não somos uma democracia”. Talvez devessem ser.

Ryan Aasen é um artista, educador e pesquisador amplamente interessado na política das tecnologias de mídia. Ele ministrou cursos de arte, design e tecnologia no MIT, na Parsons School of Design e no Stevens Institute of Technology. Siga-o no Instagram para mais interrogatórios técnicos.