Nouveaux médias, vieux problèmes : stéréotypes raciaux dans la génération d'images IA

May 09 2023
Comme beaucoup de gens, j'ai passé les derniers mois à jouer avec la nouvelle vague d'outils d'intelligence artificielle axés sur le consommateur (ce que j'appelle «en vente libre») comme ChatGPT. En tant qu'artiste, j'ai été particulièrement fasciné par les générateurs d'images IA tels que Dall-E, Midjourney et Stable Diffusion, qui sont passés de la fantaisie au photoréalisme en seulement un an.

Comme beaucoup de gens, j'ai passé les derniers mois à jouer avec la nouvelle vague d'outils d'intelligence artificielle axés sur le consommateur (ce que j'appelle «en vente libre») comme ChatGPT. En tant qu'artiste, j'ai été particulièrement fasciné par les générateurs d'images IA tels que Dall-E, Midjourney et Stable Diffusion, qui sont passés de la fantaisie au photoréalisme en seulement un an.

Parce que ces modèles sont formés sur des images existantes, ils offrent une sorte de méta-récit sur la façon dont nous créons, consommons et analysons les images en tant que société – mettant en évidence les modèles, les perceptions et les préjugés de manière intéressante.

Par exemple, je générais des images de membres du Congrès à Midjourney - pas des membres spécifiques, mais ce à quoi AI pensait qu'un membre du Congrès ressemblerait. Je l'ai fait en partie pour réfléchir à ma frustration face à l'âge du Congrès et à leur déconnexion des impacts des nouvelles technologies , mais à bien des égards, ces images sont un ensemble de données parfait avec lequel travailler : elles sont nombreuses et elles sont presque identique dans le style - à la fois dans la composition et le sujet. Cela signifie que les résultats peuvent être assez prévisibles.

Au départ, c'était purement humoristique - le changement subtil de leur faire tenir un objet comme un chat ou une pierre rend rapidement ces portraits utilitaires absurdes (malheureusement "tenir un pistolet" n'a pas l'air si absurde).

"photographie officielle d'un membre du congrès tenant un chat, photoréaliste"
"photographie officielle d'un membre du congrès tenant un rocher/brique, photoréaliste"
"photographie officielle d'un membre du congrès tenant une arme à feu, photoréaliste"

Au fur et à mesure que je les générais, j'ai rapidement remarqué que je recevais principalement des hommes d'apparence blanche. Si nous pouvons considérer l'IA en grande partie comme un résumé des médias existants, cela ne devrait pas être surprenant : si les deux derniers congrès ont été les plus diversifiés de tous les temps , ils sont toujours majoritairement des hommes blancs. Si l'IA est censée refléter une réalité, nous devrions nous attendre à ce qu'environ 25 % des images qu'elle génère des membres du Congrès soient des femmes ou des minorités raciales - beaucoup plus que ce que le modèle renvoyait.

Il s'avère que la diversité de la représentation dépend de tout contexte supplémentaire placé dans l'invite. Par exemple, certains contextes sont genrés de manière évidente, comme « tenir un sac à main », qui renvoie presque exclusivement des images de femmes. Mais certains sont sexués de manière moins évidente. Le terme « membre du Congrès » a généré plus de femmes que « membre du Congrès », ce qui suggère que le terme est plus susceptible d'être utilisé par les femmes que par les hommes.

« photographie officielle d'un membre du congrès tenant un sac à main, photoréaliste »
« photo officielle d'un membre du Congrès, photoréaliste »

Mais parmi toutes les invites que j'ai essayées, les Noirs étaient largement absents, même s'ils constituent la plus grande minorité raciale au Congrès. Le moyen le plus cohérent pour Midjourney de générer des membres noirs du Congrès ? Demandez-lui de leur faire tenir des seaux de poulet frit. Une autre façon était de leur demander de porter un maillot de basket (curieusement, les maillots de basket ne figuraient même pas sur la plupart des photos.)

« photographie officielle d'un membre du congrès tenant un seau de poulet frit, photoréaliste »
« photographie officielle d'un membre du congrès portant un maillot de basket, photoréaliste »

Ce n'est pas le seul biais que j'ai trouvé : d'autres invites, comme « couple interracial », renvoient presque exclusivement des images d'un homme noir avec une femme blanche. L'invite "couple gay" renvoie presque exclusivement des images de deux jeunes hommes blancs (" petits amis jumeaux ", comme on les appelle).

"couple interraciaux"
"couple gay" dans une variété de contextes

Bien sûr, ces modèles reflètent les données qui leur sont fournies, et il est donc évident que les stéréotypes et les préjugés existants seront reflétés. Il se pourrait que ces modèles soient générés sur des images plus anciennes, excluant les congrès plus récents et plus divers. Le problème, cependant, est que ces images existent dans le présent et sont souvent considérées comme le futur .

Comme le dit Safiya Umoja Noble , dont le livre phare Algorithms of Oppression montre comment les moteurs de recherche dits « neutres » perpétuent les stéréotypes raciaux :

« La gestion des connaissances reflète les mêmes préjugés sociaux qui existent dans la société, car les êtres humains sont à l'épicentre de la curation de l'information. Ces pratiques du passé font partie du présent, et seuls des investissements engagés et prolongés dans la réparation des magasins de connaissances pour refléter et recentrer toutes les communautés peuvent provoquer un changement vers l'égalité et l'inclusion à l'avenir. Cela implique de réconcilier notre passé brutal plutôt que de l'obscurcir ou de le minimiser. De cette façon, nous devons encore confronter pleinement nos histoires et reconstituer les bibliothèques et les musées vers la réconciliation et la réparation.

Que quelqu'un, même aux plus hauts niveaux du gouvernement, puisse encore être réduit à un stéréotype basé sur sa couleur de peau doit être considéré comme un échec du modèle - un modèle qui, à mon avis, devrait être considéré comme une aspiration et non simplement un reflet du présent .

La force des images génératives n'est pas qu'elles peuvent remplacer les outils de création d'images existants comme l'appareil photo, mais qu'elles peuvent créer de nouveaux types d'images. Ils nous permettront d'imaginer de nouveaux futurs et de nouvelles façons d'être. Mais, lorsque ces modèles commenceront à s'entraîner eux-mêmes - en créant des images générées basées sur des images générées - tout biais existant dans le modèle créera une boucle de rétroaction, perpétuant des défauts sociétaux qui devraient être abandonnés.

Sans savoir comment ces modèles ont été formés, ou même comment ils fonctionnent, il n'y a aucun moyen de comprendre pourquoi cela se produit, ou ce qui doit changer pour arrêter la perpétuation des stéréotypes. Dans les conditions de service de Midjourney , ils disent "nous ne sommes pas une démocratie". Peut-être qu'ils devraient l'être.

Ryan Aasen est un artiste, éducateur et chercheur largement intéressé par la politique des technologies médiatiques. Il a enseigné des cours d'art, de design et de technologie au MIT, à la Parsons School of Design et au Stevens Institute of Technology. Suivez-le sur Instagram pour plus d'interrogatoires techniques.