新しいメディア、古い問題: AI 画像生成における人種的固定観念

May 09 2023
多くの人と同じように、私もここ数か月間、ChatGPT のような消費者向け (私が「店頭」と呼んでいる) AI ツールの新しい波を試してきました。アーティストとして、私は Dall-E、Midjourney、Stable Diffusion などの AI 画像ジェネレーターに特に魅了されてきました。これらはわずか 1 年でファンタジーからフォトリアリズムへと進化しました。

多くの人と同じように、私もここ数か月間、ChatGPT のような消費者向け (私が「店頭」と呼んでいる) AI ツールの新しい波を試してきました。アーティストとして、私は Dall-E、Midjourney、Stable Diffusion などの AI 画像ジェネレーターに特に魅了されてきました。これらはわずか 1 年でファンタジーからフォトリアリズムへと進化しました。

これらのモデルは既存の画像に基づいてトレーニングされるため、私たちが社会として画像を作成、消費、分析する方法について一種のメタナラティブを提供し、興味深い方法でパターン、認識、偏見を強調します。

たとえば、私は『Midjourney』で議員の画像を生成していました。特定の議員ではなく、AI が考える議員の姿を生成していました。私がこれを行ったのは、議会の時代と、議会が新しいテクノロジーの影響から切り離されていることへの不満を反映する部分もありましたが、多くの点で、これらの画像は扱うのに最適なデータセットです。画像はたくさんあります。構成も主題もスタイルが同じ。これは、結果がかなり予測可能であることを意味します。

当初、それは純粋にユーモラスでした。猫や石などの物体を持たせるという微妙な変化により、これらの実用的な肖像画はすぐに不条理なものになります(残念ながら、「銃を持っている」ことはそれほど不条理には見えません)。

「猫を抱いている国会議員の公式写真、写実的」
「岩やレンガを持った国会議員の公式写真、写実的」
「銃を持った国会議員の公式写真、写実的」

これらを生成しているときに、主に白人の見た目の男性が生成されていることにすぐに気づきました。AI を主に既存メディアの要約として考えることができるなら、これは驚くべきことではありません。過去 2 回の議会はこれまでで最も多様性に富んだものでしたが、依然としてほとんどが白人男性でした。AI が現実を反映することを意図しているのであれば、AI が生成する議会議員のイメージの約 25% が女性または人種的少数派であると予想する必要があります。これはモデルが返したものよりもはるかに高い値です。

表現の多様性は、プロンプトに配置される追加のコンテキストに依存することがわかりました。たとえば、「財布を持っている」など、明らかな方法で性別が区別されているコンテキストもあり、ほぼ女性の画像のみが返されます。しかし、あまり明らかではない方法で性別が区別されている人もいます。「国会議員」という用語は「議員」よりも女性の方が多く、この用語は男性よりも女性によって使用される可能性が高いことを示唆しています。

「財布を持った国会議員の公式写真、写実的」
「国会議員の公式写真、写実的」

しかし、私が試したすべてのプロンプトのうち、黒人は議会で最大の人種的少数派であるにもかかわらず、ほとんど欠席していた。ミッドジャーニーが黒人議員を生み出す最も一貫した方法は何でしょうか?フライドチキンのバケツを持たせるように頼んでください。もう一つの方法は、バスケットボールのジャージを着るよう頼むことでした(不思議なことに、ほとんどの写真にはバスケットボールのジャージさえ写っていませんでした)。

「フライドチキンのバケツを持った国会議員の公式写真、写実的」
「バスケットボールのジャージを着た国会議員の公式写真、写実的」

私が見つけた偏見はこれだけではありません。「異人種間のカップル」などの他のプロンプトでは、ほぼ独占的に黒人男性と白人女性の画像が返されます。「ゲイ カップル」というプロンプトは、ほぼ独占的に 2 人の若い白人男性 (「ボーイフレンド ツイン」と呼ばれる) の画像を返します。

「異人種間のカップル」
さまざまな文脈における「ゲイカップル」

もちろん、これらのモデルは与えられたデータを反映しているため、既存の固定観念や偏見が反映されることは明らかです。これらのモデルは、より最近のより多様な会議を除いた、古い画像に基づいて生成されている可能性があります。しかし、問題は、これらのイメージが現在に存在し、多くの場合、未来のものであると考えられていることです。

いわゆる「中立」検索エンジンがどのようにして人種的固定観念を永続させるかを示した画期的な著書『抑圧のアルゴリズム』のサフィヤ・ウモジャ・ノーブル氏は次のように述べています

「情報キュレーションの中心は人間であるため、ナレッジマネジメントは社会に存在するのと同じ社会的偏見を反映しています。これらの過去の慣行は現在の一部であり、すべてのコミュニティを反映し中心を合わせるためにナレッジ ストアを修復するための熱心かつ長期的な投資のみが、将来の平等と包摂への移行を引き起こすことができます。これには、残酷な過去を覆い隠したり、矮小化したりするのではなく、和解させることが含まれます。このように、私たちはまだ歴史に十分に向き合い、和解と賠償に向けて図書館や博物館を再構築することができていないのです。」

たとえ政府の最高レベルにいたとしても、肌の色に基づいて固定観念に貶められる人は、このモデルの失敗とみなされるべきです。このモデルは、単に現在を反映するものではなく、意欲的なものとして考えられるべきだと私は信じています。 。

生成画像の強みは、カメラなどの既存の画像作成ツールを置き換えることができるということではなく、新しいタイプの画像を作成できることです。それらは私たちが新しい未来や新しい生き方を想像できるようにしてくれるでしょう。しかし、これらのモデルが自身のトレーニングを開始すると (生成された画像に基づいて生成された画像を作成し)、モデル内の既存のバイアスがフィードバック ループを作成し、放棄されるべき社会の欠陥が永続化します。

これらのモデルがどのようにトレーニングされたか、さらにはどのように機能するかについての知識がなければ、なぜこれが起こっているのか、固定観念の永続を止めるために何を変える必要があるのか​​を理解する方法はありません。ミッドジャーニーの利用規約には、「私たちは民主主義ではありません」と書かれています。おそらくそうあるべきでしょう。

Ryan Aasenはアーティスト、教育者、研究者であり、メディア テクノロジーの政治に広く関心を持っています。彼は、MIT、パーソンズ美術大学、スティーブンス工科大学でアート、デザイン、テクノロジーのコースを教えてきました。インスタグラムで彼をフォローすると、さらに技術的な尋問が受けられます。