Media Baru, Masalah Lama: Stereotip Ras dalam Pembuatan Gambar AI

May 09 2023
Seperti banyak orang, saya telah menghabiskan beberapa bulan terakhir bermain dengan gelombang baru alat AI berorientasi konsumen (yang saya sebut "over-the-counter") seperti ChatGPT. Sebagai seorang seniman, saya sangat terpesona oleh generator gambar AI seperti Dall-E, Midjourney, dan Stable Diffusion, yang berubah dari fantasi menjadi fotorealisme hanya dalam setahun.

Seperti banyak orang, saya telah menghabiskan beberapa bulan terakhir bermain dengan gelombang baru alat AI berorientasi konsumen (yang saya sebut "over-the-counter") seperti ChatGPT. Sebagai seorang seniman, saya sangat terpesona oleh generator gambar AI seperti Dall-E, Midjourney, dan Stable Diffusion, yang berubah dari fantasi menjadi fotorealisme hanya dalam setahun.

Karena model-model ini dilatih pada gambar yang ada, mereka menawarkan semacam meta-narasi tentang cara kita membuat, mengonsumsi, dan menganalisis gambar sebagai masyarakat — menyoroti pola, persepsi, dan bias dengan cara yang menarik.

Misalnya, saya membuat gambar anggota Kongres di Midjourney — bukan anggota tertentu, tetapi menurut AI, seperti apa penampilan anggota Kongres. Saya melakukan ini sebagian sebagai cerminan rasa frustrasi saya terhadap usia Kongres dan keterputusan mereka dari dampak teknologi baru , tetapi dalam banyak hal, gambar ini adalah kumpulan data yang sempurna untuk digunakan: ada banyak gambar dan hampir identik dalam gaya - baik dalam komposisi maupun subjek. Ini berarti hasilnya bisa diprediksi.

Awalnya itu murni lucu - perubahan halus yang membuat mereka memegang objek seperti kucing atau batu dengan cepat membuat potret utilitarian ini menjadi tidak masuk akal (sayangnya "memegang senjata" tidak terlihat begitu tidak masuk akal).

“foto resmi anggota kongres memegang kucing, fotorealistik”
“foto resmi anggota kongres memegang batu besar/bata, fotorealistik”
“foto resmi anggota kongres yang memegang senjata, fotorealistik”

Saat saya membuat ini, saya segera menyadari bahwa saya terutama mendapatkan pria berpenampilan putih. Jika kita dapat menganggap AI sebagian besar sebagai ringkasan dari media yang ada, ini seharusnya tidak mengejutkan: meskipun dua kongres terakhir adalah yang paling beragam , kebanyakan masih pria kulit putih. Jika AI dimaksudkan untuk mencerminkan kenyataan, kita harus mengharapkan sekitar 25% dari gambar yang dihasilkannya dari anggota kongres adalah wanita atau ras minoritas - jauh lebih tinggi daripada yang ditampilkan model tersebut.

Ternyata keragaman representasi bergantung pada konteks tambahan apa pun yang ditempatkan di prompt. Misalnya, beberapa konteks diberi gender dengan cara yang jelas, seperti "memegang dompet", yang menampilkan hampir secara eksklusif citra perempuan. Tetapi beberapa gender dengan cara yang kurang jelas. Istilah "anggota kongres" menghasilkan lebih banyak wanita daripada "anggota kongres", yang menunjukkan bahwa istilah tersebut lebih sering digunakan oleh wanita daripada pria.

“foto resmi anggota kongres memegang dompet, fotorealistik”
“foto resmi anggota kongres, fotorealistik”

Namun dari semua petunjuk yang saya coba, sebagian besar orang kulit hitam tidak hadir, meskipun mereka adalah ras minoritas terbesar di Kongres. Cara paling konsisten bagi Midjourney untuk menghasilkan anggota Kongres kulit hitam? Mintalah untuk membuat mereka memegang ember berisi ayam goreng. Cara lain adalah dengan meminta mereka mengenakan kaus basket (anehnya kaus basket bahkan tidak ada di sebagian besar foto.)

“foto resmi anggota kongres memegang seember ayam goreng, fotorealistik”
“foto resmi anggota kongres mengenakan jersey bola basket, fotorealistik”

Ini bukan satu-satunya bias yang saya temukan: petunjuk lain, seperti "pasangan antar-ras", menampilkan hampir secara eksklusif gambar pria kulit hitam dengan wanita kulit putih. Prompt "pasangan gay" mengembalikan gambar hampir secara eksklusif dari dua pria kulit putih muda (" pacar kembar ," begitu mereka disebut.)

“pasangan antar ras”
“pasangan gay” dalam berbagai konteks

Tentu saja model-model ini mencerminkan data yang diberikan, sehingga jelas bahwa stereotip dan bias yang ada akan tercermin. Bisa jadi model ini dihasilkan dari gambar lama, tidak termasuk kongres yang lebih baru dan lebih beragam. Masalahnya, bagaimanapun, adalah gambar-gambar ini ada di masa sekarang, dan sering dianggap sebagai masa depan .

Seperti Safiya Umoja Noble , yang buku terkenalnya Algoritma Penindasan menunjukkan bagaimana apa yang disebut mesin pencari "netral" mengabadikan stereotip rasial, mengatakan :

“Manajemen pengetahuan mencerminkan bias sosial yang sama yang ada di masyarakat, karena manusia berada di episentrum kurasi informasi. Praktik-praktik di masa lalu ini adalah bagian dari masa kini, dan hanya investasi yang berkomitmen dan berlarut-larut dalam memperbaiki simpanan pengetahuan untuk mencerminkan dan memusatkan kembali semua komunitas yang dapat menyebabkan pergeseran menuju kesetaraan dan inklusi di masa depan. Ini termasuk mendamaikan masa lalu kita yang brutal daripada mengaburkan atau meminimalkannya. Dengan cara ini, kami belum sepenuhnya menghadapi sejarah kami dan menyusun kembali perpustakaan dan museum menuju rekonsiliasi dan perbaikan.”

Bahwa seseorang, bahkan di tingkat pemerintahan tertinggi, masih dapat direduksi menjadi stereotip berdasarkan warna kulitnya harus dilihat sebagai model yang gagal - model yang menurut saya harus dianggap sebagai aspirasional dan tidak hanya mencerminkan masa kini. .

Kelebihan dari gambar generatif bukanlah dapat menggantikan alat pembuat gambar yang sudah ada seperti kamera, tetapi dapat membuat jenis gambar baru. Mereka akan memungkinkan kita membayangkan masa depan baru dan cara baru untuk hidup. Namun, ketika model ini mulai melatih diri mereka sendiri — membuat gambar yang dihasilkan berdasarkan gambar yang dihasilkan — setiap bias yang ada dalam model akan menciptakan lingkaran umpan balik, mengabadikan kelemahan masyarakat yang harus ditinggalkan.

Tanpa pengetahuan tentang bagaimana model ini dilatih, atau bahkan cara kerjanya, tidak ada cara untuk memahami mengapa hal ini terjadi, atau apa yang perlu diubah untuk menghentikan pelestarian stereotip. Dalam persyaratan layanan Midjourney mereka mengatakan "kami bukan demokrasi." Mungkin seharusnya begitu.

Ryan Aasen adalah seorang seniman, pendidik, dan peneliti yang sangat tertarik dengan politik teknologi media. Dia telah mengajar kursus seni, desain, dan teknologi di MIT, Parsons School of Design, dan Stevens Institute of Technology. Ikuti dia di Instagram untuk interogasi teknologi lainnya.