न्यू मीडिया, ओल्ड प्रॉब्लम्स: एआई इमेज जनरेशन में नस्लीय रूढ़िवादिता
कई लोगों की तरह, मैंने पिछले कुछ महीनों को उपभोक्ता-उन्मुख (जिसे मैं "ओवर-द-काउंटर" कहता हूं) एआई टूल जैसे चैटजीपीटी की नई लहर के साथ खेलने में बिताया है। एक कलाकार के रूप में, मैं विशेष रूप से एआई इमेज जेनरेटर जैसे कि डल-ई, मिडजर्नी और स्टेबल डिफ्यूजन से रोमांचित रहा हूं, जो सिर्फ एक साल में फंतासी से फोटोरियलिज्म तक चले गए हैं।
क्योंकि इन मॉडलों को मौजूदा छवियों पर प्रशिक्षित किया जाता है, वे एक समाज के रूप में छवियों को बनाने, उपभोग करने और उनका विश्लेषण करने के तरीके पर एक प्रकार की मेटा-कथा प्रदान करते हैं - दिलचस्प तरीकों से पैटर्न, धारणाओं और पूर्वाग्रहों को उजागर करते हैं।
उदाहरण के लिए, मैं मिडजर्नी में कांग्रेस के सदस्यों की छवियां बना रहा था- विशिष्ट सदस्य नहीं, लेकिन एआई ने सोचा कि कांग्रेस का सदस्य कैसा दिखेगा। मैंने इसे आंशिक रूप से कांग्रेस की उम्र के साथ मेरी हताशा और नई तकनीकों के प्रभावों से उनके डिस्कनेक्ट होने के प्रतिबिंब के रूप में किया था, लेकिन बहुत सारे तरीकों से ये चित्र काम करने के लिए एक आदर्श डेटासेट हैं: उनमें से कई हैं और वे लगभग हैं शैली में समान - रचना और विषय दोनों में। इसका मतलब है कि परिणाम काफी अनुमानित हो सकते हैं।
प्रारंभ में यह विशुद्ध रूप से हास्यपूर्ण था - उन्हें बिल्ली या चट्टान जैसी वस्तु को पकड़ने का सूक्ष्म परिवर्तन जल्दी से इन उपयोगितावादी चित्रों को बेतुका बना देता है (दुर्भाग्य से "बंदूक पकड़ना" इतना बेतुका नहीं लगता)।
जैसा कि मैं इन्हें पैदा कर रहा था, मैंने जल्दी से देखा कि मुझे मुख्य रूप से गोरे दिखने वाले पुरुष मिल रहे थे। यदि हम एआई को बड़े पैमाने पर मौजूदा मीडिया के सारांश के रूप में सोच सकते हैं, तो यह आश्चर्यजनक नहीं होना चाहिए: जबकि पिछले दो कांग्रेस अब तक के सबसे विविध रहे हैं , वे अभी भी ज्यादातर गोरे लोग हैं। यदि एआई एक वास्तविकता को प्रतिबिंबित करने के लिए है, तो हमें लगभग 25% छवियों की अपेक्षा करनी चाहिए जो कि कांग्रेस के सदस्यों को या तो महिलाओं या नस्लीय अल्पसंख्यकों के रूप में उत्पन्न करती हैं - जो कि मॉडल की तुलना में बहुत अधिक थी।
यह पता चलता है कि प्रतिनिधित्व की विविधता किसी भी अतिरिक्त संदर्भ पर आकस्मिक है जो संकेत में रखी गई है। उदाहरण के लिए, कुछ संदर्भों को स्पष्ट तरीके से जेंडरीकृत किया जाता है, जैसे "हाथ में बटुआ", जो लगभग विशेष रूप से महिलाओं की छवियों को लौटाता है। लेकिन कुछ कम-स्पष्ट तरीकों से लिंगबद्ध हैं। "कांग्रेसपर्सन" शब्द ने "कांग्रेस के सदस्य" की तुलना में अधिक महिलाओं को उत्पन्न किया, यह सुझाव देते हुए कि इस शब्द का पुरुषों की तुलना में महिलाओं द्वारा उपयोग किए जाने की अधिक संभावना है।
लेकिन मेरे द्वारा किए गए सभी संकेतों में से, काले लोग काफी हद तक अनुपस्थित थे, भले ही वे कांग्रेस में सबसे बड़े नस्लीय अल्पसंख्यक हैं। मिडजर्नी के लिए कांग्रेस के काले सदस्यों को उत्पन्न करने का सबसे सुसंगत तरीका? इसे तली हुई चिकन की बाल्टी रखने के लिए कहें। दूसरा तरीका उन्हें बास्केटबॉल जर्सी पहनने के लिए कहना था (उत्सुकता से बास्केटबॉल जर्सी अधिकांश तस्वीरों में भी नहीं थी।)
यह एकमात्र पूर्वाग्रह नहीं है जो मैंने पाया: अन्य संकेत, जैसे "अंतरजातीय युगल", एक सफेद महिला के साथ एक काले आदमी की लगभग विशेष रूप से छवियां लौटाते हैं। शीघ्र "समलैंगिक युगल" दो युवा श्वेत पुरुषों (" बॉयफ्रेंड जुड़वाँ ," जैसा कि उन्हें कहा जाता है) की लगभग विशेष रूप से छवियां देता है।)
बेशक ये मॉडल उनके द्वारा दिए गए डेटा को दर्शाते हैं, और इसलिए यह स्पष्ट है कि मौजूदा रूढ़िवादिता और पूर्वाग्रह परिलक्षित होंगे। यह हो सकता है कि ये मॉडल पुरानी छवियों पर उत्पन्न होते हैं, हाल ही में और अधिक विविध कांग्रेस को छोड़कर। हालाँकि, समस्या यह है कि ये चित्र वर्तमान में मौजूद हैं, और अक्सर इन्हें भविष्य के रूप में माना जाता है ।
सफिया उमोजा नोबल के रूप में , जिनकी ऐतिहासिक पुस्तक अल्गोरिद्म ऑफ ऑप्रेशन दिखाती है कि कैसे तथाकथित "तटस्थ" खोज इंजन नस्लीय रूढ़िवादिता को बनाए रखते हैं, कहते हैं :
"ज्ञान प्रबंधन उन्हीं सामाजिक पूर्वाग्रहों को दर्शाता है जो समाज में मौजूद हैं, क्योंकि मनुष्य सूचना अवधि के केंद्र में हैं। अतीत की ये प्रथाएं वर्तमान का हिस्सा हैं, और सभी समुदायों को प्रतिबिंबित करने और पुन: प्रस्तुत करने के लिए ज्ञान भंडार की मरम्मत में केवल प्रतिबद्ध और दीर्घ निवेश भविष्य में समानता और समावेश की ओर बदलाव का कारण बन सकता है। इसमें अस्पष्ट या कम करने के बजाय हमारे क्रूर अतीत को समेटना शामिल है। इस तरह, हमें अभी तक अपने इतिहास का पूरी तरह से सामना करना है और पुस्तकालयों और संग्रहालयों को सुलह और सुधार की दिशा में पुनर्गठित करना है।"
कि किसी को, यहां तक कि सरकार के उच्चतम स्तरों पर, अभी भी उनकी त्वचा के रंग के आधार पर एक स्टीरियोटाइप में घटाया जा सकता है, इसे मॉडल की विफलता के रूप में देखा जाना चाहिए - एक मॉडल जो मुझे विश्वास है कि आकांक्षात्मक के रूप में सोचा जाना चाहिए और केवल वर्तमान का चिंतनशील नहीं होना चाहिए .
जनरेटिव छवियों की ताकत यह नहीं है कि वे मौजूदा छवि बनाने वाले उपकरणों को कैमरे की तरह बदल सकते हैं, लेकिन यह कि वे नई प्रकार की छवियां बना सकते हैं। वे हमें नए भविष्य और होने के नए तरीकों की कल्पना करने की अनुमति देंगे। लेकिन, जब ये मॉडल खुद को प्रशिक्षित करना शुरू करते हैं - जेनरेट की गई छवियों के आधार पर जेनरेट की गई छवियां - मॉडल में कोई भी मौजूदा पूर्वाग्रह एक फीडबैक लूप बनाएगा, जो सामाजिक खामियों को खत्म कर देगा जिन्हें छोड़ दिया जाना चाहिए।
इन मॉडलों को कैसे प्रशिक्षित किया गया था, या यहां तक कि वे कैसे काम करते हैं, यह जानने के बिना, यह समझने का कोई तरीका नहीं है कि ऐसा क्यों हो रहा है, या रूढ़िवादिता को रोकने के लिए क्या बदलने की जरूरत है। मिडजर्नी की सेवा की शर्तों में वे कहते हैं "हम लोकतंत्र नहीं हैं।" शायद उन्हें होना चाहिए।
रेयान आसन एक कलाकार, शिक्षक और शोधकर्ता हैं जो व्यापक रूप से मीडिया प्रौद्योगिकियों की राजनीति में रुचि रखते हैं। उन्होंने MIT, Parsons School of Design, और Stevens Institute of Technology में कला, डिज़ाइन और प्रौद्योगिकी पाठ्यक्रम पढ़ाए हैं। अधिक तकनीकी पूछताछ के लिए उसे इंस्टाग्राम पर फॉलो करें ।