संशोधन की भाषा

Dec 08 2022

विवरण और संशोधन की भाषाओं पर एक संक्षिप्त अध्ययन

अपने मित्र द्वारा किए जाने वाले कार्य का वर्णन करने की कल्पना करें। यह संभावना नहीं है कि वे इसे पहली कोशिश में ठीक कर लेंगे।

अपने मित्र द्वारा किए जाने वाले कार्य का वर्णन करने की कल्पना करें। यह संभावना नहीं है कि वे इसे पहली कोशिश में ठीक कर लेंगे। अब तक जो किया जा रहा है उसे संशोधित करने और सुधारने के लिए अक्सर अतिरिक्त संचार की आवश्यकता होती है ।

न्यूरिप्स 2022 में, मैंने निम्न की समझ प्राप्त करने के लिए एक छोटा सा अध्ययन किया:

Q1 : संशोधन प्रक्रिया कितनी मूल्यवान है?

Q2 : क्या संशोधन और विवरण की भाषाएं अलग-अलग हैं?

टेलीफोन सचित्र

मैंने टेलीफोन-पिक्चररी कार्य चुना। एक प्रारंभिक छवि को देखते हुए, लोगों का एक समूह वैकल्पिक रूप से इसका वर्णन करता है (शब्दों का उपयोग करके), फिर विवरण के आधार पर छवि को फिर से चित्रित करता है।

व्यक्ति 1 पिछली पीढ़ी की छवि देखता है और विवरण देता है। व्यक्ति2 केवल विवरण देखता है, और मूल छवि को पुनर्प्राप्त करने का प्रयास करता है।

यह कई पुनरावृत्तियों के लिए जारी है। जैसा कि आप देख सकते हैं, भाषा वर्णनात्मक है और इसका उद्देश्य ड्रॉअर को 1 शॉट में मूल छवि को पुनर्प्राप्त करना है।

संशोधनों के साथ टेलीफोन सचित्र

क्या होगा यदि हम कुछ त्रुटियों को ठीक करने के लिए संशोधन के एक अतिरिक्त चरण की अनुमति दें? ऐसा कुछ दिखता है:

व्यक्ति 1 एक वर्णनात्मक भाषा का उपयोग करता है ताकि व्यक्ति 2 खरोंच से एक छवि उत्पन्न कर सके। व्यक्ति 3 एक संशोधन भाषा का उपयोग करता है ताकि व्यक्ति 4 मौजूदा छवि को बदल सके।

आदर्श रूप से, व्यक्ति 1 और व्यक्ति 3 एक ही व्यक्ति हैं - "प्रोग्रामर", और व्यक्ति 2 और व्यक्ति 4 एक ही व्यक्ति हैं - "दुभाषिया"। मैंने इन लोगों को एक ही पुनरावृत्ति में एक दुभाषिया के साथ प्रोग्रामर को जोड़ने से बचने के लिए अलग कर दिया।

सभी एकत्र किए गए डेटा को इस वेबसाइट पर ब्राउज किया जा सकता है (हो सकता है कि कुछ छवियां तुरंत लोड न हों, इसे फिर से लोड करने के लिए बटन पर क्लिक करें)।

Q1: संशोधन प्रक्रिया कितनी महत्वपूर्ण है?

यहां बताया गया है कि केवल विवरण दिए जाने पर समय के साथ मूल छवि कैसे बदलती है

जैसा कि आप देख सकते हैं, हम जल्दी से सिर्फ एक आयत और एक वृत्त में विकसित हो गए।

यहाँ विवरण और संशोधन दोनों के साथ है

जैसा कि हम देख सकते हैं, संशोधन के साथ, हम अधिक विवरण बनाए रखने में सक्षम थे, और ड्राइंग जैसे टेडी-बियर पर पहुंचे।

हम निष्कर्ष निकालते हैं कि संशोधन की प्रक्रिया महत्वपूर्ण है।

Q2: क्या विवरण और संशोधन के लिए भाषाएँ भिन्न हैं?

क्या विवरण और संशोधन की भाषाएं अलग-अलग हैं? मैंने सबसे पहले पाठ के रूप में उपयोग की जाने वाली सभी भाषाओं का लिप्यंतरण किया ।

फिर, हम gpt-3 के कुछ-शॉट सीखने का उपयोग यह देखने के लिए कर सकते हैं कि क्या यह वर्णनात्मक भाषा को संशोधन भाषा से मज़बूती से अलग कर सकता है। मैंने पहली 2 पीढ़ियों के ग्रंथों को संकेत के रूप में इस्तेमाल किया, और शेष 9 पीढ़ियों पर मूल्यांकन किया।

विवरण के लिए, हमें 9/9 बार सही पहचान मिलती है। संशोधनों के लिए, हमें 7/9 बार सही पहचान मिलती है।

हम निष्कर्ष निकालते हैं कि विवरण और संशोधन की भाषाएं अलग-अलग हैं।

कुछ तार्किक टिप्पणी

इस अध्ययन में 2 स्थितियों की लगभग 12 पीढ़ियाँ शामिल हैं, एक संशोधन के बिना (2 प्रतिभागी) और एक संशोधनों के साथ (4 प्रतिभागी)। (2+4)*12 या मोटे तौर पर कुल मिलाकर 70 प्रतिभागी। कुल मिलाकर लगभग 5 घंटे के समय के लिए प्रत्येक डेटा-पॉइंट को इकट्ठा करने में लगभग 4 मिनट लगते हैं (कार्य के स्पष्टीकरण का 1 मिनट, और उत्तर उत्पन्न करने के लिए 2-3 मिनट की प्रतीक्षा)। कुल 15 घंटे के काम के लिए इस ब्लॉग पोस्ट और संबद्ध इंटरैक्टिव वेबसाइट और gpt3 अध्ययन में लगभग 10 घंटे लगे।

मुझे खुशी है कि मुझे न्यूरिप्स में डेटा संग्रह करने को मिलता है, जहां डेटा की गुणवत्ता उच्च होती है, एनोटेटर्स कार्य को अच्छी तरह से समझते हैं, और मुझे एक वेबसाइट को स्पिन करने और इसे विपुल पर होस्ट करने की आवश्यकता नहीं है।

निष्कर्ष

संशोधन मूल्यवान है - इसके बिना, एक व्यक्ति का हमारा आरेखण केवल एक आयत और एक वृत्त में बदल जाता है। संशोधन की भाषा विवरण की तुलना में भिन्न है - gpt3 एक दूसरे से विश्वसनीय रूप से बता सकता है।

वर्तमान मूलभूत मॉडल जैसे क्लिप और स्थिर-प्रसार को छवि-कैप्शन जोड़े जैसे वर्णनात्मक डेटा का उपयोग करके प्रशिक्षित किया जाता है। नतीजतन, जबकि वे 1-शॉट में प्रभावशाली परिणाम उत्पन्न कर सकते हैं, वर्तमान आउटपुट को संशोधित और परिष्कृत करने के लिए उनके साथ बातचीत करना मुश्किल है।

हमें संशोधनों के अधिक डेटासेट एकत्र करने चाहिए, जहां वक्ता श्रोता को यह बताने के लिए भाषा का उपयोग करता है कि मौजूदा आउटपुट को कैसे संशोधित और बेहतर बनाया जाए। इस दिशा में पहले से ही कई प्रयास किए जा रहे हैं, ज्यादातर पाठ और कोड संपादन के क्षेत्र में, जो एक आशाजनक शुरुआत है।

— इवान 2022–12–05

ps इस अध्ययन में भाग लेने वाले सभी लोगों के लिए एक बहुत बड़ा धन्यवाद, किसी के लिए एक सम्मेलन में आपसे संपर्क करना और चित्र बनाने के लिए कहना असामान्य है, लेकिन आप मेरे प्रति इतने दयालु थे और इसे सह लिया। यह ब्लॉग आपके लिए लिखा गया है।