प्रसार मॉडल के बारे में विसरित?

Nov 26 2022
डिफ्यूजन-आधारित इमेज जेनरेशन मॉडल में तेजी तीन हफ्ते पहले मैं एक डिफ्यूजन नोब था, लेकिन चर्चा को देखते हुए, मैं डिफ्यूजन ट्रेन पर कूदना चाहता था (जो मुझे लगता है कि मैं सक्षम हो गया हूं)। प्रसार आधारित छवि निर्माण (DbIG) अंतरिक्ष में जिस गति से नए विकास हो रहे हैं, वह मनमौजी है।

डिफ्यूजन-आधारित इमेज जेनरेशन मॉडल में रैंपिंग

Dall-E 2 द्वारा "डिफ्यूज्ड अबाउट डिफ्यूज़न मॉडल्स आर्ट" संकेत के साथ बनाई गई छवि

मैं तीन हफ्ते पहले एक प्रसार नोब था, लेकिन चर्चा को देखते हुए, मैं प्रसार ट्रेन पर कूदना चाहता था (जो मुझे लगता है कि मैं सक्षम हूं)। प्रसार आधारित छवि निर्माण (DbIG) अंतरिक्ष में जिस गति से नए विकास हो रहे हैं, वह मनमौजी है। यह समझना मुश्किल हो जाता है कि यात्रा कहां से शुरू की जाए। इस पोस्ट में, मैं अपनी यात्रा साझा करता हूं जो उन लोगों के लिए उपयोगी हो सकती है जो गणित को समझने सहित प्रसार मॉडल (डीएम) की दुनिया को समझने के लिए एक मजबूत मौलिक आधार बनाना चाहते हैं।

नोट 1 : मैं आवश्यक रूप से किसी भी तकनीक के बारे में विस्तार से बात नहीं करूंगा, बल्कि एक पेपर से दूसरे पेपर तक का रास्ता बनाऊंगा। मेरा मानना ​​है कि विभिन्न तकनीकों के बारे में बात करने वाले ब्लॉग/वीडियो/पेपर की अधिकता है। दूसरी ओर, मुझे ऐसा कोई ब्लॉग नहीं मिला जो यह मार्गदर्शन करे कि कैसे DbIG में एक मजबूत नींव तैयार की जाए।

नोट 2 : बुनियादी सिद्धांतों से शुरू करने और जमीनी स्तर पर निर्माण करने में मुझे लगभग 3 सप्ताह का समर्पित प्रयास लगा। यदि आप एक गहरी समझ बनाना चाहते हैं, तो अपने समय के लगभग 2 सप्ताह समर्पित करें, खासकर यदि आप वैरिएशनल ऑटो एनकोडर के गणित से अपरिचित हैं और DM गणित का सहज ज्ञान प्राप्त करना चाहते हैं।

शुरू करते हैं।

चरण-1: अर्ली डिफ्यूजन मॉडल

डीप अनसुपरवाइज्ड लर्निंग यूजिंग नोनक्विलिब्रियम थर्मोडायनामिक्स [2015] - यह पहला पेपर है जिसने 'डिफ्यूजन प्रोबेबिलिस्टिक मॉडल' का उपयोग करने के बारे में विचारों को पेश किया। यदि आप गणित को छोड़ देते हैं तो पेपर आसानी से तैयार हो जाता है, गणित को समझने के लिए भिन्नात्मक अनुमान के साथ परिचित होने की आवश्यकता होती है। मैं गणित का पालन करने के लिए Variational Auto Encoders (VAE) से परिचित होने की सलाह दूंगा।

परिवर्तनशील ऑटो एनकोडर [वैकल्पिक] : हालांकि प्रसार मॉडल को समझने की आवश्यकता नहीं है, VAE की एक अच्छी समझ प्रसार प्रक्रिया की बुनियादी इकाइयों और इसके पीछे के गणित को समझने में मदद करती है।

स्टेप-2: डीडीपीएम

डीडीपीएम: डीनोइजिंग डिफ्यूजन प्रोबेबिलिस्टिक मॉडल [2020] - यही वह है जिसने छवि निर्माण के लिए डीएम के प्रति दीवानगी शुरू की।

डीडीपीएम में गहराई से जा रहे हैं:

  • डीडीपीएम पेपर की व्याख्या — डिफ्यूजन मॉडल क्या हैं? [ब्लॉग], मशीन लर्निंग के लिए डिफ्यूजन मॉडल का परिचय [ब्लॉग]
  • मठ - प्रसार मॉडल | पेपर स्पष्टीकरण | गणित की व्याख्या [यूट्यूब] वीडियो जो गणित को विस्तार से कवर करता है। गणित में चरण-दर-चरण अंतर्दृष्टि प्राप्त करने के लिए बहुत उपयोगी [अत्यधिक अनुशंसित]
  • कोड - मेरे पास अभी भी कुछ भ्रम था जो डिफ्यूजन मॉडल का उपयोग करके कोड / री-कोडिंग डीएम का पालन करके हटा दिया गया था PyTorch इम्प्लीमेंटेशन [YouTube], डिफ्यूजन-मॉडल-पाइटोरच [Github], PyTorch [YouTube] में स्क्रैच से डिफ्यूजन मॉडल
  • डीडीपीएम और स्कोर आधारित पीढ़ी की समानता को समझना - डेटा वितरण के ग्रेडिएंट का अनुमान लगाकर जनरेटिव मॉडलिंग [ब्लॉग]
  • प्रशिक्षण स्कोर-आधारित जनरेटिव मॉडल के लिए बेहतर तकनीकें [2020]
  • स्टोचैस्टिक डिफरेंशियल इक्वेशन [2020] के माध्यम से स्कोर-आधारित जनरेटिव मॉडलिंग

यू-नेट : डीडीपीएम ने पहली बार डीएम के लिए यू-नेट आर्किटेक्चर का इस्तेमाल किया, जो मुझे लगता है कि उच्च गुणवत्ता वाली छवियों को उत्पन्न करने में मदद करने के लिए प्रसार प्रक्रिया के रूप में ही महत्वपूर्ण है। हालांकि प्रक्रिया को समझने के लिए यू-नेट को समझने की आवश्यकता नहीं है, लेकिन यदि आप अधिक उन्नत कार्यों (टाइमस्टेप एन्कोडिंग, टेक्स्ट कंडीशनिंग) का पालन करना चाहते हैं, तो यह जानना महत्वपूर्ण है कि यू-नेट कैसे काम करता है।

  • यू-नेट: बायोमेडिकल इमेज सेगमेंटेशन के लिए संवादी नेटवर्क [2015] - यू-नेट पेपर
  • सिमेंटिक सेगमेंटेशन [2014] के लिए पूरी तरह से कनवॉल्यूशनल नेटवर्क - एफसीएन पेपर जो यू-नेट के लिए प्रेरणा है
  • यू-नेट को विस्तार से समझना - यू-नेट आर्किटेक्चर को समझना और इसे स्क्रैच से बनाना [यूट्यूब]
  • डी-कन्वोल्यूशन - डीप लर्निंग के लिए कनवल्शन अंकगणित के लिए एक गाइड , ट्रांसपोज़्ड कनवल्शन के साथ अप-सैंपलिंग , डीकनवोल्यूशन और चेकरबोर्ड आर्टिफैक्ट्स

डीडीआईएम : डीनोइसिंग डिफ्यूजन इंप्लिसिट मॉडल [अक्टूबर 2020] - स्कोर आधारित साहित्य से डीएम से वैकल्पिक लोकप्रिय नमूनाकरण रणनीति।

चरण-4: छवि निर्माण के लिए डिफ़ॉल्ट विकल्प के रूप में डीएम स्थापित किया जा रहा है

  • बेहतर डीनोइजिंग डिफ्यूजन प्रोबेबिलिस्टिक मॉडल [फरवरी 2021] - डीडीपीएम में सुधार।
  • डिफ्यूजन मॉडल्स ने इमेज सिंथेसिस [मई 2021] में GANs को मात दी - IDDPM में और सुधार। इस पत्र ने पीढ़ी की गुणवत्ता में सुधार करने और उत्पादन उत्पादन को नियंत्रित करने का एक तरीका प्रदान करने के लिए 'वर्गीकृत मार्गदर्शन' का विचार भी पेश किया। मेरा मानना ​​है कि इसने ही DbIG पर अनुवर्ती कार्य के लिए आधार रेखा निर्धारित की है।
  • क्लासिफायर-फ्री डिफ्यूजन गाइडेंस [जुलाई 2022] - यू-नेट मॉडल को कंडीशनिंग करके और 'ड्रॉपआउट' शैली के प्रशिक्षण का पालन करके बेहतर परिणाम। यह क्लासिफायर गाइडेंस का एक विकल्प है जिसके लिए एक वैकल्पिक छवि क्लासिफायरियर के प्रशिक्षण की आवश्यकता होती है।
  • मैनिफोल्ड्स पर प्रसार मॉडल के लिए छद्म संख्यात्मक तरीके [सितंबर 2021] - नमूनाकरण गति में सुधार।
  • इटरेटिव रिफाइनमेंट [अप्रैल 2021] के माध्यम से छवि सुपर-रिज़ॉल्यूशन - छवि निर्माण के लिए नहीं बल्कि भविष्य की छवि को अनुकूलित डीएम और छवि रिज़ॉल्यूशन को बेहतर बनाने के लिए कैस्केडिंग को समझने की कुंजी है।

तीन पत्रों ने प्रसार मॉडल को पहले पृष्ठ की सामग्री बना दिया।

स्थिर प्रसार : अव्यक्त प्रसार मॉडल के साथ उच्च-रिज़ॉल्यूशन इमेज सिंथेसिस [दिसंबर 2021] - उनके कोड को ओपन-सोर्स बनाया गया जिससे डीएम को लोकतांत्रिक बनाने में मदद मिली। कम्प्यूटेशनल जटिलता में सुधार करने में मदद की। क्रॉस-अटेंशन आदि के माध्यम से कंडीशनिंग। स्टेबल डिफ्यूजन को विस्तार से समझना - द इलस्ट्रेटेड स्टेबल डिफ्यूजन ।

Dall-E 2 : CLIP लेटेंट्स के साथ पदानुक्रमित पाठ-सशर्त छवि निर्माण [अप्रैल 2022] - ओपन-सोर्स नहीं, बल्कि एक ऑनलाइन डेमो। स्थिति में CLIP छवि एम्बेडिंग का उपयोग करने का एक अतिरिक्त चरण और पाठ CLIP एम्बेडिंग को छवि एम्बेडिंग में बदलने से पहले जोड़ा गया।

चित्र : डीप लैंग्वेज अंडरस्टैंडिंग के साथ फोटोरियलिस्टिक टेक्स्ट-टू-इमेज डिफ्यूजन मॉडल [मई 2022] - Google द्वारा पेपर, निम्नलिखित संशोधन के साथ - टेक्स्ट-ओनली एम्बेडिंग (T5) का उपयोग, थ्रेशोल्ड गाइडेंस, कैस्केड मॉडल।

स्टेप-7: लगभग अक्टूबर 2022 तक इमेज जनरेशन के लिए अन्य पॉपुलर डिफ्यूजन पेपर [वैकल्पिक]

  • SDEdit: गाइडेड इमेज सिंथेसिस और स्टोचैस्टिक डिफरेंशियल इक्वेशन के साथ एडिटिंग [अगस्त 2021]
  • पैलेट: इमेज-टू-इमेज डिफ्यूजन मॉडल [नवंबर 2021]
  • ग्लाइड: टेक्स्ट-गाइडेड डिफ्यूजन मॉडल के साथ फोटोरियलिस्टिक इमेज जेनरेशन और एडिटिंग की ओर [दिसंबर 2021]
  • डिफ्यूजन मॉडल के जरिए सिमेंटिक इमेज सिंथेसिस [जून 2022]
  • एक छवि एक शब्द के लायक है: पाठ्य उलटा [अगस्त 2022] [पाठ उलटा] का उपयोग करके पाठ-से-छवि निर्माण को वैयक्तिकृत करना
  • ड्रीमबुथ: सब्जेक्ट-ड्रिवेन जनरेशन के लिए फाइन ट्यूनिंग टेक्स्ट-टू-इमेज डिफ्यूजन मॉडल [अगस्त 2022]
  • क्रॉस अटेंशन कंट्रोल के साथ तुरंत-टू-प्रॉम्प्ट इमेज एडिटिंग [अगस्त 2022]
  • इमेजिक: डिफ्यूजन मॉडल के साथ टेक्स्ट-बेस्ड रियल इमेज एडिटिंग [अक्टूबर 2022]
  • मैजिकमिक्स: डिफ्यूजन मॉडल के साथ सिमेंटिक मिक्सिंग [अक्टूबर 2022]

बस इतना ही लोग। हैप्पी डिफ्यूजिंग।

मैंने बिग बैंग विकिरणों से एक छवि बनाने की इस जादुई यात्रा का वास्तव में आनंद लिया । अगर आपको लगता है कि कोई पेपर/ब्लॉग/वीडियो है जिसने आपको डिफ्यूजन ट्रेन में चढ़ने में मदद की है, तो कृपया मेरे साथ साझा करें।

आभार : मैं इस खोज में मेरी मदद करने और समय-समय पर मुझे सही दिशा में इंगित करने के लिए सेन हे , जेरी वू और ताओ जियांग को ईमानदारी से धन्यवाद देना चाहता हूं।

अंतिम नोट : मैंने इस ज्ञान को कम समय में बनाया है इसलिए मेरी समझ में कुछ त्रुटियाँ हो सकती हैं। कृपया मुझे बताएं कि मैंने यहां जो कुछ भी कहा है वह तथ्यात्मक रूप से गलत है।