Difüzyon Modelleri hakkında dağınık?
Difüzyona Dayalı Görüntü Oluşturma Modellerinde Yükselme
Üç hafta önce bir yayılma çaylağıydım, ancak vızıltı verildiğinde, yayılma trenine atlamak istedim (ki bunu yapabildiğimi hissediyorum). Difüzyon tabanlı görüntü oluşturma (DbIG) alanındaki yeni gelişmelerin gerçekleşme hızı akıllara durgunluk veriyor. Yolculuğa nereden başlayacağınızı anlamak zorlaşıyor. Bu yazıda, matematiği anlamak da dahil olmak üzere difüzyon modelleri (DM) dünyasını anlamak için güçlü bir temel oluşturmak isteyenler için faydalı olabilecek yolculuğumu paylaşıyorum.
Not1 : Herhangi bir teknikten ayrıntılı olarak bahsetmeyeceğim, ancak bir kağıttan diğerine bir yol çizeceğim. Çeşitli tekniklerden bahseden aşırı dozda blog/video/makale olduğuna inanıyorum. Öte yandan, DbIG'de nasıl güçlü bir temel oluşturulacağına rehberlik edecek herhangi bir blog bulamadım.
Not2 : En temelden başlamak ve zemini oluşturmak yaklaşık 3 haftamı aldı. Derin bir anlayış oluşturmak istiyorsanız, özellikle Varyasyonel Otomatik Kodlayıcıların matematiğine aşina değilseniz ve DM matematiği hakkında sezgisel bir fikir edinmek istiyorsanız, zamanınızın yaklaşık 2 haftasını ayırın.
Hadi başlayalım.
Adım-1: Erken Difüzyon Modeli
Dengesiz Termodinamiği Kullanan Derin Denetimsiz Öğrenme [2015] — Bu, 'Difüzyon olasılık modellerini' kullanmayla ilgili fikirleri ortaya koyan ilk makaledir. Matematiği atlarsanız kağıt kolayca hazır olsa da, matematiği anlamak için Varyasyonel Çıkarıma aşinalık gerekir. Matematiği takip etmek için Değişken Otomatik Kodlayıcılara (VAE) aşina olmanızı tavsiye ederim.
Varyasyonlu Otomatik Kodlayıcılar [İsteğe Bağlı] : Difüzyon modellerini anlamak için bir gereklilik olmasa da, VAE'nin iyi anlaşılması, difüzyon sürecinin temel birimlerini ve arkasındaki matematiği anlamaya yardımcı olur.
- Öğreticiler : Değişken Otomatik Kodlayıcılara Giriş , Değişken Otomatik Kodlayıcılar Üzerine Eğitim
- Kağıtlar : Otomatik Kodlama Varyasyon Bayes
- Kod : Pytorch ile Varyasyonlu Otomatik Kodlayıcı , LATENT SPACES (Bölüm-2): Değişken Otomatik Kodlayıcılar İçin Basit Bir Kılavuz
2. Adım: DDPM
DDPM: Denoising Difusion Probabilistic Models [2020] - Bu, görüntü oluşturma için DM etrafındaki çılgınlığı başlatan şeydi.
DDPM'de Daha Derine inmek:
- DDPM Belgesinin Açıklaması — Difüzyon Modelleri Nelerdir? [Blog], Makine Öğrenimi için Difüzyon Modellerine Giriş [Blog]
- Matematik — Difüzyon Modelleri | Kağıt Açıklama | Matematiğin ayrıntılı olarak ele alındığı Matematik Açıklaması [YouTube] videosu. Matematiğe adım adım bakmak için çok yararlı [Şiddetle Tavsiye Edilir]
- Kod — Difüzyon Modelleri | PyTorch Uygulaması [YouTube], Difüzyon-Modelleri-pytorch [Github], PyTorch'ta sıfırdan difüzyon modelleri [YouTube]
- DDPM ve Puana dayalı üretimin denkliğini anlama — Veri Dağıtımının Eğimlerini Tahmin Ederek Üretken Modelleme [Blog]
- Puana dayalı üretken modelleri eğitmek için geliştirilmiş teknikler [2020]
- Stokastik diferansiyel denklemler aracılığıyla puan tabanlı üretken modelleme [2020]
U-Net : DDPM ilk önce DM için U-Net mimarisini kullandı; bence bu, yüksek kaliteli görüntüler oluşturmaya yardımcı olmada difüzyon sürecinin kendisi kadar önemlidir. Süreci anlamak için U-Net'i anlamak şart olmasa da, daha ileri düzey çalışmaları (zaman adımı kodlama, metin koşullandırma) takip etmek istiyorsanız, U-Net'in nasıl çalıştığını bilmek çok önemlidir.
- U-Net: Biyomedikal Görüntü Segmentasyonu için Konvolüsyonel Ağlar [2015] — U-Net Belgesi
- Anlamsal Segmentasyon için Tam Evrişimli Ağlar [2014] — U-Net için ilham kaynağı olan FCN makalesi
- U-Net'i ayrıntılı olarak anlamak — U-Net mimarisini anlamak ve onu sıfırdan oluşturmak [Youtube]
- De-convolutions — Derin öğrenme , Transposed Convolution , Deconvolution ve Checkerboard Artifacts ile Yukarı Örnekleme için evrişim aritmetiği kılavuzu
DDIM : Gürültü giderme örtülü difüzyon modelleri [Ekim 2020] - Puana dayalı literatürden DM'den alternatif popüler örnekleme stratejisi.
Adım-4: DM, Görüntü Oluşturma için Varsayılan Seçim Olarak Belirleniyor
- İyileştirilmiş Gürültü Giderici Difüzyon Olasılık Modelleri [Şubat 2021] — DDPM'de İyileştirmeler.
- Difüzyon Modelleri Görüntü Sentezinde GAN'ları Yendi [Mayıs 2021] — IDDPM'de daha fazla iyileştirme. Bu makale aynı zamanda üretim kalitesini iyileştirmek ve üretim çıktısını kontrol etmenin bir yolunu sağlamak için 'sınıflandırıcı rehberliği' fikrini ortaya koydu. DbIG'deki takip çalışması için temel oluşturan şeyin bu olduğuna inanıyorum.
- Sınıflandırıcısız Difüzyon Kılavuzu [Temmuz 2022] — U-Net Modelini koşullandırarak ve 'bırakma' tarzı bir eğitim izleyerek iyileştirilmiş sonuçlar. Bu, alternatif bir görüntü sınıflandırıcının eğitilmesini gerektiren sınıflandırıcı rehberliğine bir alternatiftir.
- Manifoldlardaki Difüzyon Modelleri için Sözde Sayısal Yöntemler [Eylül 2021] — Örnekleme hızında iyileştirme.
- Yinelemeli İyileştirme Yoluyla Görüntü Süper Çözünürlüğü [Nisan 2021] — Görüntü üretimi için değil, gelecekteki görüntü koşullu DM'yi ve görüntü çözünürlüğünü iyileştirmek için basamaklandırmayı anlamanın anahtarı.
Difüzyon modelleri ön sayfa materyali yapılan üç makale.
Kararlı Yayılma : Gizli Yayılma Modelleriyle Yüksek Çözünürlüklü Görüntü Sentezi [Aralık 2021] — Kodlarını açık kaynaklı hale getirerek DM'nin demokratikleşmesine yardımcı oldu. Hesaplama karmaşıklığının iyileştirilmesine yardımcı oldu. Çapraz dikkat yoluyla koşullandırma, vb. Kararlı Difüzyonu ayrıntılı olarak anlama — Resimli Kararlı Difüzyon .
Dall-E 2 : CLIP Gizli Öğeleriyle Hiyerarşik Metin-Koşullu Görüntü Oluşturma [Nisan 2022] — Açık kaynak değil, çevrimiçi bir demo. CLIP görüntü yerleştirmelerini koşullandırmak için ek bir adım ve metin CLIP yerleştirmelerini görüntü yerleştirmelerine dönüştürmek için bir ön adım eklendi.
Imagen : Derin Dil Anlayışı ile Fotogerçekçi Metinden Görüntüye Difüzyon Modelleri [Mayıs 2022] — Google tarafından hazırlanan makale, aşağıdaki değişiklikle birlikte — Yalnızca metin yerleştirmelerin (T5), eşikli kılavuzluğun, kademeli modelin kullanımı.
7. Adım: Görüntü Oluşturma için Ekim 2022'ye kadar diğer Popüler Difüzyon kağıtları [İsteğe bağlı]
- SDEdit: Stokastik Diferansiyel Denklemlerle Kılavuzlu Görüntü Sentezi ve Düzenleme [Ağu 2021]
- Palet: Görüntüden Görüntüye Difüzyon Modelleri [Kas 2021]
- GLIDE: Metin Kılavuzlu Difüzyon Modelleriyle Fotogerçekçi Görüntü Oluşturma ve Düzenlemeye Doğru [Aralık 2021]
- Difüzyon Modelleri Yoluyla Anlamsal Görüntü Sentezi [Haziran 2022]
- Bir Görsel Bir Kelimeye Değerdir: Metin Tersine Çevirme Kullanarak Metinden Resime Oluşturmayı Kişiselleştirme [Ağu 2022][Metin Ters Çevirme]
- DreamBooth: Konu Odaklı Üretim İçin Metinden Görüntüye Difüzyon Modellerinde İnce Ayar [Ağustos 2022]
- Çapraz Dikkat Kontrolü ile İstemden İsteme Görüntü Düzenleme [Ağu 2022]
- Imagic: Difüzyon Modelleriyle Metin Tabanlı Gerçek Görüntü Düzenleme [Ekim 2022]
- MagicMix: Difüzyon Modelleriyle Anlamsal Karıştırma [Ekim 2022]
İşte bu millet. Mutlu Yayılma.
Big Bang radyasyonlarından bir görüntü yaratmaya yönelik bu büyülü yolculuktan gerçekten zevk aldım . Yayılma trenine katılmanıza yardımcı olan bir makale/blog/video olduğunu düşünüyorsanız, lütfen benimle paylaşın.
Teşekkür : Bu keşifte bana yardımcı oldukları ve zaman zaman beni doğru yönlere yönlendirdikleri için Sen He , Jerry Wu ve Tao Xiang'a içtenlikle teşekkür etmek istiyorum .
Son Not : Bu bilgiyi kısa sürede oluşturdum, bu yüzden anlamamda bazı hatalar olabilir. Lütfen burada söylediğim herhangi bir şeyin gerçekte yanlış olup olmadığını bana bildirin.