Disebarkan tentang Model Difusi?
Meningkatkan Model Pembuatan Gambar Berbasis Difusi
Saya adalah noob difusi tiga minggu lalu, tetapi mengingat desas-desus, saya ingin melompat ke kereta difusi (yang saya rasa sudah bisa saya lakukan). Laju perkembangan baru yang terjadi dalam ruang pembuatan gambar berbasis difusi (DbIG) sangat mencengangkan. Sulit untuk memahami dari mana harus memulai perjalanan. Pada postingan kali ini, saya membagikan perjalanan saya yang mungkin berguna bagi orang lain yang ingin membangun landasan fundamental yang kuat untuk memahami dunia model difusi (DM), termasuk memahami matematika.
Note1 : Saya tidak akan berbicara tentang teknik apa pun secara mendetail, tetapi memetakan jalur dari satu kertas ke kertas lainnya. Saya percaya ada banyak sekali blog/video/makalah yang berbicara tentang berbagai teknik. Di sisi lain, saya tidak menemukan blog untuk membantu memandu bagaimana membangun fondasi yang kuat di DbIG.
Note2 : Butuh waktu sekitar 3 minggu upaya khusus untuk memulai dari dasar dan membangun dasar. Jika Anda ingin membangun pemahaman yang mendalam, luangkan sekitar 2 minggu dari waktu Anda, terutama jika Anda tidak terbiasa dengan matematika Variational Auto Encoder dan ingin merasakan matematika DM yang intuitif.
Mari kita mulai.
Langkah-1: Model Difusi Awal
Deep Unsupervised Learning menggunakan Termodinamika Nonequilibrium [2015] — Ini adalah makalah pertama yang memperkenalkan ide seputar penggunaan 'model probabilistik Difusi'. Meskipun makalahnya mudah disiapkan jika Anda melewatkan matematika, untuk memahami matematika membutuhkan keakraban dengan Inferensi Variasi. Saya akan merekomendasikan untuk membiasakan diri dengan Variational Auto Encoder (VAE) untuk mengikuti matematika.
Variational Auto Encoder [Opsional] : Meskipun bukan persyaratan untuk memahami model difusi, pemahaman yang baik tentang VAE membantu memahami unit dasar proses difusi, dan matematika di baliknya.
- Tutorial : Pengantar Variational Autoencoder , Tutorial tentang Variational Autoencoder
- Makalah : Auto-Encoding Variational Bayes
- Kode : Variational Autoencoder with Pytorch , LATENT SPACES (Bagian-2): Panduan Sederhana untuk Variational Autoencoder
Langkah-2: DDPM
DDPM: Denoising Diffusion Probabilistic Models [2020] — Inilah yang memulai kegemaran seputar DM untuk pembuatan gambar.
Lebih dalam ke DDPM:
- Penjelasan Makalah DDPM — Apa itu Model Difusi? [Blog], Pengantar Model Difusi untuk Machine Learning [Blog]
- Matematika — Model Difusi | Penjelasan Kertas | Video Penjelasan Matematika [YouTube] yang mencakup matematika secara mendetail. Sangat berguna untuk mendapatkan wawasan matematika langkah demi langkah [Sangat Direkomendasikan]
- Kode — Saya masih memiliki beberapa kebingungan yang telah dihapus dengan mengikuti kode/pengodean ulang DM menggunakan Diffusion Models | Implementasi PyTorch [YouTube], Diffusion-Models-pytorch [Github], Model Difusi dari awal di PyTorch [YouTube]
- Memahami kesetaraan DDPM dan pembuatan berbasis Skor — Pemodelan Generatif dengan Memperkirakan Gradien Distribusi Data [Blog]
- Teknik yang ditingkatkan untuk melatih model generatif berbasis skor [2020]
- Pemodelan generatif berbasis skor melalui persamaan diferensial stokastik [2020]
U-Net : DDPM pertama kali menggunakan arsitektur U-Net untuk DM, yang menurut saya sama pentingnya dengan proses difusi itu sendiri dalam membantu menghasilkan gambar berkualitas tinggi. Meskipun memahami U-Net tidak diperlukan untuk memahami prosesnya, tetapi jika Anda ingin mengikuti karya yang lebih maju (pengodean langkah waktu, pengkondisian teks), penting untuk mengetahui cara kerja U-Net.
- U-Net: Jaringan Konvolusional untuk Segmentasi Gambar Biomedis [2015] — Makalah U-Net
- Jaringan Sepenuhnya Konvolusional untuk Segmentasi Semantik [2014] — Makalah FCN yang menjadi inspirasi bagi U-Net
- Memahami U-Net secara mendetail — Memahami arsitektur U-Net dan membangunnya dari awal [Youtube]
- De-convolutions — Panduan aritmatika konvolusi untuk pembelajaran mendalam , Up-sampling dengan Transposed Convolution , Deconvolution dan Artefak Kotak-kotak
DDIM : Model implisit difusi denoising [Okt 2020] — Strategi pengambilan sampel populer alternatif dari DM dari literatur berbasis skor.
Langkah-4: DM Ditetapkan sebagai Pilihan Default untuk Pembuatan Gambar
- Model Probabilistik Difusi Denoising yang Disempurnakan [Feb 2021] — Penyempurnaan pada DDPM.
- Model Difusi Mengalahkan GAN pada Sintesis Gambar [Mei 2021] — Peningkatan lebih lanjut pada IDDPM. Makalah ini juga memperkenalkan gagasan 'panduan pengklasifikasi' untuk meningkatkan kualitas pembangkitan dan menyediakan cara untuk mengontrol output pembangkitan. Saya percaya inilah yang menjadi dasar untuk pekerjaan tindak lanjut di DbIG.
- Panduan Difusi Bebas Pengklasifikasi [Juli 2022] — Peningkatan hasil dengan mengondisikan Model U-Net dan mengikuti pelatihan gaya 'putus sekolah'. Ini adalah alternatif untuk panduan pengklasifikasi yang membutuhkan pelatihan pengklasifikasi gambar alternatif.
- Metode Numerik Semu untuk Model Difusi pada Manifold [Sept 2021] — Peningkatan kecepatan pengambilan sampel.
- Image Super-Resolution via Iterative Refinement [Apr 2021] — Bukan untuk pembuatan gambar, tetapi kunci untuk memahami DM yang mengkondisikan gambar di masa mendatang dan kaskade untuk meningkatkan resolusi gambar.
Tiga makalah membuat model difusi bahan halaman depan.
Difusi Stabil : Sintesis Gambar Resolusi Tinggi dengan Model Difusi Laten [Des 2021] — Membuat kode mereka menjadi sumber terbuka yang membantu mendemokratisasi DM. Membantu meningkatkan kompleksitas komputasi. Pengkondisian melalui perhatian silang, dll. Memahami Difusi Stabil secara mendetail — Difusi Stabil Bergambar .
Dall-E 2 : Pembuatan Gambar Bersyarat Teks Hierarkis dengan Laten CLIP [Apr 2022] — Bukan sumber terbuka, tetapi demo online. Menambahkan langkah tambahan menggunakan penyematan gambar CLIP untuk mengkondisikan dan sebelum mengonversi penyematan CLIP teks menjadi penyematan gambar.
Gambar : Model Difusi Teks-ke-Gambar Fotorealistik dengan Pemahaman Bahasa Mendalam [Mei 2022] — Makalah oleh Google, dengan modifikasi berikut — Penggunaan penyematan hanya teks (T5), panduan ambang batas, model kaskade.
Langkah-7: Makalah Difusi Populer lainnya untuk Pembuatan Gambar hingga sekitar Oktober 2022 [Opsional]
- SDEdit: Sintesis dan Pengeditan Gambar Terpandu dengan Persamaan Diferensial Stokastik [Agu 2021]
- Palet: Model Difusi Gambar-ke-Gambar [Nov 2021]
- GLIDE: Menuju Pembuatan dan Pengeditan Gambar Fotorealistik dengan Model Difusi Berpanduan Teks [Des 2021]
- Sintesis Gambar Semantik melalui Model Difusi [Juni 2022]
- Sebuah Gambar Bernilai Satu Kata: Personalisasi Pembuatan Teks-ke-Gambar menggunakan Inversi Tekstual [Agustus 2022][Inversi Teks]
- DreamBooth: Penyesuaian Model Difusi Teks ke Gambar untuk Generasi Berbasis Subjek [Agu 2022]
- Pengeditan Gambar Prompt-to-Prompt dengan Cross Attention Control [Agu 2022]
- Imagic: Pengeditan Gambar Nyata Berbasis Teks dengan Model Difusi [Okt 2022]
- MagicMix: Pencampuran Semantik dengan Model Difusi [Okt 2022]
Itu saja teman-teman. Selamat Menyebarkan.
Saya sangat menikmati perjalanan magis menciptakan gambar dari radiasi Big Bang . Jika Anda merasa ada makalah/blog/video yang membantu Anda bergabung dengan kereta difusi, silakan berbagi dengan saya.
Ucapan Terima Kasih : Saya ingin mengucapkan terima kasih yang tulus kepada Sen He , Jerry Wu dan Tao Xiang karena telah membantu saya dalam eksplorasi ini dan mengarahkan saya ke arah yang benar dari waktu ke waktu.
Catatan Akhir : Saya telah membangun pengetahuan ini dalam waktu singkat sehingga mungkin ada beberapa kesalahan dalam pemahaman saya. Tolong beri tahu saya jika apa pun yang saya katakan di sini sebenarnya tidak benar.