Rozpowszechnione o modelach dyfuzji?
Rozwój modeli generowania obrazu opartych na dyfuzji
Byłem nowicjuszem w dziedzinie dyfuzji trzy tygodnie temu, ale biorąc pod uwagę szum, chciałem wskoczyć do pociągu dyfuzji (co wydaje mi się, że byłem w stanie). Tempo, w jakim zachodzą nowe zmiany w przestrzeni generowania obrazów opartej na dyfuzji (DbIG), jest zdumiewające. Trudno zrozumieć, od czego zacząć podróż. W tym poście dzielę się swoją podróżą, która może być przydatna dla innych, którzy chcą zbudować solidną podstawę do zrozumienia świata modeli dyfuzji (DM), w tym zrozumienia matematyki.
Uwaga 1 : Nie będę szczegółowo omawiał żadnej z technik, ale nakreślę ścieżkę od jednego artykułu do drugiego. Uważam, że istnieje przedawkowanie blogów/wideo/artykułów, które mówią o różnych technikach. Z drugiej strony nie znalazłem żadnego bloga, który pomógłby mi zbudować solidny fundament w DbIG.
Uwaga 2: Zaczęcie od podstaw i budowanie od podstaw zajęło mi około 3 tygodni pełnego zaangażowania. Jeśli chcesz zbudować głębokie zrozumienie, poświęć około 2 tygodni swojego czasu, zwłaszcza jeśli nie jesteś zaznajomiony z matematyką automatycznych enkoderów wariacyjnych i chcesz intuicyjnie wyczuć matematykę DM.
Zaczynajmy.
Krok 1: Model wczesnej dyfuzji
Deep Unsupervised Learning using Nonequilibrium Thermodynamics [2015] — Jest to pierwszy artykuł, w którym przedstawiono idee związane z wykorzystaniem „dyfuzyjnych modeli probabilistycznych”. Chociaż artykuł jest łatwy do przygotowania, jeśli pominiesz matematykę, zrozumienie matematyki wymaga znajomości wnioskowania wariacyjnego. Polecam zapoznanie się z automatycznymi enkoderami wariacyjnymi (VAE), aby śledzić matematykę.
Automatyczne enkodery wariacyjne [Opcjonalnie] : Chociaż nie jest to wymagane do zrozumienia modeli dyfuzji, dobre zrozumienie VAE pomaga zrozumieć podstawowe jednostki procesu dyfuzji i stojącą za nim matematykę.
- Samouczki : wprowadzenie do autoenkoderów wariacyjnych , samouczek dotyczący autoenkoderów wariacyjnych
- Artykuły : Automatyczne kodowanie wariacyjne Bayesa
- Kod : Autoenkoder wariacyjny z Pytorchem , PRZESTRZENIE UTYLIZOWANE (część 2): Prosty przewodnik po autoenkoderach wariacyjnych
Krok 2: DDPM
DDPM: Denoising Diffusion Probabilistic Models [2020] — To właśnie zapoczątkowało szaleństwo wokół DM do generowania obrazów.
Zagłębianie się w DDPM:
- Wyjaśnienie dokumentu DDPM — Czym są modele dyfuzyjne? [Blog], Wprowadzenie do modeli dyfuzji dla uczenia maszynowego [Blog]
- Matematyka — modele dyfuzyjne | Wyjaśnienie papieru | Math Explained [YouTube] film szczegółowo omawiający matematykę. Bardzo przydatne, aby uzyskać wgląd krok po kroku w matematykę [Wysoce zalecane]
- Kod — nadal miałem pewne zamieszanie, które zostało usunięte przez podążanie za kodem/ponowne kodowanie DM przy użyciu modeli dyfuzji | Implementacja PyTorch [YouTube], Diffusion-Models-pytorch [Github], Modele dyfuzji od podstaw w PyTorch [YouTube]
- Zrozumienie równoważności DDPM i generowania opartego na wynikach — modelowanie generatywne poprzez szacowanie gradientów rozkładu danych [Blog]
- Udoskonalone techniki uczenia generatywnych modeli opartych na wynikach [2020]
- Modelowanie generatywne oparte na wynikach za pomocą stochastycznych równań różniczkowych [2020]
U-Net : DDPM po raz pierwszy zastosował architekturę U-Net dla DM, która moim zdaniem jest równie ważna jak sam proces rozpowszechniania, pomagając w generowaniu wysokiej jakości obrazów. Chociaż zrozumienie U-Net nie jest wymagane do zrozumienia procesu, ale jeśli chcesz śledzić bardziej zaawansowane prace (kodowanie kroków czasowych, kondycjonowanie tekstu), wiedza o tym, jak działa U-Net, ma kluczowe znaczenie.
- U-Net: Convolutional Networks for Biomedical Image Segmentation [2015] — The U-Net Paper
- Fully Convolutional Networks for Semantic Segmentation [2014] — dokument FCN będący inspiracją dla U-Net
- Szczegółowe zrozumienie U-Net — Zrozumienie architektury U-Net i zbudowanie jej od podstaw [Youtube]
- De-konwolucje — przewodnik po arytmetyce splotów do głębokiego uczenia się , próbkowania w górę z transponowanym splotem , dekonwolucji i artefaktów szachownicy
DDIM : Niejawne modele odszumiania dyfuzji [październik 2020] — Alternatywna popularna strategia próbkowania z DM z literatury opartej na wynikach.
Krok 4: DM zostaje ustanowiony jako domyślny wybór do generowania obrazu
- Ulepszone modele probabilistyczne dyfuzji odszumiania [luty 2021 r.] — ulepszenia DDPM.
- Modele dyfuzji pokonują sieci GAN w syntezie obrazu [maj 2021 r.] — Dalsze ulepszenia IDDPM. W artykule tym przedstawiono również ideę „kierowania klasyfikatorem”, aby poprawić jakość wytwarzania i zapewnić sposób kontrolowania mocy wyjściowej. Wierzę, że właśnie to wyznaczyło punkt odniesienia dla dalszych prac nad DbIG.
- Wytyczne dotyczące dyfuzji bez klasyfikatora [lipiec 2022 r.] — Lepsze wyniki dzięki warunkowaniu modelu U-Net i przeprowadzeniu szkolenia w stylu „porzucenia”. Jest to alternatywa dla wskazówek klasyfikatora, która wymaga szkolenia alternatywnego klasyfikatora obrazu.
- Pseudonumeryczne metody dla modeli dyfuzyjnych na rozmaitościach [wrzesień 2021] — Poprawa szybkości próbkowania.
- Superrozdzielczość obrazu dzięki udoskonalaniu iteracyjnemu [kwiecień 2021 r.] — Nie do generowania obrazu, ale klucz do zrozumienia przyszłej DM uwarunkowanej obrazem i kaskadowania w celu poprawy rozdzielczości obrazu.
Trzy artykuły wykonane modele dyfuzji materiał na pierwszą stronę.
Stabilna dyfuzja : synteza obrazu o wysokiej rozdzielczości z utajonymi modelami dyfuzji [grudzień 2021 r.] — Opublikowano ich kod źródłowy, co pomogło zdemokratyzować DM. Pomógł poprawić złożoność obliczeniową. Warunkowanie poprzez uwagę krzyżową itp. Szczegółowe zrozumienie stabilnej dyfuzji — Ilustrowana stabilna dyfuzja .
Dall-E 2 : Hierarchical Text-Conditional Image Generation with CLIP Latents [kwiecień 2022 r.] — Nie open source, ale demo online. Dodano dodatkowy krok polegający na użyciu osadzania obrazu CLIP do kondycjonowania i przed konwersją osadzania tekstu CLIP na osadzanie obrazu.
Imagen : Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding [maj 2022 r.] — Artykuł Google, z następującą modyfikacją — Wykorzystanie osadzania tylko tekstu (T5), wskazówki progowe, model kaskadowy.
Krok 7: Inne popularne artykuły rozpowszechniane do generowania obrazów do około października 2022 r. [Opcjonalnie]
- SDEdit: Sterowana synteza i edycja obrazu za pomocą stochastycznych równań różniczkowych [sierpień 2021]
- Paleta: modele dyfuzji obrazu do obrazu [listopad 2021 r.]
- GLIDE: W kierunku fotorealistycznego generowania i edytowania obrazów za pomocą modeli dyfuzji sterowanych tekstem [grudzień 2021 r.]
- Semantyczna synteza obrazu za pomocą modeli dyfuzji [czerwiec 2022]
- Obraz jest wart jednego słowa: personalizacja generowania tekstu na obraz za pomocą inwersji tekstu [sierpień 2022 r.] [Inwersja tekstu]
- DreamBooth: precyzyjne dostrajanie modeli rozpowszechniania tekstu na obraz w celu generacji opartej na tematach [sierpień 2022 r.]
- Edycja obrazów w trybie monitu za monitem z kontrolą uwagi krzyżowej [sierpień 2022 r.]
- Imagic: oparta na tekście edycja rzeczywistych obrazów za pomocą modeli dyfuzyjnych [październik 2022 r.]
- MagicMix: mieszanie semantyczne z modelami dyfuzji [październik 2022 r.]
To wszystko ludzie. Szczęśliwego Rozpraszania.
Naprawdę podobała mi się ta magiczna podróż tworzenia obrazu z promieniowania Wielkiego Wybuchu . Jeśli uważasz, że istnieje artykuł/blog/wideo, które pomogło ci dostać się na pokład pociągu dyfuzyjnego, podziel się ze mną.
Podziękowania : Chciałbym szczerze podziękować Sen He , Jerry'emu Wu i Tao Xiang za pomoc w tej eksploracji i od czasu do czasu wskazywanie mi właściwych kierunków.
Uwaga końcowa : Zbudowałem tę wiedzę w krótkim czasie, więc mogą wystąpić pewne błędy w moim zrozumieniu. Proszę dać mi znać, jeśli coś, co tutaj powiedziałem, jest niezgodne ze stanem faktycznym.