Rozpowszechnione o modelach dyfuzji?

Nov 26 2022
Rozwijanie się w modelach generowania obrazu opartych na dyfuzji Trzy tygodnie temu byłem nowicjuszem w dziedzinie dyfuzji, ale biorąc pod uwagę szum, chciałem wskoczyć do pociągu dyfuzji (co wydaje mi się, że byłem w stanie). Tempo, w jakim zachodzą nowe zmiany w przestrzeni generowania obrazów opartej na dyfuzji (DbIG), jest zdumiewające.

Rozwój modeli generowania obrazu opartych na dyfuzji

Obraz wygenerowany przez Dall-E 2 z monitem „Diffused about Diffusion Models art”

Byłem nowicjuszem w dziedzinie dyfuzji trzy tygodnie temu, ale biorąc pod uwagę szum, chciałem wskoczyć do pociągu dyfuzji (co wydaje mi się, że byłem w stanie). Tempo, w jakim zachodzą nowe zmiany w przestrzeni generowania obrazów opartej na dyfuzji (DbIG), jest zdumiewające. Trudno zrozumieć, od czego zacząć podróż. W tym poście dzielę się swoją podróżą, która może być przydatna dla innych, którzy chcą zbudować solidną podstawę do zrozumienia świata modeli dyfuzji (DM), w tym zrozumienia matematyki.

Uwaga 1 : Nie będę szczegółowo omawiał żadnej z technik, ale nakreślę ścieżkę od jednego artykułu do drugiego. Uważam, że istnieje przedawkowanie blogów/wideo/artykułów, które mówią o różnych technikach. Z drugiej strony nie znalazłem żadnego bloga, który pomógłby mi zbudować solidny fundament w DbIG.

Uwaga 2: Zaczęcie od podstaw i budowanie od podstaw zajęło mi około 3 tygodni pełnego zaangażowania. Jeśli chcesz zbudować głębokie zrozumienie, poświęć około 2 tygodni swojego czasu, zwłaszcza jeśli nie jesteś zaznajomiony z matematyką automatycznych enkoderów wariacyjnych i chcesz intuicyjnie wyczuć matematykę DM.

Zaczynajmy.

Krok 1: Model wczesnej dyfuzji

Deep Unsupervised Learning using Nonequilibrium Thermodynamics [2015] — Jest to pierwszy artykuł, w którym przedstawiono idee związane z wykorzystaniem „dyfuzyjnych modeli probabilistycznych”. Chociaż artykuł jest łatwy do przygotowania, jeśli pominiesz matematykę, zrozumienie matematyki wymaga znajomości wnioskowania wariacyjnego. Polecam zapoznanie się z automatycznymi enkoderami wariacyjnymi (VAE), aby śledzić matematykę.

Automatyczne enkodery wariacyjne [Opcjonalnie] : Chociaż nie jest to wymagane do zrozumienia modeli dyfuzji, dobre zrozumienie VAE pomaga zrozumieć podstawowe jednostki procesu dyfuzji i stojącą za nim matematykę.

Krok 2: DDPM

DDPM: Denoising Diffusion Probabilistic Models [2020] — To właśnie zapoczątkowało szaleństwo wokół DM do generowania obrazów.

Zagłębianie się w DDPM:

  • Wyjaśnienie dokumentu DDPM — Czym są modele dyfuzyjne? [Blog], Wprowadzenie do modeli dyfuzji dla uczenia maszynowego [Blog]
  • Matematyka — modele dyfuzyjne | Wyjaśnienie papieru | Math Explained [YouTube] film szczegółowo omawiający matematykę. Bardzo przydatne, aby uzyskać wgląd krok po kroku w matematykę [Wysoce zalecane]
  • Kod — nadal miałem pewne zamieszanie, które zostało usunięte przez podążanie za kodem/ponowne kodowanie DM przy użyciu modeli dyfuzji | Implementacja PyTorch [YouTube], Diffusion-Models-pytorch [Github], Modele dyfuzji od podstaw w PyTorch [YouTube]
  • Zrozumienie równoważności DDPM i generowania opartego na wynikach — modelowanie generatywne poprzez szacowanie gradientów rozkładu danych [Blog]
  • Udoskonalone techniki uczenia generatywnych modeli opartych na wynikach [2020]
  • Modelowanie generatywne oparte na wynikach za pomocą stochastycznych równań różniczkowych [2020]

U-Net : DDPM po raz pierwszy zastosował architekturę U-Net dla DM, która moim zdaniem jest równie ważna jak sam proces rozpowszechniania, pomagając w generowaniu wysokiej jakości obrazów. Chociaż zrozumienie U-Net nie jest wymagane do zrozumienia procesu, ale jeśli chcesz śledzić bardziej zaawansowane prace (kodowanie kroków czasowych, kondycjonowanie tekstu), wiedza o tym, jak działa U-Net, ma kluczowe znaczenie.

  • U-Net: Convolutional Networks for Biomedical Image Segmentation [2015] — The U-Net Paper
  • Fully Convolutional Networks for Semantic Segmentation [2014] — dokument FCN będący inspiracją dla U-Net
  • Szczegółowe zrozumienie U-Net — Zrozumienie architektury U-Net i zbudowanie jej od podstaw [Youtube]
  • De-konwolucje — przewodnik po arytmetyce splotów do głębokiego uczenia się , próbkowania w górę z transponowanym splotem , dekonwolucji i artefaktów szachownicy

DDIM : Niejawne modele odszumiania dyfuzji [październik 2020] — Alternatywna popularna strategia próbkowania z DM z literatury opartej na wynikach.

Krok 4: DM zostaje ustanowiony jako domyślny wybór do generowania obrazu

  • Ulepszone modele probabilistyczne dyfuzji odszumiania [luty 2021 r.] — ulepszenia DDPM.
  • Modele dyfuzji pokonują sieci GAN w syntezie obrazu [maj 2021 r.] — Dalsze ulepszenia IDDPM. W artykule tym przedstawiono również ideę „kierowania klasyfikatorem”, aby poprawić jakość wytwarzania i zapewnić sposób kontrolowania mocy wyjściowej. Wierzę, że właśnie to wyznaczyło punkt odniesienia dla dalszych prac nad DbIG.
  • Wytyczne dotyczące dyfuzji bez klasyfikatora [lipiec 2022 r.] — Lepsze wyniki dzięki warunkowaniu modelu U-Net i przeprowadzeniu szkolenia w stylu „porzucenia”. Jest to alternatywa dla wskazówek klasyfikatora, która wymaga szkolenia alternatywnego klasyfikatora obrazu.
  • Pseudonumeryczne metody dla modeli dyfuzyjnych na rozmaitościach [wrzesień 2021] — Poprawa szybkości próbkowania.
  • Superrozdzielczość obrazu dzięki udoskonalaniu iteracyjnemu [kwiecień 2021 r.] — Nie do generowania obrazu, ale klucz do zrozumienia przyszłej DM uwarunkowanej obrazem i kaskadowania w celu poprawy rozdzielczości obrazu.

Trzy artykuły wykonane modele dyfuzji materiał na pierwszą stronę.

Stabilna dyfuzja : synteza obrazu o wysokiej rozdzielczości z utajonymi modelami dyfuzji [grudzień 2021 r.] — Opublikowano ich kod źródłowy, co pomogło zdemokratyzować DM. Pomógł poprawić złożoność obliczeniową. Warunkowanie poprzez uwagę krzyżową itp. Szczegółowe zrozumienie stabilnej dyfuzji — Ilustrowana stabilna dyfuzja .

Dall-E 2 : Hierarchical Text-Conditional Image Generation with CLIP Latents [kwiecień 2022 r.] — Nie open source, ale demo online. Dodano dodatkowy krok polegający na użyciu osadzania obrazu CLIP do kondycjonowania i przed konwersją osadzania tekstu CLIP na osadzanie obrazu.

Imagen : Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding [maj 2022 r.] — Artykuł Google, z następującą modyfikacją — Wykorzystanie osadzania tylko tekstu (T5), wskazówki progowe, model kaskadowy.

Krok 7: Inne popularne artykuły rozpowszechniane do generowania obrazów do około października 2022 r. [Opcjonalnie]

  • SDEdit: Sterowana synteza i edycja obrazu za pomocą stochastycznych równań różniczkowych [sierpień 2021]
  • Paleta: modele dyfuzji obrazu do obrazu [listopad 2021 r.]
  • GLIDE: W kierunku fotorealistycznego generowania i edytowania obrazów za pomocą modeli dyfuzji sterowanych tekstem [grudzień 2021 r.]
  • Semantyczna synteza obrazu za pomocą modeli dyfuzji [czerwiec 2022]
  • Obraz jest wart jednego słowa: personalizacja generowania tekstu na obraz za pomocą inwersji tekstu [sierpień 2022 r.] [Inwersja tekstu]
  • DreamBooth: precyzyjne dostrajanie modeli rozpowszechniania tekstu na obraz w celu generacji opartej na tematach [sierpień 2022 r.]
  • Edycja obrazów w trybie monitu za monitem z kontrolą uwagi krzyżowej [sierpień 2022 r.]
  • Imagic: oparta na tekście edycja rzeczywistych obrazów za pomocą modeli dyfuzyjnych [październik 2022 r.]
  • MagicMix: mieszanie semantyczne z modelami dyfuzji [październik 2022 r.]

To wszystko ludzie. Szczęśliwego Rozpraszania.

Naprawdę podobała mi się ta magiczna podróż tworzenia obrazu z promieniowania Wielkiego Wybuchu . Jeśli uważasz, że istnieje artykuł/blog/wideo, które pomogło ci dostać się na pokład pociągu dyfuzyjnego, podziel się ze mną.

Podziękowania : Chciałbym szczerze podziękować Sen He , Jerry'emu Wu i Tao Xiang za pomoc w tej eksploracji i od czasu do czasu wskazywanie mi właściwych kierunków.

Uwaga końcowa : Zbudowałem tę wiedzę w krótkim czasie, więc mogą wystąpić pewne błędy w moim zrozumieniu. Proszę dać mi znać, jeśli coś, co tutaj powiedziałem, jest niezgodne ze stanem faktycznym.