Difundido acerca de los modelos de difusión?
Incrementando los modelos de generación de imágenes basados en difusión
Era un novato en difusión hace tres semanas, pero dado el alboroto, quería subirme al tren de la difusión (lo cual siento que he podido). El ritmo al que se están produciendo nuevos desarrollos en el espacio de generación de imágenes basadas en difusión (DbIG) es alucinante. Se hace difícil entender por dónde empezar el viaje. En esta publicación, comparto mi viaje que podría ser útil para otros que quieran construir una base fundamental sólida para comprender el mundo de los modelos de difusión (DM), incluida la comprensión de las matemáticas.
Nota 1: necesariamente no hablaré sobre ninguna de las técnicas en detalle, pero trazaré un camino de un papel a otro. Creo que hay una sobredosis de blogs/videos/documentos que hablan de varias técnicas. Por otro lado, no encontré ningún blog para ayudar a guiar cómo construir una base sólida en DbIG.
Nota 2: Me tomó alrededor de 3 semanas de esfuerzo dedicado comenzar desde los fundamentos y construir desde cero. Si desea desarrollar una comprensión profunda, dedique alrededor de 2 semanas de su tiempo, especialmente si no está familiarizado con las matemáticas de los codificadores automáticos variacionales y desea tener una idea intuitiva de las matemáticas de DM.
Vamos a empezar.
Paso 1: modelo de difusión temprana
Aprendizaje profundo no supervisado utilizando termodinámica sin equilibrio [2015]: este es el primer artículo que introdujo las ideas sobre el uso de 'modelos probabilísticos de difusión'. Si bien el documento es fácil de preparar si omite las matemáticas, para comprender las matemáticas se requiere familiaridad con la inferencia variacional. Recomendaría familiarizarse con los codificadores automáticos variacionales (VAE) para seguir las matemáticas.
Codificadores automáticos variacionales [Opcional] : aunque no es un requisito para comprender los modelos de difusión, una buena comprensión de VAE ayuda a comprender las unidades básicas del proceso de difusión y las matemáticas detrás de él.
- Tutoriales : Introducción a los codificadores automáticos variacionales , Tutorial sobre codificadores automáticos variacionales
- Documentos : bayesiano variacional de codificación automática
- Código : Codificador automático variacional con Pytorch , ESPACIOS LATENTES (Parte 2): Una guía simple para codificadores automáticos variacionales
Paso 2: DDPM
DDPM: modelos probabilísticos de difusión de eliminación de ruido [2020]: esto es lo que inició la moda en torno a DM para la generación de imágenes.
Profundizando en DDPM:
- Explicación del documento DDPM: ¿qué son los modelos de difusión? [Blog], Introducción a los modelos de difusión para el aprendizaje automático [Blog]
- Las matemáticas — Modelos de difusión | Explicación del papel | Video de [YouTube] Explicación de Matemáticas que cubre las matemáticas en detalle. Muy útil para obtener una visión paso a paso de las matemáticas [Altamente recomendado]
- Código : todavía me quedaba cierta confusión que se eliminó siguiendo el código/recodificación de DM usando Diffusion Models | Implementación de PyTorch [YouTube], Diffusion-Models-pytorch [Github], Modelos de difusión desde cero en PyTorch [YouTube]
- Comprender la equivalencia de DDPM y la generación basada en puntuaciones: modelado generativo mediante la estimación de gradientes de la distribución de datos [Blog]
- Técnicas mejoradas para entrenar modelos generativos basados en puntajes [2020]
- Modelado generativo basado en puntaje a través de ecuaciones diferenciales estocásticas [2020]
U-Net : DDPM utilizó por primera vez la arquitectura U-Net para DM, que creo que es tan importante como el propio proceso de difusión para ayudar a generar imágenes de alta calidad. Aunque no se requiere comprender U-Net para comprender el proceso, pero si desea seguir trabajos más avanzados (codificación de pasos de tiempo, acondicionamiento de texto), es fundamental saber cómo funciona U-Net.
- U-Net: Redes convolucionales para la segmentación de imágenes biomédicas [2015] — The U-Net Paper
- Redes totalmente convolucionales para la segmentación semántica [2014]: artículo de FCN que es la inspiración para U-Net
- Comprender U-Net en detalle: comprender la arquitectura de U-Net y crearla desde cero [Youtube]
- Desconvoluciones: una guía de aritmética de convolución para el aprendizaje profundo , muestreo ascendente con convolución transpuesta , deconvolución y artefactos de tablero de ajedrez
DDIM : modelos implícitos de difusión de eliminación de ruido [octubre de 2020]: estrategia de muestreo popular alternativa de DM de la literatura basada en puntajes.
Paso 4: DM se establece como la opción predeterminada para la generación de imágenes
- Modelos probabilísticos de difusión de eliminación de ruido mejorados [febrero de 2021]: mejoras en DDPM.
- Los modelos de difusión superan a las GAN en la síntesis de imágenes [mayo de 2021]: mejoras adicionales en IDDPM. Este documento también introdujo la idea de la "guía del clasificador" para mejorar la calidad de la generación y proporcionar una forma de controlar la producción de la generación. Creo que esto es lo que estableció la base para el trabajo de seguimiento de DbIG.
- Guía de difusión sin clasificador [julio de 2022]: resultados mejorados al acondicionar el modelo U-Net y seguir un entrenamiento de estilo de "abandono". Esta es una alternativa a la guía del clasificador que requiere entrenar un clasificador de imágenes alternativo.
- Métodos pseudonuméricos para modelos de difusión en colectores [septiembre de 2021]: mejora de la velocidad de muestreo.
- Súper resolución de imagen a través de refinamiento iterativo [abril de 2021]: no para la generación de imágenes, pero es clave para comprender la futura DM condicionada por imágenes y la cascada para mejorar la resolución de imágenes.
Tres documentos hicieron modelos de difusión como material de primera plana.
Difusión estable : síntesis de imágenes de alta resolución con modelos de difusión latente [diciembre de 2021]: hizo que su código fuera de código abierto, lo que ayudó a democratizar DM. Ayudó a mejorar la complejidad computacional. Condicionamiento a través de la atención cruzada, etc. Comprender la difusión estable en detalle: la difusión estable ilustrada .
Dall-E 2 : Generación de imágenes condicionales de texto jerárquico con latentes CLIP [abril de 2022]: no es de código abierto, sino una demostración en línea. Se agregó un paso adicional de usar incrustaciones de imágenes CLIP para acondicionar y antes de convertir incrustaciones de CLIP de texto en incrustaciones de imágenes.
Imagen : Modelos fotorrealistas de difusión de texto a imagen con comprensión profunda del lenguaje [mayo de 2022] — Artículo de Google, con la siguiente modificación — Uso de incrustaciones de solo texto (T5), guía con umbral, modelo en cascada.
Paso 7: Otros documentos de Popular Diffusion para la generación de imágenes hasta alrededor de octubre de 2022 [Opcional]
- SDEdit: síntesis y edición de imágenes guiadas con ecuaciones diferenciales estocásticas [agosto de 2021]
- Paleta: modelos de difusión de imagen a imagen [noviembre de 2021]
- GLIDE: Hacia la generación y edición de imágenes fotorrealistas con modelos de difusión guiados por texto [diciembre de 2021]
- Síntesis de imágenes semánticas a través de modelos de difusión [junio de 2022]
- Una imagen vale una palabra: personalización de la generación de texto a imagen mediante inversión textual [agosto de 2022][Inversión de texto]
- DreamBooth: ajuste fino de los modelos de difusión de texto a imagen para la generación dirigida por sujetos [agosto de 2022]
- Edición de imágenes de mensaje a mensaje con control de atención cruzada [agosto de 2022]
- Imagic: edición de imágenes reales basada en texto con modelos de difusión [octubre de 2022]
- MagicMix: mezcla semántica con modelos de difusión [octubre de 2022]
Eso es todo amigos. Difusión feliz.
Realmente disfruté este viaje mágico de crear una imagen a partir de las radiaciones del Big Bang . Si cree que hay un artículo/blog/video que lo ayudó a incorporarse al tren de difusión, compártalo conmigo.
Agradecimientos : Me gustaría agradecer sinceramente a Sen He , Jerry Wu y Tao Xiang por ayudarme en esta exploración y señalarme las direcciones correctas de vez en cuando.
Nota final : he desarrollado este conocimiento en un corto período de tiempo, por lo que podría haber algunos errores en mi comprensión. Por favor, hágame saber si algo de lo que dije aquí es incorrecto.