Рассеяны о диффузионных моделях?
Расширение возможностей моделей генерации изображений на основе диффузии
Я был новичком в распространении три недели назад, но, учитывая шумиху, я хотел запрыгнуть в поезд распространения (что, я чувствую, мне удалось). Скорость, с которой происходят новые разработки в области генерации изображений на основе диффузии (DbIG), ошеломляет. Становится трудно понять, с чего начать путешествие. В этом посте я делюсь своим путешествием, которое может быть полезно другим, кто хочет создать прочную фундаментальную базу для понимания мира диффузионных моделей (DM), включая понимание математики.
Примечание 1: Я обязательно не буду подробно рассказывать о какой-либо из техник, но намету путь от одной статьи к другой. Я считаю, что есть передозировка блогов/видео/документов, в которых рассказывается о различных методах. С другой стороны, я не нашел ни одного блога, который мог бы помочь в создании прочного фундамента в DbIG.
Примечание 2 : Мне потребовалось около 3 недель самоотверженных усилий, чтобы начать с основ и построить с нуля. Если вы хотите добиться глубокого понимания, посвятите около 2 недель своего времени, особенно если вы не знакомы с математикой вариационных автоэнкодеров и хотите получить интуитивное представление о математике DM.
Давайте начнем.
Шаг 1: Модель ранней диффузии
Глубокое обучение без учителя с использованием неравновесной термодинамики [2015] — это первая статья, в которой представлены идеи использования «диффузионных вероятностных моделей». Хотя статью легко подготовить, если вы пропустите математику, для понимания математики требуется знакомство с вариационным выводом. Я бы порекомендовал ознакомиться с вариационными автоматическими кодировщиками (VAE), чтобы следовать математике.
Вариационные автоматические кодировщики [необязательно] : хотя это и не является обязательным требованием для понимания моделей диффузии, хорошее понимание VAE помогает понять основные единицы процесса диффузии и стоящие за ним математические операции.
- Учебные пособия : Введение в вариационные автоэнкодеры , Учебное пособие по вариационным автоэнкодерам
- Документы : Автоматическое кодирование вариационного Байеса
- Код : вариационный автоэнкодер с Pytorch , СКРЫТЫЕ ПРОСТРАНСТВА (часть 2): простое руководство по вариационным автоэнкодерам
Шаг 2: ДДПМ
DDPM: Denoising Diffusion Probabilistic Models [2020] — это то, что положило начало безумию вокруг DM для генерации изображений.
Углубляясь в DDPM:
- Объяснение документа DDPM — Что такое модели распространения? [Блог], Введение в диффузионные модели для машинного обучения [Блог]
- Математика — Модели распространения | Бумага Объяснение | Видео с объяснением математики [YouTube], в котором подробно рассказывается о математике. Очень полезно для пошагового понимания математики [настоятельно рекомендуется]
- Код — у меня все еще оставалась некоторая путаница, которая была устранена путем следования коду / перекодирования DM с использованием моделей диффузии | Реализация PyTorch [YouTube], Diffusion-Models-pytorch [Github], Модели распространения с нуля в PyTorch [YouTube]
- Понимание эквивалентности DDPM и генерации на основе оценок — генеративное моделирование путем оценки градиентов распределения данных [Блог]
- Усовершенствованные методы обучения генеративных моделей на основе оценок [2020 г.]
- Генеративное моделирование на основе оценок с помощью стохастических дифференциальных уравнений [2020]
U-Net : DDPM впервые использовала архитектуру U-Net для DM, которая, как мне кажется, так же важна, как и сам процесс распространения для создания изображений высокого качества. Хотя понимание U-Net не требуется для понимания процесса, но если вы хотите следовать более сложным работам (пошаговое кодирование, преобразование текста), очень важно знать, как работает U-Net.
- U-Net: сверточные сети для сегментации биомедицинских изображений [2015] - документ U-Net
- Полностью сверточные сети для семантической сегментации [2014] - документ FCN, который послужил источником вдохновения для U-Net.
- Понимание U-Net в деталях — Понимание архитектуры U-Net и ее создание с нуля [Youtube]
- De-convolutions — руководство по арифметике свертки для глубокого обучения , повышения дискретизации с помощью транспонированной свертки , артефактов деконволюции и шахматной доски
DDIM : неявные модели диффузии шумоподавления [октябрь 2020 г.] — альтернативная популярная стратегия выборки из DM из литературы, основанной на оценках.
Шаг 4: Установка DM в качестве выбора по умолчанию для создания образа
- Улучшенные вероятностные модели диффузионного шумоподавления [февраль 2021 г.] — Улучшения в DDPM.
- Диффузионные модели превзошли GAN по синтезу изображений [май 2021 г.] — дальнейшие улучшения IDDPM. В этом документе также представлена идея «руководства по классификатору» для улучшения качества генерации и обеспечения способа управления выходом генерации. Я считаю, что именно это заложило основу для последующей работы над DbIG.
- Руководство по распространению без классификатора [июль 2022 г.] — улучшенные результаты за счет кондиционирования модели U-Net и обучения в стиле «отсева». Это альтернатива руководству классификатором, которое требует обучения альтернативного классификатора изображений.
- Псевдочисленные методы для моделей диффузии на коллекторах [сентябрь 2021 г.] — Повышение скорости дискретизации.
- Сверхразрешение изображения с помощью итеративного уточнения [апрель 2021 г.] — не для создания изображений, но является ключом к пониманию будущего DM, обусловленного изображением, и каскадирования для улучшения разрешения изображения.
Три газеты сделали диффузионные модели материалом для первой полосы.
Стабильная диффузия : синтез изображений с высоким разрешением с моделями скрытой диффузии [декабрь 2021 г.] — код открыт с открытым исходным кодом, что помогло демократизировать DM. Помогли улучшить вычислительную сложность. Кондиционирование с помощью перекрестного внимания и т. д. Подробное понимание стабильной диффузии — Иллюстрированная стабильная диффузия .
Dall-E 2 : Генерация иерархического текстового условного изображения с латентными данными CLIP [апрель 2022 г.] — Не с открытым исходным кодом, а онлайн-демонстрация. Добавлен дополнительный шаг использования вложений изображений CLIP для условия и перед преобразованием вложений текстовых CLIP во вложения изображений.
Imagen : фотореалистичные модели распространения текста в изображение с глубоким пониманием языка [май 2022 г.] — документ Google со следующей модификацией — использование встраивания только текста (T5), руководство с пороговым значением, каскадная модель.
Шаг 7: другие популярные диффузионные документы для создания изображений примерно до октября 2022 г. [необязательно]
- SDEdit: управляемый синтез и редактирование изображений с помощью стохастических дифференциальных уравнений [август 2021 г.]
- Палитра: модели распространения изображений в изображения [ноябрь 2021 г.]
- GLIDE: на пути к созданию и редактированию фотореалистичных изображений с помощью текстовых моделей распространения [декабрь 2021 г.]
- Синтез семантического изображения с помощью диффузионных моделей [июнь 2022 г.]
- Изображение стоит одного слова: персонализация преобразования текста в изображение с помощью инверсии текста [август 2022 г.] [Инверсия текста]
- DreamBooth: тонкая настройка моделей преобразования текста в изображение для предметно-ориентированной генерации [август 2022 г.]
- Пошаговое редактирование изображений с контролем перекрестного внимания [август 2022 г.]
- Imagic: редактирование реальных изображений на основе текста с помощью диффузионных моделей [октябрь 2022 г.]
- MagicMix: семантическое смешение с моделями распространения [октябрь 2022 г.]
Вот и все. Удачного рассеивания.
Мне очень понравилось это волшебное путешествие по созданию изображения из излучений Большого Взрыва . Если вы считаете, что есть документ/блог/видео, которые помогли вам попасть в поезд распространения, пожалуйста, поделитесь со мной.
Благодарности : Я хотел бы искренне поблагодарить Сен Хэ , Джерри Ву и Тао Сяна за помощь в этом исследовании и время от времени указывающие мне правильное направление.
Заключительное примечание : я накопил эти знания за короткий промежуток времени, поэтому в моем понимании могут быть некоторые ошибки. Пожалуйста, дайте мне знать, если что-то, что я сказал здесь, является фактически неверным.