Рассеяны о диффузионных моделях?

Nov 26 2022
Расширение возможностей моделей генерации изображений на основе диффузии Три недели назад я был новичком в области диффузии, но, учитывая шумиху, я хотел запрыгнуть в поезд диффузии (что, как мне кажется, мне удалось). Скорость, с которой происходят новые разработки в области генерации изображений на основе диффузии (DbIG), ошеломляет.

Расширение возможностей моделей генерации изображений на основе диффузии

Изображение, созданное Dall-E 2 с подсказкой «Diffused about Diffusion Models art»

Я был новичком в распространении три недели назад, но, учитывая шумиху, я хотел запрыгнуть в поезд распространения (что, я чувствую, мне удалось). Скорость, с которой происходят новые разработки в области генерации изображений на основе диффузии (DbIG), ошеломляет. Становится трудно понять, с чего начать путешествие. В этом посте я делюсь своим путешествием, которое может быть полезно другим, кто хочет создать прочную фундаментальную базу для понимания мира диффузионных моделей (DM), включая понимание математики.

Примечание 1: Я обязательно не буду подробно рассказывать о какой-либо из техник, но намету путь от одной статьи к другой. Я считаю, что есть передозировка блогов/видео/документов, в которых рассказывается о различных методах. С другой стороны, я не нашел ни одного блога, который мог бы помочь в создании прочного фундамента в DbIG.

Примечание 2 : Мне потребовалось около 3 недель самоотверженных усилий, чтобы начать с основ и построить с нуля. Если вы хотите добиться глубокого понимания, посвятите около 2 недель своего времени, особенно если вы не знакомы с математикой вариационных автоэнкодеров и хотите получить интуитивное представление о математике DM.

Давайте начнем.

Шаг 1: Модель ранней диффузии

Глубокое обучение без учителя с использованием неравновесной термодинамики [2015] — это первая статья, в которой представлены идеи использования «диффузионных вероятностных моделей». Хотя статью легко подготовить, если вы пропустите математику, для понимания математики требуется знакомство с вариационным выводом. Я бы порекомендовал ознакомиться с вариационными автоматическими кодировщиками (VAE), чтобы следовать математике.

Вариационные автоматические кодировщики [необязательно] : хотя это и не является обязательным требованием для понимания моделей диффузии, хорошее понимание VAE помогает понять основные единицы процесса диффузии и стоящие за ним математические операции.

Шаг 2: ДДПМ

DDPM: Denoising Diffusion Probabilistic Models [2020] — это то, что положило начало безумию вокруг DM для генерации изображений.

Углубляясь в DDPM:

  • Объяснение документа DDPM — Что такое модели распространения? [Блог], Введение в диффузионные модели для машинного обучения [Блог]
  • Математика — Модели распространения | Бумага Объяснение | Видео с объяснением математики [YouTube], в котором подробно рассказывается о математике. Очень полезно для пошагового понимания математики [настоятельно рекомендуется]
  • Код — у меня все еще оставалась некоторая путаница, которая была устранена путем следования коду / перекодирования DM с использованием моделей диффузии | Реализация PyTorch [YouTube], Diffusion-Models-pytorch [Github], Модели распространения с нуля в PyTorch [YouTube]
  • Понимание эквивалентности DDPM и генерации на основе оценок — генеративное моделирование путем оценки градиентов распределения данных [Блог]
  • Усовершенствованные методы обучения генеративных моделей на основе оценок [2020 г.]
  • Генеративное моделирование на основе оценок с помощью стохастических дифференциальных уравнений [2020]

U-Net : DDPM впервые использовала архитектуру U-Net для DM, которая, как мне кажется, так же важна, как и сам процесс распространения для создания изображений высокого качества. Хотя понимание U-Net не требуется для понимания процесса, но если вы хотите следовать более сложным работам (пошаговое кодирование, преобразование текста), очень важно знать, как работает U-Net.

  • U-Net: сверточные сети для сегментации биомедицинских изображений [2015] - документ U-Net
  • Полностью сверточные сети для семантической сегментации [2014] - документ FCN, который послужил источником вдохновения для U-Net.
  • Понимание U-Net в деталях — Понимание архитектуры U-Net и ее создание с нуля [Youtube]
  • De-convolutions — руководство по арифметике свертки для глубокого обучения , повышения дискретизации с помощью транспонированной свертки , артефактов деконволюции и шахматной доски

DDIM : неявные модели диффузии шумоподавления [октябрь 2020 г.] — альтернативная популярная стратегия выборки из DM из литературы, основанной на оценках.

Шаг 4: Установка DM в качестве выбора по умолчанию для создания образа

  • Улучшенные вероятностные модели диффузионного шумоподавления [февраль 2021 г.] — Улучшения в DDPM.
  • Диффузионные модели превзошли GAN по синтезу изображений [май 2021 г.] — дальнейшие улучшения IDDPM. В этом документе также представлена ​​идея «руководства по классификатору» для улучшения качества генерации и обеспечения способа управления выходом генерации. Я считаю, что именно это заложило основу для последующей работы над DbIG.
  • Руководство по распространению без классификатора [июль 2022 г.] — улучшенные результаты за счет кондиционирования модели U-Net и обучения в стиле «отсева». Это альтернатива руководству классификатором, которое требует обучения альтернативного классификатора изображений.
  • Псевдочисленные методы для моделей диффузии на коллекторах [сентябрь 2021 г.] — Повышение скорости дискретизации.
  • Сверхразрешение изображения с помощью итеративного уточнения [апрель 2021 г.] — не для создания изображений, но является ключом к пониманию будущего DM, обусловленного изображением, и каскадирования для улучшения разрешения изображения.

Три газеты сделали диффузионные модели материалом для первой полосы.

Стабильная диффузия : синтез изображений с высоким разрешением с моделями скрытой диффузии [декабрь 2021 г.] — код открыт с открытым исходным кодом, что помогло демократизировать DM. Помогли улучшить вычислительную сложность. Кондиционирование с помощью перекрестного внимания и т. д. Подробное понимание стабильной диффузии — Иллюстрированная стабильная диффузия .

Dall-E 2 : Генерация иерархического текстового условного изображения с латентными данными CLIP [апрель 2022 г.] — Не с открытым исходным кодом, а онлайн-демонстрация. Добавлен дополнительный шаг использования вложений изображений CLIP для условия и перед преобразованием вложений текстовых CLIP во вложения изображений.

Imagen : фотореалистичные модели распространения текста в изображение с глубоким пониманием языка [май 2022 г.] — документ Google со следующей модификацией — использование встраивания только текста (T5), руководство с пороговым значением, каскадная модель.

Шаг 7: другие популярные диффузионные документы для создания изображений примерно до октября 2022 г. [необязательно]

  • SDEdit: управляемый синтез и редактирование изображений с помощью стохастических дифференциальных уравнений [август 2021 г.]
  • Палитра: модели распространения изображений в изображения [ноябрь 2021 г.]
  • GLIDE: на пути к созданию и редактированию фотореалистичных изображений с помощью текстовых моделей распространения [декабрь 2021 г.]
  • Синтез семантического изображения с помощью диффузионных моделей [июнь 2022 г.]
  • Изображение стоит одного слова: персонализация преобразования текста в изображение с помощью инверсии текста [август 2022 г.] [Инверсия текста]
  • DreamBooth: тонкая настройка моделей преобразования текста в изображение для предметно-ориентированной генерации [август 2022 г.]
  • Пошаговое редактирование изображений с контролем перекрестного внимания [август 2022 г.]
  • Imagic: редактирование реальных изображений на основе текста с помощью диффузионных моделей [октябрь 2022 г.]
  • MagicMix: семантическое смешение с моделями распространения [октябрь 2022 г.]

Вот и все. Удачного рассеивания.

Мне очень понравилось это волшебное путешествие по созданию изображения из излучений Большого Взрыва . Если вы считаете, что есть документ/блог/видео, которые помогли вам попасть в поезд распространения, пожалуйста, поделитесь со мной.

Благодарности : Я хотел бы искренне поблагодарить Сен Хэ , Джерри Ву и Тао Сяна за помощь в этом исследовании и время от времени указывающие мне правильное направление.

Заключительное примечание : я накопил эти знания за короткий промежуток времени, поэтому в моем понимании могут быть некоторые ошибки. Пожалуйста, дайте мне знать, если что-то, что я сказал здесь, является фактически неверным.