拡散モデルについて拡散?
拡散ベースの画像生成モデルの強化
私は 3 週間前まで拡散の初心者でしたが、話題になったので、拡散列車に飛び乗りたいと思いました (それができたと感じています)。拡散ベースの画像生成 (DbIG) 空間で新しい開発が行われているペースは、気が遠くなるほどです。どこから旅を始めればよいか理解するのが難しくなります。この投稿では、数学の理解を含め、拡散モデル (DM) の世界を理解するための強力な基礎を構築したいと考えている他の人に役立つかもしれない私の旅を共有します。
注 1 : どの手法についても詳細に説明する必要はありませんが、ある論文から別の論文への道筋を示します。さまざまなテクニックについて話しているブログ/ビデオ/論文が多すぎると思います。一方で、DbIG で強力な基盤を構築する方法をガイドするのに役立つブログは見つかりませんでした。
Note2 : 基礎から始めて基礎を作り上げるのに約 3 週間の献身的な努力が必要でした。深い理解を深めたい場合は、約 2 週間の時間を費やしてください。特に変分オート エンコーダーの数学に慣れておらず、DM の数学を直感的に理解したい場合はなおさらです。
さぁ、始めよう。
Step-1: 初期拡散モデル
非平衡熱力学を使用した深層教師なし学習[2015] — これは、「拡散確率モデル」の使用に関するアイデアを導入した最初の論文です。数学を飛ばして論文を読むのは簡単ですが、数学を理解するには変分推論に精通している必要があります。数学に従うために、Variational Auto Encoders (VAE) に慣れることをお勧めします。
Variational Auto Encoders [オプション] : 拡散モデルを理解するための要件ではありませんが、VAE をよく理解すると、拡散プロセスの基本単位とその背後にある数学を理解するのに役立ちます。
- チュートリアル:変分オートエンコーダの紹介 , 変分オートエンコーダのチュートリアル
- 論文: Auto-Encoding Variational Bayes
- コード: Pytorch を使用した変分オートエンコーダー、LATENT SPACES (パート 2): 変分オートエンコーダーの簡単なガイド
ステップ-2: DDPM
DDPM: Denoising Diffusion Probabilistic Models [2020] — これが、画像生成のための DM の流行の始まりです。
DDPM の詳細:
- DDPM論文の解説 —拡散モデルとは? [ブログ]、機械学習の拡散モデルの紹介[ブログ]
- 数学—拡散モデル| 論文解説 | Math Explained [YouTube] ビデオで数学を詳しく説明しています。数学への一歩一歩の洞察を得るのに非常に役立ちます[強くお勧めします]
- コード— まだ混乱が残っていましたが、拡散モデルを使用してコード/再コーディング DM に従って削除されました。PyTorch の実装[YouTube]、Diffusion-Models-pytorch [Github]、PyTorch でゼロから作成した拡散モデル[YouTube]
- DDPM とスコアベースの生成の同等性を理解する —データ分布の勾配を推定することによる生成モデリング[ブログ]
- スコアベースの生成モデルをトレーニングするための改善された手法[2020]
- 確率微分方程式によるスコアベースの生成モデリング[2020]
U-Net : DDPM は最初に DM に U-Net アーキテクチャを使用しました。これは、高品質の画像を生成する上で、拡散プロセス自体と同じくらい重要だと思います。プロセスを理解するために U-Net を理解する必要はありませんが、より高度な作業 (タイムステップ エンコーディング、テキスト条件付け) を理解したい場合は、U-Net がどのように機能するかを知ることが重要です。
- U-Net: 生物医学画像セグメンテーションのための畳み込みネットワーク[2015] — U-Net ペーパー
- セマンティック セグメンテーションのための完全な畳み込みネットワーク[2014] — U-Net のインスピレーションとなった FCN の論文
- U-Net の詳細を理解する — U-Net アーキテクチャを理解し、ゼロから構築する[Youtube]
- デコンボリューション—ディープ ラーニングのための畳み込み演算のガイド、転置畳み込みによるアップサンプリング、デコンボリューション、およびチェッカーボード アーティファクト
DDIM :拡散の暗黙的なモデルのノイズ除去[2020 年 10 月] — スコアベースの文献からの DM からの代替の一般的なサンプリング戦略。
ステップ 4: DM がイメージ生成のデフォルトの選択肢として確立されている
- ノイズ除去拡散確率モデルの改善[2021 年 2 月] — DDPM の改善。
- 画像合成で拡散モデルが GAN を上回る[2021 年 5 月] — IDDPM のさらなる改善。この論文では、生成品質を改善し、生成出力を制御する方法を提供するための「分類子ガイダンス」の考え方も紹介しました。これが、DbIG のフォローアップ作業のベースラインを設定したものだと思います。
- Classifier-Free Diffusion Guidance [2022 年 7 月] — U-Net モデルを調整し、「ドロップアウト」スタイルのトレーニングに従うことで、結果が改善されました。これは、代替画像分類器のトレーニングを必要とする分類器ガイダンスの代替手段です。
- 多様体上の拡散モデルの疑似数値法[2021 年 9 月] — サンプリング速度の改善。
- Image Super-Resolution via Iterative Refinement [2021 年 4 月] — 画像生成のためではなく、将来の画像調整 DM と画像解像度を向上させるためのカスケードを理解するための鍵です。
拡散モデルの表紙素材を3枚作りました。
Stable Diffusion :潜在拡散モデルを使用した高解像度画像合成[2021 年 12 月] — DM の民主化に役立つコードをオープンソース化しました。計算の複雑さの改善に役立ちました。クロスアテンションなどによる条件付け 安定拡散を詳細に理解する —図解安定拡散.
Dall-E 2 : CLIP Latents を使用した階層型テキスト条件付き画像生成[2022 年 4 月] — オープンソースではなく、オンライン デモです。テキスト CLIP 埋め込みを画像埋め込みに変換する前に、CLIP 画像埋め込みを使用して条件付けを行う追加の手順を追加しました。
Imagen : Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding [2022 年 5 月] — Google による論文、以下の修正 — テキストのみの埋め込み (T5)、しきい値ガイダンス、カスケード モデルの使用。
Step-7: 2022 年 10 月頃までのその他の一般的な画像生成用の Diffusion ペーパー [オプション]
- SDEdit: 確率微分方程式によるガイド付き画像合成と編集[2021 年 8 月]
- パレット: 画像から画像への拡散モデル[2021 年 11 月]
- GLIDE: テキストガイドによる拡散モデルを使用したフォトリアリスティックな画像の生成と編集に向けて[2021 年 12 月]
- 拡散モデルによるセマンティック イメージ合成[2022 年 6 月]
- 画像は一言に値する: テキスト反転を使用したテキストから画像への生成のパーソナライズ[2022 年 8 月][テキスト反転]
- DreamBooth: サブジェクト駆動生成のためのテキストから画像への拡散モデルの微調整[2022 年 8 月]
- クロスアテンションコントロールによるプロンプトからプロンプトへの画像編集[2022年8月]
- Imagic: 拡散モデルを使用したテキストベースの実画像編集[2022 年 10 月]
- MagicMix: 拡散モデルによるセマンティック ミキシング[2022 年 10 月]
それだけです。ハッピー拡散。
ビッグバン放射線から画像を作成するこの魔法の旅は本当に楽しかったです。拡散列車に参加するのに役立つ紙/ブログ/ビデオがあると思われる場合は、私と共有してください.
謝辞: Sen He、Jerry Wu、Tao Xiangには、この調査を手伝ってくれ、時々正しい方向に向けてくれたことに心から感謝したいと思います。
最終的な注意: 私はこの知識を短時間で構築したので、理解に誤りがある可能性があります。ここで私が言ったことが事実に反している場合はお知らせください。