Khuếch tán về Mô hình Khuếch tán?

Nov 26 2022
Tăng tốc trong các Mô hình tạo hình ảnh dựa trên khuếch tán Tôi là một người mới bắt đầu về khuếch tán ba tuần trước, nhưng được dư luận quan tâm, tôi muốn tham gia vào chuyến tàu khuếch tán (điều mà tôi cảm thấy mình đã có thể làm được). Tốc độ phát triển mới đang diễn ra trong không gian tạo hình ảnh dựa trên khuếch tán (DbIG) thật đáng kinh ngạc.

Tăng tốc trong các Mô hình tạo hình ảnh dựa trên khuếch tán

Hình ảnh được tạo bởi Dall-E 2 với lời nhắc “Nghệ thuật khuếch tán về mô hình khuếch tán”

Cách đây ba tuần, tôi là một người mới học về khuếch tán, nhưng được dư luận quan tâm, tôi muốn tham gia vào chuyến tàu khuếch tán (điều mà tôi cảm thấy mình đã có thể làm được). Tốc độ phát triển mới đang diễn ra trong không gian tạo hình ảnh dựa trên khuếch tán (DbIG) thật đáng kinh ngạc. Thật khó để hiểu nơi bắt đầu cuộc hành trình. Trong bài đăng này, tôi chia sẻ hành trình của mình, hành trình này có thể hữu ích cho những người muốn xây dựng nền tảng cơ bản vững chắc để hiểu thế giới của các mô hình khuếch tán (DM), bao gồm cả việc hiểu toán học.

Lưu ý 1: Tôi nhất thiết sẽ không nói chi tiết về bất kỳ kỹ thuật nào, nhưng vạch ra một con đường từ bài báo này sang bài báo khác. Tôi tin rằng có quá nhiều blog/video/bài báo nói về các kỹ thuật khác nhau. Mặt khác, tôi không tìm thấy bất kỳ blog nào giúp hướng dẫn cách xây dựng nền tảng vững chắc trong DbIG.

Lưu ý2 : Tôi đã mất khoảng 3 tuần nỗ lực hết mình để bắt đầu từ các nguyên tắc cơ bản và xây dựng nền tảng. Nếu bạn muốn xây dựng sự hiểu biết sâu sắc, hãy dành khoảng 2 tuần thời gian của bạn, đặc biệt nếu bạn không quen với toán học của Bộ mã hóa tự động biến đổi và muốn có cảm giác trực quan về toán học DM.

Hãy bắt đầu nào.

Bước 1: Mô hình khuếch tán sớm

Deep Unsupervised Learning sử dụng Nhiệt động lực học không cân bằng [2015] — Đây là bài báo đầu tiên giới thiệu các ý tưởng xung quanh việc sử dụng 'Mô hình xác suất khuếch tán'. Mặc dù bài báo rất dễ đọc nếu bạn bỏ qua phần toán học, nhưng để hiểu được phần toán học, bạn cần phải làm quen với Suy luận biến thiên. Tôi khuyên bạn nên làm quen với Bộ mã hóa tự động biến đổi (VAE) để theo dõi toán học.

Bộ mã hóa tự động biến đổi [Tùy chọn] : Mặc dù không bắt buộc phải hiểu các mô hình khuếch tán, hiểu rõ về VAE sẽ giúp hiểu các đơn vị cơ bản của quá trình khuếch tán và toán học đằng sau nó.

Bước 2: DDPM

DDPM: Các mô hình xác suất khuếch tán khử nhiễu [2020] — Đây là yếu tố bắt đầu cơn sốt xung quanh DM để tạo hình ảnh.

Đi sâu hơn vào DDPM:

  • Giải thích về Giấy DDPM - Mô hình khuếch tán là gì? [Blog], Giới thiệu về các mô hình khuếch tán cho học máy [Blog]
  • Toán học - Mô hình khuếch tán | Giấy Thuyết minh | Giải thích toán học [YouTube] video trình bày chi tiết về toán học. Rất hữu ích để có được cái nhìn sâu sắc từng bước về toán học [Rất khuyến khích]
  • — Tôi vẫn còn một số nhầm lẫn đã được loại bỏ bằng cách làm theo mã/mã hóa lại DM bằng Mô hình khuếch tán | Triển khai PyTorch [YouTube], Mô hình khuếch tán-pytorch [Github], Mô hình khuếch tán từ đầu trong PyTorch [YouTube]
  • Hiểu sự tương đương của DDPM và tạo dựa trên Điểm số — Tạo mô hình tổng quát bằng cách ước tính độ dốc của phân phối dữ liệu [Blog]
  • Các kỹ thuật cải tiến để đào tạo các mô hình tổng quát dựa trên điểm số [2020]
  • Mô hình tổng quát dựa trên điểm số thông qua các phương trình vi phân ngẫu nhiên [2020]

U-Net : DDPM lần đầu tiên sử dụng kiến ​​trúc U-Net cho DM, điều mà tôi nghĩ cũng quan trọng như chính quá trình khuếch tán trong việc giúp tạo ra hình ảnh chất lượng cao. Mặc dù hiểu U-Net là không bắt buộc để hiểu quy trình, nhưng nếu bạn muốn theo dõi các công việc nâng cao hơn (mã hóa dấu thời gian, điều hòa văn bản), thì điều quan trọng là phải biết U-Net hoạt động như thế nào.

  • U-Net: Mạng tích chập cho phân đoạn hình ảnh y sinh [2015] — Bài báo U-Net
  • Mạng chuyển đổi hoàn toàn cho phân đoạn ngữ nghĩa [2014] - Bài viết của FCN là nguồn cảm hứng cho U-Net
  • Tìm hiểu chi tiết về U-Net — Hiểu kiến ​​trúc U-Net và xây dựng nó từ đầu [Youtube]
  • Giải mã tích chập — Hướng dẫn về số học tích chập cho học sâu , Lấy mẫu nâng cao với Chuyển đổi tích chập , Giải tích chập và Tạo tác bàn cờ

DDIM : Các mô hình ẩn khuếch tán khử nhiễu [Tháng 10 năm 2020] — Chiến lược lấy mẫu phổ biến thay thế từ DM từ tài liệu dựa trên điểm số.

Bước 4: DM được thiết lập làm lựa chọn mặc định để tạo hình ảnh

  • Các mô hình xác suất khuếch tán khử nhiễu được cải thiện [tháng 2 năm 2021] — Các cải tiến đối với DDPM.
  • Các mô hình khuếch tán đánh bại GAN trên Tổng hợp hình ảnh [Tháng 5 năm 2021] — Các cải tiến khác đối với IDDPM. Bài báo này cũng giới thiệu ý tưởng về 'hướng dẫn phân loại' để cải thiện chất lượng thế hệ và cung cấp một cách để kiểm soát đầu ra thế hệ. Tôi tin rằng đây là điều thiết lập cơ sở cho công việc tiếp theo trên DbIG.
  • Hướng dẫn phổ biến không phân loại [tháng 7 năm 2022] — Cải thiện kết quả bằng cách điều chỉnh Mô hình U-Net và tuân theo đào tạo kiểu 'bỏ học'. Đây là một giải pháp thay thế cho hướng dẫn bộ phân loại yêu cầu đào tạo một bộ phân loại hình ảnh thay thế.
  • Phương pháp số giả cho các mô hình khuếch tán trên đa tạp [Tháng 9 năm 2021] — Cải thiện tốc độ lấy mẫu.
  • Hình ảnh có độ phân giải siêu cao thông qua tinh chỉnh lặp lại [Tháng 4 năm 2021] — Không phải để tạo hình ảnh mà là chìa khóa để hiểu DM có điều kiện hóa hình ảnh trong tương lai và phân tầng để cải thiện độ phân giải hình ảnh.

Ba bài báo đã đưa các mô hình khuếch tán lên trang nhất.

Phổ biến ổn định : Tổng hợp hình ảnh độ phân giải cao với các mô hình khuếch tán tiềm ẩn [Tháng 12 năm 2021] — Tạo mã nguồn mở của họ để giúp dân chủ hóa DM. Giúp cải thiện độ phức tạp tính toán. Điều hòa thông qua sự chú ý chéo, v.v. Tìm hiểu chi tiết về Sự khuếch tán ổn định — Sự khuếch tán ổn định được minh họa .

Dall-E 2 : Tạo hình ảnh có điều kiện theo văn bản phân cấp với độ trễ CLIP [Tháng 4 năm 2022] — Không phải mã nguồn mở, mà là bản demo trực tuyến. Đã thêm một bước bổ sung sử dụng nhúng hình ảnh CLIP vào điều kiện và bước trước khi chuyển đổi nhúng CLIP văn bản thành nhúng hình ảnh.

Imagen : Các mô hình khuếch tán văn bản thành hình ảnh chân thực với khả năng hiểu ngôn ngữ sâu sắc [tháng 5 năm 2022] — Bài báo của Google, có sửa đổi sau — Sử dụng các nhúng chỉ có văn bản (T5), hướng dẫn theo ngưỡng, mô hình xếp tầng.

Bước-7: Các giấy tờ Phổ biến khác để Tạo hình ảnh cho đến khoảng tháng 10 năm 2022 [Tùy chọn]

  • SDEdit: Chỉnh sửa và tổng hợp hình ảnh có hướng dẫn bằng các phương trình vi phân ngẫu nhiên [Tháng 8 năm 2021]
  • Bảng màu: Mô hình khuếch tán từ hình ảnh sang hình ảnh [Tháng 11 năm 2021]
  • GLIDE: Hướng tới việc tạo và chỉnh sửa hình ảnh chân thực bằng các mô hình khuếch tán có hướng dẫn bằng văn bản [Tháng 12 năm 2021]
  • Tổng hợp hình ảnh ngữ nghĩa thông qua các mô hình khuếch tán [Tháng 6 năm 2022]
  • Một hình ảnh đáng giá một từ: Cá nhân hóa việc tạo văn bản thành hình ảnh bằng tính năng đảo văn bản [Tháng 8 năm 2022][Đảo văn bản]
  • DreamBooth: Tinh chỉnh các mô hình khuếch tán chuyển văn bản thành hình ảnh để tạo theo chủ đề [Tháng 8 năm 2022]
  • Chỉnh sửa hình ảnh liên tục với tính năng Kiểm soát chú ý chéo [Aug 2022]
  • Tưởng tượng: Chỉnh sửa hình ảnh thực dựa trên văn bản với các mô hình khuếch tán [Tháng 10 năm 2022]
  • MagicMix: Trộn ngữ nghĩa với các mô hình khuếch tán [Tháng 10 năm 2022]

Đó là nó mọi người. Hạnh phúc khuếch tán.

Tôi thực sự thích thú với hành trình kỳ diệu này để tạo ra một hình ảnh từ bức xạ Big Bang . Nếu bạn cảm thấy có một bài báo/blog/video nào giúp bạn tham gia vào quá trình phổ biến, vui lòng chia sẻ với tôi.

Lời cảm ơn : Tôi xin chân thành cảm ơn Sen He , Jerry Wu và Tao Xiang đã giúp tôi trong cuộc khám phá này và thỉnh thoảng chỉ cho tôi đi đúng hướng.

Lưu ý cuối cùng : Tôi đã xây dựng kiến ​​thức này trong một khoảng thời gian ngắn nên có thể có một số sai sót trong hiểu biết của tôi. Xin vui lòng cho tôi biết nếu bất cứ điều gì tôi nói ở đây là thực tế không chính xác.