diffusion

概要

本リポジトリは、Stable Diffusion 3に着想を得た、DiTベースの条件付きフローモデルを実装しています。

主な機能は、CelebAデータセットを用いて顔画像を生成することです。

128×128のRGB画像を16チャンネルのコンパクトな潜在空間にエンコードする変分オートエンコーダー（VAE）と、CelebAの40の顔属性に基づいて潜在コードの分布をモデル化する拡散トランスフォーマー（DiT）の2つの主要コンポーネントで構成されています。

テキストエンコーダーは使用せず、顔属性による条件付けで画像を生成するため、研究者や画像生成モデルの開発者を想定ユーザーとしています。

GitHub: https://github.com/avanishd-3/diffusion