概要
本リポジトリは、Stable Diffusion 3に着想を得た、DiTベースの条件付きフローモデルを実装しています。
主な機能は、CelebAデータセットを用いて顔画像を生成することです。
128×128のRGB画像を16チャンネルのコンパクトな潜在空間にエンコードする変分オートエンコーダー(VAE)と、CelebAの40の顔属性に基づいて潜在コードの分布をモデル化する拡散トランスフォーマー(DiT)の2つの主要コンポーネントで構成されています。
テキストエンコーダーは使用せず、顔属性による条件付けで画像を生成するため、研究者や画像生成モデルの開発者を想定ユーザーとしています。
互換性・特徴
- Python
- 画像生成
- AI/機械学習
- 条件付き生成
- CelebA
- GPU必須
基本情報
| Stars | 1 |
| カテゴリ | 画像生成 |
| アクティビティ | low |
