概要
UNITEは、画像や分子などのモダリティに対応した、トークン化と潜在拡散モデルの生成を単一ステージでend-to-endに学習する新しいアーキテクチャです。
従来の潜在拡散モデル(LDM)がトークナイザーと拡散モデルを別々に学習する複雑なプロセスを、Generative Encoderを用いて統合し、学習プロセスを簡素化します。
このモデルは、adversarial lossesや事前学習済みエンコーダーなしで、ImageNet 256×256においてFID 2.12と1.73という最先端に近い性能を達成しています。
研究者や開発者が、より効率的で統合された生成モデルの学習手法を模索している場合に特に有用です。
互換性・特徴
- Python
- CLI
- GPU必須
- PyTorch
基本情報
| Stars | 115 |
| Forks | 1 |
| カテゴリ | 画像生成 |
| アクティビティ | mid |
GitHub: https://github.com/ShivamDuggal4/UNITE-tokenization-generation
