概要
「Prompt Reinjection」は、マルチモーダル拡散トランスフォーマーにおいて発生する「プロンプト忘れ」問題に対処するための、訓練不要の推論手法です。
この技術は、初期層のセマンティックに強いプロンプト特徴を深層のテキスト層に再注入することで、生成モデルがプロンプトの指示(特に位置、属性、数、長い記述など)をより正確に反映できるようになります。
これにより、GenEvalスコアがSD3.5-largeで6.48%、HunyuanImage-2.1で7.75%向上し、計算コストはごくわずかです。
再学習の必要がないため、高品質な画像生成を追求する研究者や開発者が、既存のDiffusion Transformerモデルの指示追従性を容易に改善するために利用できます。
互換性・特徴
- Diffusion Models
- Multimodal AI
- Python
- 研究ツール
- 推論時最適化
- HuggingFace
基本情報
| ライセンス | MIT |
| Stars | 4 |
| カテゴリ | 画像生成 |
| アクティビティ | low |
GitHub: https://github.com/fudan-generative-vision/PromptReinjection
