概要
RefAlignは、参照画像をもとに動画を生成するReference-to-Video向けのPyTorch実装です。
学習時にDiTの参照分岐特徴を視覚基盤モデルの表現空間へ整列させることで、参照画像への忠実さ、人物や対象の一貫性、テキスト指示への追従性を高めます。
推論時の追加負荷が不要な点が特徴で、1.3B/14Bの学習済みモデルも公開されています。
研究者や生成AI開発者、参照ベース動画生成の品質改善を試したい上級ユーザー向けのリポジトリです。
互換性・特徴
- PyTorch
- Python
- GPU必須
- CLI
- 学習済みモデルあり
- 研究用途
基本情報
| ライセンス | NOASSERTION |
| Stars | 256 |
| Forks | 22 |
| カテゴリ | 動画生成 |
| アクティビティ | mid |