RefAlign

概要

RefAlignは、参照画像をもとに動画を生成するReference-to-Video向けのPyTorch実装です。

学習時にDiTの参照分岐特徴を視覚基盤モデルの表現空間へ整列させることで、参照画像への忠実さ、人物や対象の一貫性、テキスト指示への追従性を高めます。

推論時の追加負荷が不要な点が特徴で、1.3B/14Bの学習済みモデルも公開されています。

研究者や生成AI開発者、参照ベース動画生成の品質改善を試したい上級ユーザー向けのリポジトリです。

GitHub: https://github.com/gudaochangsheng/RefAlign