概要
World-R1は、テキストからビデオを生成する際に、3Dの幾何学的制約を強化学習で強化する新しいフレームワークです。
既存のビデオモデルのアーキテクチャを変更することなく、カメラ認識型潜在初期化、3D認識型報酬、周期的なトレーニング戦略を組み合わせることで、視覚品質とモーションの多様性を維持しつつ、ビデオの3D幾何学的整合性を大幅に向上させます。
主に研究者やAI開発者が、より現実的で一貫性のあるテキスト・ツー・ビデオ生成技術を開発・利用することを想定しています。
互換性・特徴
- Python
- GPU必須
- 強化学習
- 3Dビデオ生成
基本情報
| ライセンス | MIT |
| Stars | 353 |
| Forks | 14 |
| カテゴリ | 動画生成 |
| アクティビティ | mid |
最新のissue
- 事前学習済みLoRAチェックポイントと推論コードはいつ公開されますか? (更新: 2026-05-01 / When release pretrained LoRA checkpoints and inference code?)
