概要
WorldReasonBenchは、動画生成モデルが物理的、社会的、論理的、情報的に一貫した未来の世界状態を推論できるかを評価するベンチマークです。
436の厳選されたテストケースと、4つの推論次元、22のサブカテゴリを含み、約6,000組の専門家による選好ペアデータ(WorldRewardBench)も提供されます。
動画生成モデルの開発者や研究者が、既存モデルの推論能力を客観的に評価し、改善点を見つけるための研究ツールとして想定されています。
互換性・特徴
- Python
- CLI
- AI評価
- ベンチマーク
- 研究ツール
基本情報
| Stars | 17 |
| カテゴリ | 動画生成 |
| アクティビティ | low |
