概要
VEGA-3Dは、「Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding」の公式実装であり、マルチモーダル大規模言語モデル(MLLM)が抱える空間認識能力の課題を解決するためのプラグアンドプレイフレームワークです。
事前学習済みのビデオ生成モデルを潜在的な世界シミュレーターとして活用し、中間ノイズレベルから時空間特徴を抽出し、トークンレベルの適応型ゲート融合を通じてセマンティック表現と融合させます。
これにより、MLLMを密な幾何学的キューで強化し、3Dシーン理解、空間的推論、具体化された意思決定の能力を向上させます。
主に、大規模言語モデルの空間推論能力の向上に関心のある研究者や開発者が対象となります。
互換性・特徴
- Python
- GPU必須
- CLI
- HuggingFace対応
- 研究プロジェクト
基本情報
| ライセンス | Apache-2.0 |
| Stars | 437 |
| Forks | 22 |
| カテゴリ | マルチモーダル |
| アクティビティ | mid |
最新のissue
- Ablation study(アブレーションスタディ) (更新: 2026-05-06 / Ablation study)
