VEGA-3D

概要

VEGA-3Dは、「Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding」の公式実装であり、マルチモーダル大規模言語モデル（MLLM）が抱える空間認識能力の課題を解決するためのプラグアンドプレイフレームワークです。

事前学習済みのビデオ生成モデルを潜在的な世界シミュレーターとして活用し、中間ノイズレベルから時空間特徴を抽出し、トークンレベルの適応型ゲート融合を通じてセマンティック表現と融合させます。

これにより、MLLMを密な幾何学的キューで強化し、3Dシーン理解、空間的推論、具体化された意思決定の能力を向上させます。

主に、大規模言語モデルの空間推論能力の向上に関心のある研究者や開発者が対象となります。

互換性・特徴

Python
GPU必須
CLI
HuggingFace対応
研究プロジェクト

基本情報

ライセンス	Apache-2.0
Stars	418
Forks	23
カテゴリ	マルチモーダル
アクティビティ	mid

VEGA-3D

概要

互換性・特徴

基本情報

最新のissue