概要
SR-3Dは、ICLR’26で発表された「3D Aware Region Prompted Vision Language Model」の実装です。
単一視点と多視点入力間で共有される正規位置表現を導入することで、大規模な単一視点事前学習を可能にし、学習された空間事前知識を多視点設定に転移できます。
3D空間認識と視覚言語モデルの統合に関心のある研究者や開発者向けに、Hugging Faceでモデルとデータが提供されています。
互換性・特徴
- Python
- GPU必須
- Hugging Face
- 研究ツール
- CLI
基本情報
| ライセンス | Apache-2.0 |
| Stars | 24 |
| カテゴリ | マルチモーダル |
| アクティビティ | low |
