概要
このツールは、DeepSeekの「Thinking with Visual Primitives」を非公式にPyTorchで再現したものです。
マルチモーダル大規模言語モデル(LLM)にバウンディングボックスやポイントを「思考単位」として利用させ、視覚的推論における参照ギャップを埋めることを目的としています。
3段階のトレーニングパイプライン(事前学習、専門家SFT、ポリシー蒸留)を通じて、モデルは画像内のオブジェクトを認識し、その空間座標を埋め込んだ構造化された思考を出力します。
LoRAファインチューニングを利用しているため、GPUを必要とします。
マルチモーダルLLMの研究者や開発者、特に画像内の空間情報を言語モデルに効果的に統合させたいと考えるユーザーに適しています。
Hugging Face Spacesでデモが提供されています。
互換性・特徴
- PyTorch
- LLM
- Hugging Face
- GPU必須
- Python
- Web UI
基本情報
| ライセンス | MIT |
| Stars | 128 |
| Forks | 14 |
| カテゴリ | LLM |
| アクティビティ | mid |
最新のissue
- COCO学習データセット未ダウンロードによりSFT学習でエラー (更新: 2026-06-12 / COCO train 集未下载,SFT 训练会报错)
- 依存関係の不足 (更新: 2026-06-12 / Dependency Missing)
GitHub: https://github.com/vra/Thinking-with-Visual-Primitives-pytorch
