Thinking-with-Visual-Primitives-pytorch

概要

このツールは、DeepSeekの「Thinking with Visual Primitives」を非公式にPyTorchで再現したものです。

マルチモーダル大規模言語モデル（LLM）にバウンディングボックスやポイントを「思考単位」として利用させ、視覚的推論における参照ギャップを埋めることを目的としています。

3段階のトレーニングパイプライン（事前学習、専門家SFT、ポリシー蒸留）を通じて、モデルは画像内のオブジェクトを認識し、その空間座標を埋め込んだ構造化された思考を出力します。

LoRAファインチューニングを利用しているため、GPUを必要とします。

マルチモーダルLLMの研究者や開発者、特に画像内の空間情報を言語モデルに効果的に統合させたいと考えるユーザーに適しています。

Hugging Face Spacesでデモが提供されています。