Thinking-with-Visual-Primitives

概要

「Thinking with Visual Primitives」は、Multimodal Large Language Models (MLLM) が抱える「Reference Gap」を解消するための新しいアプローチを提案するプロジェクトです。

従来のMLLMが苦手としていた複雑な構造的推論において、視覚的なマーカー（点やバウンディングボックス）を思考の最小単位として推論プロセスに直接組み込むことで、人間のように指差しながら考える認知行動を模倣し、より正確な推論を可能にします。

DeepSeek-V4-Flashアーキテクチャを基盤とし、視覚トークンの効率を大幅に向上させている点が特徴です。

このツールは、MLLMの推論能力を向上させたい研究者や開発者を主な想定ユーザーとしています。

GitHub: https://github.com/ailuntx/Thinking-with-Visual-Primitives