概要
「Thinking with Visual Primitives」は、Multimodal Large Language Models (MLLM) が抱える「Reference Gap」を解消するための新しいアプローチを提案するプロジェクトです。
従来のMLLMが苦手としていた複雑な構造的推論において、視覚的なマーカー(点やバウンディングボックス)を思考の最小単位として推論プロセスに直接組み込むことで、人間のように指差しながら考える認知行動を模倣し、より正確な推論を可能にします。
DeepSeek-V4-Flashアーキテクチャを基盤とし、視覚トークンの効率を大幅に向上させている点が特徴です。
このツールは、MLLMの推論能力を向上させたい研究者や開発者を主な想定ユーザーとしています。
互換性・特徴
- MLLM
- DeepSeek-V4-Flash
- Python
- 研究
- ビジュアルプリミティブ
基本情報
| ライセンス | MIT |
| Stars | 38 |
| Forks | 38 |
| カテゴリ | マルチモーダル |
| アクティビティ | low |
GitHub: https://github.com/ailuntx/Thinking-with-Visual-Primitives
