1,738 repos · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

Thinking-with-Visual-Primitives

★ 38 ⑂ 38 MIT 更新: 2026-05-01 GitHubで見る →

概要

「Thinking with Visual Primitives」は、Multimodal Large Language Models (MLLM) が抱える「Reference Gap」を解消するための新しいアプローチを提案するプロジェクトです。

従来のMLLMが苦手としていた複雑な構造的推論において、視覚的なマーカー(点やバウンディングボックス)を思考の最小単位として推論プロセスに直接組み込むことで、人間のように指差しながら考える認知行動を模倣し、より正確な推論を可能にします。

DeepSeek-V4-Flashアーキテクチャを基盤とし、視覚トークンの効率を大幅に向上させている点が特徴です。

このツールは、MLLMの推論能力を向上させたい研究者や開発者を主な想定ユーザーとしています。

互換性・特徴

  • MLLM
  • DeepSeek-V4-Flash
  • Python
  • 研究
  • ビジュアルプリミティブ

基本情報

ライセンスMIT
Stars38
Forks38
カテゴリマルチモーダル
アクティビティlow

GitHub: https://github.com/ailuntx/Thinking-with-Visual-Primitives