3,702 repos GH 3,587 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

Thinking-with-Visual-Primitives-pytorch

★ 128 ⑂ 14 MIT 更新: 2026-06-11 GitHubで見る →

概要

このツールは、DeepSeekの「Thinking with Visual Primitives」を非公式にPyTorchで再現したものです。

マルチモーダル大規模言語モデル(LLM)にバウンディングボックスやポイントを「思考単位」として利用させ、視覚的推論における参照ギャップを埋めることを目的としています。

3段階のトレーニングパイプライン(事前学習、専門家SFT、ポリシー蒸留)を通じて、モデルは画像内のオブジェクトを認識し、その空間座標を埋め込んだ構造化された思考を出力します。

LoRAファインチューニングを利用しているため、GPUを必要とします。

マルチモーダルLLMの研究者や開発者、特に画像内の空間情報を言語モデルに効果的に統合させたいと考えるユーザーに適しています。

Hugging Face Spacesでデモが提供されています。

互換性・特徴

  • PyTorch
  • LLM
  • Hugging Face
  • GPU必須
  • Python
  • Web UI

基本情報

ライセンスMIT
Stars128
Forks14
カテゴリLLM
アクティビティmid

最新のissue

GitHub: https://github.com/vra/Thinking-with-Visual-Primitives-pytorch