vision-bridge

概要

Vision Bridgeは、DeepSeek V4 PROやGPT-4o-textのような純粋なテキストベースのLLMに「視覚能力」を付与するツールです。

ローカルのOllamaで動作する軽量なビジョンモデル（例：qwen3-vl:2b、約1.9GB）を「目」として使用し、画像から詳細な日本語（または中国語）のテキスト記述を生成します。

このテキスト記述をLLMに渡すことで、LLMが画像を理解し、より深い推論を行うことを可能にします。

主な特徴として、低スペックのGPU（RTX 4060/3060など）や純粋なCPUでも動作する軽量設計であり、クリップボードからのスクリーンショット認識、全画面スクリーンショット認識、指定画像ファイル分析といった多様な利用方法を提供します。

Pythonで実装されており、依存関係も最小限です。

画像を直接扱えないLLMを活用して画像分析や推論を行いたい開発者やAI研究者、特にClaude Codeユーザーなどが想定ユーザーとなります。

GitHub: https://github.com/wqh1ddua/vision-bridge