概要
Vision Bridgeは、DeepSeek V4 PROやGPT-4o-textのような純粋なテキストベースのLLMに「視覚能力」を付与するツールです。
ローカルのOllamaで動作する軽量なビジョンモデル(例:qwen3-vl:2b、約1.9GB)を「目」として使用し、画像から詳細な日本語(または中国語)のテキスト記述を生成します。
このテキスト記述をLLMに渡すことで、LLMが画像を理解し、より深い推論を行うことを可能にします。
主な特徴として、低スペックのGPU(RTX 4060/3060など)や純粋なCPUでも動作する軽量設計であり、クリップボードからのスクリーンショット認識、全画面スクリーンショット認識、指定画像ファイル分析といった多様な利用方法を提供します。
Pythonで実装されており、依存関係も最小限です。
画像を直接扱えないLLMを活用して画像分析や推論を行いたい開発者やAI研究者、特にClaude Codeユーザーなどが想定ユーザーとなります。
互換性・特徴
- Ollama対応
- Python
- CLI
- GPU/CPU対応
- LLM連携
- 画像認識
基本情報
| ライセンス | MIT |
| Stars | 1 |
| カテゴリ | マルチモーダル |
| アクティビティ | low |
