2,519 repos GH 2,404 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

vision-bridge

★ 1 MIT 更新: 2026-05-29 GitHubで見る →

概要

Vision Bridgeは、DeepSeek V4 PROやGPT-4o-textのような純粋なテキストベースのLLMに「視覚能力」を付与するツールです。

ローカルのOllamaで動作する軽量なビジョンモデル(例:qwen3-vl:2b、約1.9GB)を「目」として使用し、画像から詳細な日本語(または中国語)のテキスト記述を生成します。

このテキスト記述をLLMに渡すことで、LLMが画像を理解し、より深い推論を行うことを可能にします。

主な特徴として、低スペックのGPU(RTX 4060/3060など)や純粋なCPUでも動作する軽量設計であり、クリップボードからのスクリーンショット認識、全画面スクリーンショット認識、指定画像ファイル分析といった多様な利用方法を提供します。

Pythonで実装されており、依存関係も最小限です。

画像を直接扱えないLLMを活用して画像分析や推論を行いたい開発者やAI研究者、特にClaude Codeユーザーなどが想定ユーザーとなります。

互換性・特徴

  • Ollama対応
  • Python
  • CLI
  • GPU/CPU対応
  • LLM連携
  • 画像認識

基本情報

ライセンスMIT
Stars1
カテゴリマルチモーダル
アクティビティlow

GitHub: https://github.com/wqh1ddua/vision-bridge