3,720 repos GH 3,605 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

blind-vision-mcp

★ 1 MIT 更新: 2026-06-15 GitHubで見る →

概要

blind-vision-mcpは、テキストベースのLLM(大規模言語モデル)に「視覚」を与えるMCPサーバーです。

GPT-4 VisionやClaudeのようなAPIに依存せず、Gemma 4 E2B(LiteRT)を介したオンデバイスの視覚モデルとSDXL-Turboによる画像生成を100%ローカルで実現します。

これにより、ユーザーは高額なAPI利用料を支払うことなく、プライバシーを保護しながら、スクリーンショットやUIレイアウトをLLMに分析させることができます。

特にAndroidエミュレータの自動化など、マクロフレンドリーな用途を想定しており、OpenCodeやClaude DesktopなどのMCPクライアントとも連携可能です。

低VRAM要件(視覚モデルで約2.6 GB)も特徴で、GPUが利用できない場合はCPUにフォールバックします。

互換性・特徴

  • Python
  • GPU必須
  • CLI
  • ローカル実行
  • 画像分析
  • 画像生成

基本情報

ライセンスMIT
Stars1
カテゴリマルチモーダル
アクティビティlow

最新リリース: v0.3.0 – Image Generation (2026-06-15)

GitHub: https://github.com/alexjm19/blind-vision-mcp