blind-vision-mcp

概要

blind-vision-mcpは、テキストベースのLLM（大規模言語モデル）に「視覚」を与えるMCPサーバーです。

GPT-4 VisionやClaudeのようなAPIに依存せず、Gemma 4 E2B（LiteRT）を介したオンデバイスの視覚モデルとSDXL-Turboによる画像生成を100%ローカルで実現します。

これにより、ユーザーは高額なAPI利用料を支払うことなく、プライバシーを保護しながら、スクリーンショットやUIレイアウトをLLMに分析させることができます。

特にAndroidエミュレータの自動化など、マクロフレンドリーな用途を想定しており、OpenCodeやClaude DesktopなどのMCPクライアントとも連携可能です。

低VRAM要件（視覚モデルで約2.6 GB）も特徴で、GPUが利用できない場合はCPUにフォールバックします。

最新リリース: v0.3.0 – Image Generation (2026-06-15)

GitHub: https://github.com/alexjm19/blind-vision-mcp