概要
blind-vision-mcpは、テキストベースのLLM(大規模言語モデル)に「視覚」を与えるMCPサーバーです。
GPT-4 VisionやClaudeのようなAPIに依存せず、Gemma 4 E2B(LiteRT)を介したオンデバイスの視覚モデルとSDXL-Turboによる画像生成を100%ローカルで実現します。
これにより、ユーザーは高額なAPI利用料を支払うことなく、プライバシーを保護しながら、スクリーンショットやUIレイアウトをLLMに分析させることができます。
特にAndroidエミュレータの自動化など、マクロフレンドリーな用途を想定しており、OpenCodeやClaude DesktopなどのMCPクライアントとも連携可能です。
低VRAM要件(視覚モデルで約2.6 GB)も特徴で、GPUが利用できない場合はCPUにフォールバックします。
互換性・特徴
- Python
- GPU必須
- CLI
- ローカル実行
- 画像分析
- 画像生成
基本情報
| ライセンス | MIT |
| Stars | 1 |
| カテゴリ | マルチモーダル |
| アクティビティ | low |
最新リリース: v0.3.0 – Image Generation (2026-06-15)