概要
UI-TARS MCPは、AIエージェントがデスクトップとウェブブラウザを操作するための「目と手」を提供するサーバーツールです。
スクリーンショットをVision-Language Model (VLM) に入力し、その視覚的理解に基づいてマウス、キーボード、Playwrightによるブラウザアクションを自動で実行します。
これにより、AIエージェント(Claude、OpenCode、Hermesなど)は任意のGUIアプリケーションやウェブサイトを、まるで人間が操作するように自動化できます。
特に、未知のUIや一般的な自動化タスクに強く、RTX 4090のような高性能GPUを搭載した環境での利用が想定されています。
互換性・特徴
- Python
- Web UI
- CLI
- GPU必須
- Windows
- VLM活用
基本情報
| ライセンス | Apache-2.0 |
| Stars | 1 |
| カテゴリ | マルチモーダル |
| アクティビティ | low |