概要
browsergroundは、ハイブリッドAIエージェント向けのローカルUIグラウンディングツールです。
スクリーンショットとテキストターゲットを入力として受け取り、指定されたUI要素の厳密なJSON形式のバウンディングボックスを返します。
Qwen3-VL-2B LoRAをベースとし、MLXネイティブで動作するため、クラウドAIモデル(GPT-4Vなど)に比べてコスト、レイテンシ、プライバシー面で優れています。
特に、クリック先の特定といった狭いビジョンタスクにおいて、クラウドへの依存を減らし、高速かつローカルで処理を完結させたい開発者に最適です。
特定のベンチマークではGPT-4oを上回る精度を示し、Claude CodeやCodex CLIなど既存のエージェントスタックへの統合も容易です。
互換性・特徴
- CLI
- Python
- ローカル実行
- 高速処理
- プライバシー重視
- AIエージェント連携
基本情報
| Stars | 1 |
| カテゴリ | マルチモーダル |
| アクティビティ | low |