概要
「locate-anything」は、NVIDIAのLocateAnything-3Bモデルを利用した、モバイルフレンドリーなWebインターフェースです。
ユーザーは画像に写っている見つけたいものを自然言語で指定するだけで、オブジェクト検出、フレーズグラウンディング、OCR、ドキュメントレイアウト、GUI要素のグラウンディングなど、多岐にわたる画像理解タスクを実行できます。
NVIDIA Ampere世代以降のGPUとDocker環境があれば、`docker compose up`コマンド一つで簡単に自身のPCにデプロイ可能です。
モバイル対応しており、検索履歴機能やGPU互換性事前確認機能も備えています。
主に非商用目的の研究者や開発者、個人ユーザーが画像内の情報を効率的に抽出するのに適しています。
互換性・特徴
- Web UI
- GPU必須
- Docker
- モバイルフレンドリー
- オブジェクト検出
- 非商用利用
基本情報
| ライセンス | Apache-2.0 |
| Stars | 2 |
| Forks | 1 |
| カテゴリ | マルチモーダル |
| アクティビティ | low |
最新リリース: v0.1.2 (2026-05-28)
