locate-anything

概要

「locate-anything」は、NVIDIAのLocateAnything-3Bモデルを利用した、モバイルフレンドリーなWebインターフェースです。

ユーザーは画像に写っている見つけたいものを自然言語で指定するだけで、オブジェクト検出、フレーズグラウンディング、OCR、ドキュメントレイアウト、GUI要素のグラウンディングなど、多岐にわたる画像理解タスクを実行できます。

NVIDIA Ampere世代以降のGPUとDocker環境があれば、`docker compose up`コマンド一つで簡単に自身のPCにデプロイ可能です。

モバイル対応しており、検索履歴機能やGPU互換性事前確認機能も備えています。

主に非商用目的の研究者や開発者、個人ユーザーが画像内の情報を効率的に抽出するのに適しています。

最新リリース: v0.1.3 (2026-06-02)

GitHub: https://github.com/gammahazard/locate-anything