ComfyUI-LocateAnything

概要

「ComfyUI-LocateAnything」は、NVIDIAのLocateAnything-3BビジュアルグラウンディングモデルをComfyUIで利用可能にするカスタムノード集です。

オブジェクト検出、フレーズグラウンディング、テキストローカリゼーション、ドキュメントレイアウト分析、GUI要素の特定、点による位置特定など、多様な画像解析タスクに対応します。

ComfyUIの画像バッチをフレームごとに処理し、検出されたオブジェクトの構造化された座標、注釈付きプレビュー、マスクを出力します。

本ツールは統合コードのみを提供し、モデル自体はHugging Faceから別途ダウンロードが必要です。

モデルの利用は非商用利用に限定されており、学術および非営利研究目的での使用が推奨されます。

GPU利用が効率的で、ComfyUI環境で高度なビジュアルグラウンディングや画像解析を行いたい研究者や開発者、特に非商用プロジェクト向けに設計されています。

GitHub: https://github.com/alisson-anjos/ComfyUI-LocateAnything