MolmoPoint-Vid-4B

概要

MolmoPoint-Vid-4Bは、Allen Institute for AIが公開した動画向けのオープンな視覚言語モデルで、映像内の対象物を座標テキストではなく専用のグラウンディングトークンで指し示せる点が特徴です。

Transformers経由で推論でき、動画と自然文プロンプトから時刻・対象ID・ピクセル位置を抽出できます。

動画中の物体追跡や指示対象の特定を研究したい研究者・開発者向けで、汎用用途ではなく動画ポインティング特化モデルです。

HuggingFace: https://huggingface.co/allenai/MolmoPoint-Vid-4B