Qwen3-VL-Video-Grounding

概要

Qwen3-VL-Video-Groundingは、Qwen3-VL多モーダル画像言語モデルを活用したGradioベースのWebアプリケーションです。

ビデオ内のオブジェクト追跡、ポイント追跡、自然言語によるビデオ質問応答機能を提供します。

ユーザーはテキストで指定したオブジェクトをバウンディングボックスで検出・追跡したり、精密なポイント追跡でモーション軌跡を可視化したりできます。

また、ビデオコンテンツに関する質問に対して詳細なテキスト回答を生成。

ZeroGPUサポート、Webカメラ入力対応、Hugging Face Spacesへのデプロイも可能です。

ビデオ分析や視覚情報からの知見抽出に関心のある開発者や研究者に最適なツールです。