概要
Qwen3-VL-Video-Groundingは、Qwen3-VL多モーダル画像言語モデルを活用したGradioベースのWebアプリケーションです。
ビデオ内のオブジェクト追跡、ポイント追跡、自然言語によるビデオ質問応答機能を提供します。
ユーザーはテキストで指定したオブジェクトをバウンディングボックスで検出・追跡したり、精密なポイント追跡でモーション軌跡を可視化したりできます。
また、ビデオコンテンツに関する質問に対して詳細なテキスト回答を生成。
ZeroGPUサポート、Webカメラ入力対応、Hugging Face Spacesへのデプロイも可能です。
ビデオ分析や視覚情報からの知見抽出に関心のある開発者や研究者に最適なツールです。
互換性・特徴
- Web UI
- Python
- AIモデル使用
- GPU利用
- ビデオ分析
- Gradio
基本情報
| ライセンス | Apache-2.0 |
| Stars | 14 |
| Forks | 3 |
| カテゴリ | マルチモーダル |
| アクティビティ | low |
最新のissue
- モデルのトレーニング手順を公開する予定はありますか? (更新: 2026-03-01 / Any plan to show how to train your model)
GitHub: https://github.com/PRITHIVSAKTHIUR/Qwen3-VL-Video-Grounding
