概要
LLaVA-Video-7B-Qwen2は、動画理解に特化した7B規模のマルチモーダルモデルです。
画像・複数画像・動画を扱えますが、特に動画に対する詳細説明や質問応答を想定しており、最大64フレームまで処理できます。
Qwen2系と言語モデルと32Kコンテキストを基盤にし、TransformersやPyTorch経由でPython/CLI環境から利用します。
動画解析、研究、評価ベンチマーク検証を行いたい開発者や研究者向けのモデルです。
互換性・特徴
- Python
- CLI
- Transformers
- PyTorch
- GPU必須
- 動画対応
基本情報
| ライセンス | apache-2.0 |
| Likes | 126 |
| Downloads | 28,787 |
| Pipeline | video-text-to-text |
| カテゴリ | マルチモーダル |
| アクティビティ | mid |
HuggingFace: https://huggingface.co/lmms-lab/LLaVA-Video-7B-Qwen2