LLaVA-Video-7B-Qwen2

概要

LLaVA-Video-7B-Qwen2は、動画理解に特化した7B規模のマルチモーダルモデルです。

画像・複数画像・動画を扱えますが、特に動画に対する詳細説明や質問応答を想定しており、最大64フレームまで処理できます。

Qwen2系と言語モデルと32Kコンテキストを基盤にし、TransformersやPyTorch経由でPython/CLI環境から利用します。

動画解析、研究、評価ベンチマーク検証を行いたい開発者や研究者向けのモデルです。

HuggingFace: https://huggingface.co/lmms-lab/LLaVA-Video-7B-Qwen2