262 repos · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

LLaVA-Video-7B-Qwen2

★ 126 apache-2.0 更新: 2024-10-25 GitHubで見る →

概要

LLaVA-Video-7B-Qwen2は、動画理解に特化した7B規模のマルチモーダルモデルです。

画像・複数画像・動画を扱えますが、特に動画に対する詳細説明や質問応答を想定しており、最大64フレームまで処理できます。

Qwen2系と言語モデルと32Kコンテキストを基盤にし、TransformersやPyTorch経由でPython/CLI環境から利用します。

動画解析、研究、評価ベンチマーク検証を行いたい開発者や研究者向けのモデルです。

互換性・特徴

  • Python
  • CLI
  • Transformers
  • PyTorch
  • GPU必須
  • 動画対応

基本情報

ライセンスapache-2.0
Likes126
Downloads28,787
Pipelinevideo-text-to-text
カテゴリマルチモーダル
アクティビティmid

HuggingFace: https://huggingface.co/lmms-lab/LLaVA-Video-7B-Qwen2