262 repos · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

LLaVA-NeXT-Video-7B-hf

★ 123 llama2 更新: 2025-11-11 GitHubで見る →

概要

LLaVA-NeXT-Video-7B-hfは、画像と動画を一緒に理解して対話できるオープンソースのマルチモーダル生成モデルです。

Transformers経由でPythonから利用でき、複数の画像・動画入力やチャット形式プロンプトに対応します。

動画はフレーム抽出して扱い、内容説明、質問応答、要約、映像理解タスクに向きます。

主にGPU環境の開発者や研究者、映像AIを試したい実装者向けで、4bit量子化やFlash-Attention 2による高速化も案内されています。

互換性・特徴

  • GPU必須
  • Python
  • Transformers
  • 動画理解
  • 画像入力対応
  • CLI

基本情報

ライセンスllama2
Likes123
Downloads140,814
Pipelinevideo-text-to-text
カテゴリマルチモーダル
アクティビティmid

HuggingFace: https://huggingface.co/llava-hf/LLaVA-NeXT-Video-7B-hf