概要
LLaVAは、視覚指示チューニングを用いてGPT-4レベルの能力を持つ大規模言語およびビジョンアシスタントです。
画像だけでなく動画タスクも処理でき、より多くのピクセルを扱います。
主な機能として、LLaMA-3やQwen-1.5をサポートするLLaVA-NeXT、マルチモーダルエージェントのためのツール利用学習を可能にするLLaVA-Plus、画像チャット、セグメンテーション、生成、編集が可能なLLaVA-Interactiveがあります。
研究者や、マルチモーダルAI、大規模言語モデル、コンピュータビジョン分野の開発者、特にGPT-4Vレベルのオープンソースモデルを求めるユーザーに適しています。
互換性・特徴
- Python
- GPU必須
- Web UI
- Hugging Face対応
- llama.cpp互換
- マルチモーダル
基本情報
| ライセンス | Apache-2.0 |
| Stars | 24,893 |
| Forks | 2,773 |
| カテゴリ | マルチモーダル |
| アクティビティ | mid |
最新のissue
- [質問] LLaVA評価がベンチマーク推論でbatch_size == 1をアサートするのはなぜですか? (更新: 2026-05-24 / [Question] Why does LLaVA evaluation assert batch_size == 1 for benchmark inference?)
- [質問] FlashattentionとPyTorchの最小バージョン、その他の依存関係は何ですか? (更新: 2026-05-22 / [Question] What are the dependencies like what is the minimal Flashattention verison, Pytorch version any other ?)
- [質問] ビジョンタワーの変更 (更新: 2026-05-07 / [Question] Changing the vision tower.)
- [利用] Vizwiz用EvalAIチャレンジサーバーはテスト利用不可 (更新: 2026-05-04 / [Usage] EvalAI challenge server for vizwiz is no longer open for testing)
最新リリース: Release v1.2.0 (LLaVA-1.6) (2024-01-31)
