概要
LLaVAは、視覚指示チューニングを用いてGPT-4レベルの能力を持つ大規模言語およびビジョンアシスタントです。
画像だけでなく動画タスクも処理でき、より多くのピクセルを扱います。
主な機能として、LLaMA-3やQwen-1.5をサポートするLLaVA-NeXT、マルチモーダルエージェントのためのツール利用学習を可能にするLLaVA-Plus、画像チャット、セグメンテーション、生成、編集が可能なLLaVA-Interactiveがあります。
研究者や、マルチモーダルAI、大規模言語モデル、コンピュータビジョン分野の開発者、特にGPT-4Vレベルのオープンソースモデルを求めるユーザーに適しています。
互換性・特徴
- Python
- GPU必須
- Web UI
- Hugging Face対応
- llama.cpp互換
- マルチモーダル
基本情報
| ライセンス | Apache-2.0 |
| Stars | 24,781 |
| Forks | 2,762 |
| カテゴリ | マルチモーダル |
| アクティビティ | mid |
最新のissue
- [質問] ビジョンタワーの変更 (更新: 2026-05-07 / [Question] Changing the vision tower.)
- [利用] Vizwiz用EvalAIチャレンジサーバーはテスト利用不可 (更新: 2026-05-04 / [Usage] EvalAI challenge server for vizwiz is no longer open for testing)
- [議論] Python 3.12のGoogle Colab Proでfinetune_task_lora.shを実行する方法 (更新: 2026-04-19 / [Discussion] How to finetune_task_lora.sh in google collab pro which is already python 3.12?)
- [質問] ファインチューニングエポック数の不一致 (更新: 2026-04-18 / [Question] the number of finetuning epochs mismatch)
- [利用] 保存済みチェックポイントからの学習再開時に"trainer_state.json"が見つからない (更新: 2026-04-17 / [Usage] Missing "trainer_state.json" when resuming training from saved checkpoints)
最新リリース: Release v1.2.0 (LLaVA-1.6) (2024-01-31)
