540 repos · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

マルチモーダル

LLaVA

★ 24.8k ⑂ 2,762 Apache-2.0 更新: 2024-08-12 GitHubで見る →

#GPU必須 #Hugging Face対応 #llama.cpp互換 #Python #Web UI #マルチモーダル

概要

LLaVAは、視覚指示チューニングを用いてGPT-4レベルの能力を持つ大規模言語およびビジョンアシスタントです。

画像だけでなく動画タスクも処理でき、より多くのピクセルを扱います。

主な機能として、LLaMA-3やQwen-1.5をサポートするLLaVA-NeXT、マルチモーダルエージェントのためのツール利用学習を可能にするLLaVA-Plus、画像チャット、セグメンテーション、生成、編集が可能なLLaVA-Interactiveがあります。

研究者や、マルチモーダルAI、大規模言語モデル、コンピュータビジョン分野の開発者、特にGPT-4Vレベルのオープンソースモデルを求めるユーザーに適しています。

互換性・特徴

Python
GPU必須
Web UI
Hugging Face対応
llama.cpp互換
マルチモーダル

基本情報

ライセンス	Apache-2.0
Stars	24,781
Forks	2,762
カテゴリ	マルチモーダル
アクティビティ	mid

最新のissue

[質問] ビジョンタワーの変更 (更新: 2026-05-07 / [Question] Changing the vision tower.)
[利用] Vizwiz用EvalAIチャレンジサーバーはテスト利用不可 (更新: 2026-05-04 / [Usage] EvalAI challenge server for vizwiz is no longer open for testing)
[議論] Python 3.12のGoogle Colab Proでfinetune_task_lora.shを実行する方法 (更新: 2026-04-19 / [Discussion] How to finetune_task_lora.sh in google collab pro which is already python 3.12?)
[質問] ファインチューニングエポック数の不一致 (更新: 2026-04-18 / [Question] the number of finetuning epochs mismatch)
[利用] 保存済みチェックポイントからの学習再開時に"trainer_state.json"が見つからない (更新: 2026-04-17 / [Usage] Missing "trainer_state.json" when resuming training from saved checkpoints)

最新リリース: Release v1.2.0 (LLaVA-1.6) (2024-01-31)

GitHub: https://github.com/haotian-liu/LLaVA

← 全リポジトリ一覧へ