540 repos · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

LLaVA

★ 24.8k ⑂ 2,762 Apache-2.0 更新: 2024-08-12 GitHubで見る →

概要

LLaVAは、視覚指示チューニングを用いてGPT-4レベルの能力を持つ大規模言語およびビジョンアシスタントです。

画像だけでなく動画タスクも処理でき、より多くのピクセルを扱います。

主な機能として、LLaMA-3やQwen-1.5をサポートするLLaVA-NeXT、マルチモーダルエージェントのためのツール利用学習を可能にするLLaVA-Plus、画像チャット、セグメンテーション、生成、編集が可能なLLaVA-Interactiveがあります。

研究者や、マルチモーダルAI、大規模言語モデル、コンピュータビジョン分野の開発者、特にGPT-4Vレベルのオープンソースモデルを求めるユーザーに適しています。

互換性・特徴

  • Python
  • GPU必須
  • Web UI
  • Hugging Face対応
  • llama.cpp互換
  • マルチモーダル

基本情報

ライセンスApache-2.0
Stars24,781
Forks2,762
カテゴリマルチモーダル
アクティビティmid

最新のissue

最新リリース: Release v1.2.0 (LLaVA-1.6) (2024-01-31)

GitHub: https://github.com/haotian-liu/LLaVA