概要
「Mini-Gemini」は、画像理解、推論、生成を同時に行うことができるマルチモダリティ大規模言語モデル(LLM)フレームワークです。
LLaVAをベースに、2Bから34Bまでの多様なLLM(LLaMA3ベース含む)をサポートし、デュアルビジョンエンコーダーやパッチ情報マイニング技術により、高解像度の画像処理とテキスト連携を実現します。
研究者や開発者が、画像とテキストを統合した高度なAIアプリケーションを構築し、複雑なマルチモーダルタスクに取り組むことを想定しています。
互換性・特徴
- Python
- GPU必須
- Web UI
- Hugging Face対応
- LLMフレームワーク
- 研究/開発ツール
基本情報
| ライセンス | Apache-2.0 |
| Stars | 3,326 |
| Forks | 275 |
| カテゴリ | マルチモーダル |
| アクティビティ | mid |
最新のissue
- mgm-34b-hd: config.jsonに’model_type’キーが必要です (更新: 2025-03-31 / mgm-34b-hd, should have a ‘model_type’ key in its config.json)
- Google Gemmaモデルファミリーへの医療科学研究目的でのアクセス申請 (更新: 2024-12-28 / Request for Access to Google’s Gemma models family for Medical Science Research)
- builder.pyでLoRAの初期化が不足 (更新: 2024-11-22 / lora initialisation missing from builder.py)
- ComfyUI: タスク開始時に以下のエラーが発生 (更新: 2024-11-15 / comfyUI 开始任务出现如下错误)
