概要
GEMSは、エージェントネイティブなマルチモーダル生成のための先進的なフレームワークです。
記憶とスキルを活用し、Kimi-K2.5のような大規模マルチモーダル言語モデル(MLLM)と、Z-Image-TurboやQwen-Image-2512などの画像生成モデルを組み合わせて、テキストから画像、あるいはその他の複合的なコンテンツを生成します。
SglangやDiffusersといった技術を基盤とし、ユーザーが独自のスキルを容易に追加できる拡張性が特徴です。
研究者や開発者が、複雑な生成タスクやエージェントベースのAIシステムを構築・評価する際に特に役立ちます。
互換性・特徴
- Python
- CLI
- GPU必須
- Web API
- Agent-based
- Multimodal Generation
基本情報
| Stars | 127 |
| Forks | 10 |
| カテゴリ | マルチモーダル |
| アクティビティ | mid |
GitHub: https://github.com/lcqysl/GEMS
