概要
このプロジェクトは、テキストから画像、音楽/音声、音声、さらに画像やテキストから3Dモデルを生成できるローカルAI生成MCPサーバーです。
高速なSSD-1Bによる画像生成、高品質なStable Audio Openでの音楽生成、多言語対応のQwen3-TTSでの音声合成、TripoSRによる3D再構築といった最先端のAIモデルを統合しています。
NVIDIA GPU(VRAM 8GB以上推奨)とPython 3.10+を必要とし、Hugging Faceの認証を設定することで利用可能です。
想定ユーザーは、ローカル環境で多様なAI生成タスクを実行したい開発者やAIアーティスト、またはMCPクライアントと連携してAI機能を活用したい人々です。
セットアップは簡単で、スモークテストも提供されます。
互換性・特徴
- Python
- GPU必須
- CLI
- Hugging Face対応
- AI生成
- MCP対応
基本情報
| ライセンス | GPL-3.0 |
| Stars | 1 |
| カテゴリ | 音楽・音声生成 |
| アクティビティ | low |