概要
MOSS-TTS Familyは、MOSI.AIとOpenMOSSチームが開発したオープンソースの音声およびサウンド生成モデル群です。
高忠実度と高表現力を特長とし、安定した長尺スピーチ、複数話者ダイアログ、音声/キャラクターデザイン、環境音エフェクト、リアルタイムストリーミングTTSといった複雑な現実世界シナリオに対応します。
最新のMOSS-SoundEffect-v2.0では48kHzのバイリンガルサウンドエフェクト生成が可能になり、MOSS-TTS-v1.5では多言語合成と音声クローン機能が強化されています。
また、軽量なMOSS-TTS-Nanoモデルは4CPUコアでストリーミング出力に対応。
API、Web UI、Hugging Faceモデルとして提供されており、高品質な音声・サウンドコンテンツを必要とする開発者、クリエイター、研究者など幅広いユーザーを想定しています。
互換性・特徴
- Python
- オープンソース
- API
- Web UI
- 多言語対応
- 音声生成
基本情報
| ライセンス | Apache-2.0 |
| Stars | 3,247 |
| Forks | 285 |
| カテゴリ | 音声生成 / TTS |
| アクティビティ | high |
最新のissue
- 24GのVRAMでCUDA error: out of memoryが発生するのは正常ですか? (更新: 2026-06-07 / 24G显存出现CUDA error: out of memory正常吗?)
- [Feature Request] Explicit pt-BR (Brazilian Portuguese) language tag, separate from pt-PT (更新: 2026-06-05)
- Finetune Guide (更新: 2026-06-03)
- 「1時間超長尺音声」戦略と最大学習シーケンス長のためのベストプラクティス (更新: 2026-06-03 / Strategy for "1-Hour Ultra-long Speech" & Best Practices for Max Training Sequence Length)
