概要
FunAudioLLMが開発するCosyVoiceは、大規模言語モデル(LLM)を基盤とした多言語対応の音声生成モデルです。
最新版のFun-CosyVoice 3.0は、9言語(日本語を含む)と多数の中国方言でのゼロショット音声合成を可能にし、コンテンツの一貫性、話者類似性、イントネーションの自然さにおいて高い性能を誇ります。
発音の細かな調整や、数字・記号の直接読み上げ、低遅延でのリアルタイムストリーミングも特徴です。
研究者、開発者、コンテンツクリエイターが、高品質な多言語音声コンテンツを効率的に生成・利用することを想定しています。
互換性・特徴
- 日本語対応
- Python
- LLMベース
- API
- 音声合成
- ゼロショット音声クローン
基本情報
| ライセンス | Apache-2.0 |
| Stars | 21,023 |
| Forks | 2,421 |
| カテゴリ | TTS / 音声 |
| アクティビティ | high |
最新のissue
- メモリリーク (更新: 2026-05-14 / 内存泄漏)
- 生成された音声が意味不明です (更新: 2026-05-12 / 生成的音频是胡言乱语)
- API呼び出しをサポートしていますか? (更新: 2026-05-11 / 支持api调用吗?)
- cosy3 python3.12環境での依存関係の変更を直接実行 (更新: 2026-05-10 / 用这个直接跑cosy3 python3.12 下的依赖变更)
