概要
Confucius4-TTSは、LLMと音声エンコーダをベースにした、多言語・異言語対応のゼロショット音声合成エンジンです。
「One voice. Any language.」をコンセプトに、たった一つの声から14の異なる言語で高品質な音声を生成できます。
参照音声のみで追加学習なしに話者の声をクローンし、その声で別言語を話させたり、感情を転送したりする機能が特徴です。
多言語環境で一貫した話者による音声コンテンツを作成したい開発者や研究者に特に適しています。
CLIまたはPython APIを通じて利用可能で、オンラインデモも提供されています。
互換性・特徴
- Python
- CLI
- Web UI
- GPU必須
- Hugging Face対応
- 音声合成
基本情報
| ライセンス | NOASSERTION |
| Stars | 142 |
| Forks | 13 |
| カテゴリ | 音声生成 / TTS |
| アクティビティ | mid |
最新のissue
- 固定長文字数での文字消失が発生。参照音声が異なっても同じテキストで同じ箇所で発生 (更新: 2026-06-04 / 感觉存在固定长度字数的吞字情况,不同参考音频相同文案都会在同一个地方吞字)
