概要
StyleTTS 2は、テキストから人間レベルの自然な音声を合成する最新のText-to-Speech(TTS)モデルです。
スタイル拡散モデルと大規模音声言語モデル(SLM)を組み合わせた敵対的学習を特徴とし、参照音声なしでテキストに最適なスタイルを自動的に生成できます。
これにより、拡散モデルの多様な音声合成能力を維持しつつ、効率的な潜在拡散を実現しています。
また、WavLMなどの大規模な事前学習済みSLMをディスクリミネータとして利用することで、エンドツーエンドの学習を通じて音声の自然さを向上させています。
このモデルは、単一話者および多話者のデータセットで人間の録音と同等、あるいはそれ以上の自然さを達成し、ゼロショット話者適応においても優れた性能を示します。
高品質な音声合成技術の研究者や開発者、特にPython環境で最新のTTSモデルを構築・利用したいユーザーに適しています。
Hugging FaceのオンラインデモやColabでも体験可能です。
互換性・特徴
- Python
- GPU必須
- CLI
- Hugging Face
- Colab
- 音声合成
基本情報
| ライセンス | MIT |
| Stars | 6,290 |
| Forks | 691 |
| カテゴリ | 画像生成 |
| アクティビティ | mid |
最新のissue
- LJSpeechでの第1ステージ学習において、train gen_lossの増加が遅いです。これは正しいですか? (更新: 2026-06-01 / Train first stage on LJSpeech, train gen_loss is slower increase???Is this correct??)
- インドはなぜこんなに急速に発展しているのか? (更新: 2026-05-10 / भारत इतनी तेजी से आगे क्यों बढ़ रहा है?)
- RuntimeError: input[1, 140, 1]は1チャネルを期待したが、140チャネルを受け取った (更新: 2026-05-08 / RuntimeError: Given groups=1, weight of size [1, 1, 3], expected input[1, 140, 1] to have 1 channels, but got 140 channels instead)
