StyleTTS2

概要

StyleTTS 2は、テキストから人間レベルの自然な音声を合成する最新のText-to-Speech（TTS）モデルです。

スタイル拡散モデルと大規模音声言語モデル（SLM）を組み合わせた敵対的学習を特徴とし、参照音声なしでテキストに最適なスタイルを自動的に生成できます。

これにより、拡散モデルの多様な音声合成能力を維持しつつ、効率的な潜在拡散を実現しています。

また、WavLMなどの大規模な事前学習済みSLMをディスクリミネータとして利用することで、エンドツーエンドの学習を通じて音声の自然さを向上させています。

このモデルは、単一話者および多話者のデータセットで人間の録音と同等、あるいはそれ以上の自然さを達成し、ゼロショット話者適応においても優れた性能を示します。

高品質な音声合成技術の研究者や開発者、特にPython環境で最新のTTSモデルを構築・利用したいユーザーに適しています。

Hugging FaceのオンラインデモやColabでも体験可能です。