OmniVoice

概要

OmniVoiceは、600以上の言語に対応する多言語ゼロショットテキスト音声合成（TTS）モデルです。

独自の拡散言語モデルアーキテクチャを採用し、高品質かつ超高速な音声生成を実現します。

短い参照音声からのボイスクローニング機能や、性別、年齢、アクセントなどの話者属性を指定して音声をデザインする機能も提供。

非言語シンボルや発音修正による細かな制御も可能です。

多言語対応の音声合成や声のカスタマイズを求める開発者や研究者に最適なツールです。

HuggingFace: https://huggingface.co/k2-fsa/OmniVoice