Qwen3-TTS-12Hz-1.7B-CustomVoice

概要

Qwen3-TTSは、テキストを音声に変換する先進的なモデルで、中国語、英語、日本語を含む10の主要言語と複数の方言プロファイルをサポートしています。

独自のQwen3-TTS-Tokenizer-12Hzとユニバーサルなエンドツーエンドアーキテクチャにより、高効率な音響圧縮と高品質な音声生成を実現。

特に、リアルタイム対話シナリオに対応する低遅延ストリーミング生成機能と、自然言語の指示に基づいたトーン、話速、感情表現の適応制御が特徴です。

多言語対応の高品質な音声合成を求める開発者や、リアルタイム対話システムを構築する企業を想定しています。

HuggingFace: https://huggingface.co/Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice