概要
Qwen3-TTSは、テキストを音声に変換する先進的なモデルで、中国語、英語、日本語を含む10の主要言語と複数の方言プロファイルをサポートしています。
独自のQwen3-TTS-Tokenizer-12Hzとユニバーサルなエンドツーエンドアーキテクチャにより、高効率な音響圧縮と高品質な音声生成を実現。
特に、リアルタイム対話シナリオに対応する低遅延ストリーミング生成機能と、自然言語の指示に基づいたトーン、話速、感情表現の適応制御が特徴です。
多言語対応の高品質な音声合成を求める開発者や、リアルタイム対話システムを構築する企業を想定しています。
互換性・特徴
- テキスト読み上げ
- 多言語対応
- 日本語対応
- Python
- GPU必須
- Hugging Face
基本情報
| ライセンス | apache-2.0 |
| Likes | 1,452 |
| Downloads | 1,749,489 |
| Pipeline | text-to-speech |
| カテゴリ | TTS / 音声 |
| アクティビティ | mid |
HuggingFace: https://huggingface.co/Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice
