概要
IndexTTS2は、高精度な発話時間制御と感情表現豊かな音声を生成できる、産業レベルのゼロショットテキスト読み上げ(TTS)システムです。
既存の課題である発話時間制御の難しさを解決し、トークン数指定または自由生成モードに対応します。
さらに、音色と感情の独立制御を可能にし、指定された音色と感情をゼロショット設定で忠実に再現します。
GPT潜在表現と3段階トレーニングパラダイムにより、安定性と明瞭度を向上させ、Qwen3ベースのソフトインストラクション機構で感情制御も容易に。
ビデオ吹き替えやオーディオビジュアル同期など、精密な音声制御が求められる用途に最適で、開発者やコンテンツクリエーターを想定ユーザーとしています。
互換性・特徴
- Zero-Shot TTS
- 感情表現制御
- 発話時間制御
- Python
- Web UI
- GPU推奨
基本情報
| ライセンス | NOASSERTION |
| Stars | 20,683 |
| Forks | 2,555 |
| カテゴリ | TTS / 音声 |
| アクティビティ | mid |
最新のissue
- AMD ROCmのWindowsサポートについて (更新: 2026-05-19 / AMD ROCm Windows support)
- LFXの予算が再び超過しました (更新: 2026-05-18 / LFX budget exceeded again)
- ModuleNotFoundError: ‘gradio’モジュールが見つかりません (更新: 2026-05-15 / 求大佬解决,ModuleNotFoundError: No module named ‘gradio’)
- 8G VRAM NVIDIA GPU向けWindows統合パックを公開、テスト歓迎 (更新: 2026-05-08 / 做了一个8G显存N卡可运行的windows整合包,欢迎大家测试,如有不敬请多包涵。)
- index tokenizerのロシア語対応について助けが必要です (更新: 2026-05-06 / Can someone help me adapt the index tokenizer to the Russian language?)
最新リリース: IndexTTS-1.5 (2025-09-01)
