1,738 repos · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

index-tts

★ 20.7k ⑂ 2,555 NOASSERTION 更新: 2026-03-16 GitHubで見る →

概要

IndexTTS2は、高精度な発話時間制御と感情表現豊かな音声を生成できる、産業レベルのゼロショットテキスト読み上げ(TTS)システムです。

既存の課題である発話時間制御の難しさを解決し、トークン数指定または自由生成モードに対応します。

さらに、音色と感情の独立制御を可能にし、指定された音色と感情をゼロショット設定で忠実に再現します。

GPT潜在表現と3段階トレーニングパラダイムにより、安定性と明瞭度を向上させ、Qwen3ベースのソフトインストラクション機構で感情制御も容易に。

ビデオ吹き替えやオーディオビジュアル同期など、精密な音声制御が求められる用途に最適で、開発者やコンテンツクリエーターを想定ユーザーとしています。

互換性・特徴

  • Zero-Shot TTS
  • 感情表現制御
  • 発話時間制御
  • Python
  • Web UI
  • GPU推奨

基本情報

ライセンスNOASSERTION
Stars20,683
Forks2,555
カテゴリTTS / 音声
アクティビティmid

最新のissue

最新リリース: IndexTTS-1.5 (2025-09-01)

GitHub: https://github.com/index-tts/index-tts