概要
GPT-SoVITS-WebUIは、最小1分の音声データから高品質なText-to-Speech(TTS)モデルをトレーニングできる強力なFew-shot音声変換・テキスト読み上げツールです。
5秒の音声サンプルで即座にTTSが可能なゼロショット機能や、日本語を含む多言語での推論に対応しています。
初心者でもデータセット作成やモデル構築ができるよう、WebUIに音声伴奏分離、自動学習セット分割、中国語ASR、テキストラベリングなどのツールが統合されています。
GPUでの高速推論を想定しており、音声変換やテキスト読み上げに関心のある幅広いユーザーがターゲットです。
互換性・特徴
- Web UI
- Python
- GPU必須
- 日本語対応
- 多言語対応
- Docker対応
基本情報
| ライセンス | MIT |
| Stars | 59,116 |
| Forks | 6,447 |
| カテゴリ | 音声生成 / TTS |
| アクティビティ | high |
最新のissue
- 注音笔误大佬有空看一下 (更新: 2026-06-27)
- Full ONNX export (更新: 2026-06-22)
- Bug 报告:xxxxrt666/gpt-sovits:latest-cu128 镜像 torchcodec 与 torch 版本不匹配,导致全部 TTS 推理失败 (更新: 2026-06-17)
- 有人在昇腾服务器上部署过吗? (更新: 2026-06-10)
最新リリース: 20250606v2pro (2025-06-06)
