概要
GPT-SoVITS-WebUIは、最小1分の音声データから高品質なText-to-Speech(TTS)モデルをトレーニングできる強力なFew-shot音声変換・テキスト読み上げツールです。
5秒の音声サンプルで即座にTTSが可能なゼロショット機能や、日本語を含む多言語での推論に対応しています。
初心者でもデータセット作成やモデル構築ができるよう、WebUIに音声伴奏分離、自動学習セット分割、中国語ASR、テキストラベリングなどのツールが統合されています。
GPUでの高速推論を想定しており、音声変換やテキスト読み上げに関心のある幅広いユーザーがターゲットです。
互換性・特徴
- Web UI
- Python
- GPU必須
- 日本語対応
- 多言語対応
- Docker対応
基本情報
| ライセンス | MIT |
| Stars | 57,398 |
| Forks | 6,259 |
| カテゴリ | TTS / 音声 |
| アクティビティ | high |
最新のissue
- openclawの統合方法?skillとして、既存のモデルファイル(.pthなど)があります、ありがとうございます!starしました (更新: 2026-05-11 / 如何接入小龙虾openclaw?最好是一个skill,已有模型文件pth之类的了,谢谢!star了)
- 時々、空白のオーディオが返されることがありますか? (更新: 2026-05-11 / 有时候会返回空白音频?)
- [バグ] /set_modelエンドポイントにおける安全でないpickle deserializationを介した認証なしRCE (更新: 2026-05-10 / [bug]Unauthenticated RCE via unsafe pickle deserialization in `/set_model` endpoint)
- カスタム文字の読み方 (更新: 2026-05-06 / 自定義文字讀音)
- _pickle.UnpicklingError: pickleデータが切り詰められました および プロセス0が終了コード3221225477で終了しました (更新: 2026-05-06 / _pickle.UnpicklingError: pickle data was truncated 和 process 0 terminated with exit code 3221225477)
最新リリース: 20250606v2pro (2025-06-06)