概要
このツールは、韓国語に特化した音声複製TTS(Text-to-Speech)サービスです。
既存のGPT-SoVITSプロジェクトを基盤としていますが、WebUIを排除し、CLIパイプラインとREST API構造に再設計されています。
1〜5分程度の少量の音声データで特定の話者の声を学習し、その後REST APIを通じてリアルタイムで音声を合成できます。
主な特徴として、rawオーディオから学習、合成までを単一コマンドで実行できるE2Eパイプライン、必要なモデルの自動ダウンロード機能、学習と推論のDockerイメージ分離、中間生成物の確認が可能なREST APIと検収UI、そして学習完了後の生成物自動整理機能が挙げられます。
開発者や、特定の音声で高品質な韓国語TTSサービスを構築したい企業、または既存のシステムに音声合成機能を組み込みたいユーザーに適しています。
互換性・特徴
- 韓国語対応
- CLI
- REST API
- Python
- Docker
- GPU必須
基本情報
| ライセンス | MIT |
| Stars | 2 |
| カテゴリ | 音声生成 / TTS |
| アクティビティ | low |
