GPT-SoVITS-ko

概要

このツールは、韓国語に特化した音声複製TTS（Text-to-Speech）サービスです。

既存のGPT-SoVITSプロジェクトを基盤としていますが、WebUIを排除し、CLIパイプラインとREST API構造に再設計されています。

1〜5分程度の少量の音声データで特定の話者の声を学習し、その後REST APIを通じてリアルタイムで音声を合成できます。

主な特徴として、rawオーディオから学習、合成までを単一コマンドで実行できるE2Eパイプライン、必要なモデルの自動ダウンロード機能、学習と推論のDockerイメージ分離、中間生成物の確認が可能なREST APIと検収UI、そして学習完了後の生成物自動整理機能が挙げられます。

開発者や、特定の音声で高品質な韓国語TTSサービスを構築したい企業、または既存のシステムに音声合成機能を組み込みたいユーザーに適しています。

GitHub: https://github.com/leejgdh/GPT-SoVITS-ko