概要
Supertonic Embeddings Trainerは、SupertonicTTS向けのローカルボイスクローニングパイプラインです。
WAVファイルをアップロードして声のスタイル埋め込みを学習し、その声で音声を合成できます。
クラウドAPIは不要で、Supertonic v2とv3の両方をサポートしています。
WavLM Layer 3 MSEまたはECAPA-guidedの2つの損失モード、トレーニングの中断・再開、自動音声マッチング、リアルタイムの進捗表示などの機能を備えています。
Gradio UIを通じて直感的に操作可能で、SupertonicTTSを使って声のクローンを作成したい開発者や研究者、またはローカルでの音声合成を重視するユーザーに適しています。
互換性・特徴
- SupertonicTTS対応
- Python
- Web UI
- GPU必須
- ローカル実行
- 音声合成
基本情報
| ライセンス | MIT |
| Stars | 3 |
| カテゴリ | 音声生成 / TTS |
| アクティビティ | low |
GitHub: https://github.com/Saganaki22/supertonic_embeddings_trainer
